AI Safety
AI Safety Policy
Cách hieu.asia phòng vệ AI: guardrails theo OWASP LLM Top 10, refusal policy 6 categories, 4 layer validation, adversarial testing 600 prompts.
1. Định hướng
Framework rủi ro và chất lượng tham chiếu.
OWASP LLM Top 10
hieu.asia áp dụng OWASP LLM Top 10 làm framework rủi ro tham chiếu.
Xem frameworkNIST AI RMF
NIST AI Risk Management Framework làm framework chất lượng.
Xem framework4 nhóm rủi ro chính
Hallucination, unsafe advice, prompt injection, sensitive data leakage.
2. Bảng guardrail
10 rủi ro chính và biện pháp đối ứng đang vận hành.
| Rủi ro | Biện pháp | Trạng thái |
|---|---|---|
| Prompt injection | User input không được sửa system prompt hoặc gọi tool trái phép | Active |
| Hallucinated star | AI nhắc sao không có trong chart JSON → reject/regenerate | Active |
| Unsafe medical advice | Chuyển hướng sang chuyên gia y tế | Active (safety-guard) |
| Financial advice | Không khuyến nghị giao dịch, all-in, mã cụ thể | Active (safety-guard) |
| Legal advice | Không thay luật sư, chỉ giúp chuẩn bị câu hỏi | Active (safety-guard) |
| Relationship harm | Không kết luận phản bội/chia tay/cưới ngay | Active (safety-guard) |
| Third-party analysis | Không phân tích người thứ ba thiếu consent | Active (policy) |
| Sensitive data leakage | Prompt/completion ẩn danh hoá trước observability | Active (Langfuse mask) |
| Over-personalization | Có disclaimer và confidence score | Active |
| Generic answer | Output phải có dữ kiện lá số + bối cảnh + hành động cụ thể | Active (detector) |
3. Refusal policy
6 categories engine từ chối trả lời — kèm ví dụ user prompt và reply mẫu.
self_harm
Redirect: surface 1800 599 920 hotline
User prompt ví dụ
"Tôi không muốn sống nữa, bạn nghĩ sao về lá số tôi?"
Reply mẫu
Mình rất lo cho bạn. Mình không phải chuyên gia tâm lý — bạn vui lòng gọi 1800 599 920 (Ngày Mai – đường dây hỗ trợ khủng hoảng) ngay để có người đồng hành. Lá số có thể đợi.
mortality
Redirect: không phán sống chết
User prompt ví dụ
"Lá số tôi cho biết tôi sống được bao lâu?"
Reply mẫu
Mình không đoán thọ mệnh hay thời điểm qua đời từ lá số. Đây là ranh giới đạo đức của hieu.asia. Mình có thể giúp bạn nhìn các chủ đề sức khoẻ và lựa chọn lối sống thay vào đó.
medical
Redirect: chuyển bác sĩ
User prompt ví dụ
"Tôi đau ngực mấy hôm rồi, lá số nói tôi bị gì?"
Reply mẫu
Mình không chẩn đoán y tế. Triệu chứng đau ngực cần được bác sĩ khám trực tiếp — bạn đặt lịch với bác sĩ hoặc đến cơ sở y tế gần nhất sớm nhất có thể.
financial_specific (mua/bán cụ thể, all-in)
Redirect: chuyển advisor có chứng chỉ
User prompt ví dụ
"Tôi nên all-in vào mã VNM tuần này không?"
Reply mẫu
Mình không tư vấn giao dịch cụ thể hay khuyên all-in. Bạn cần advisor có chứng chỉ hành nghề. Mình có thể giúp bạn nhìn chủ đề tài chính tổng quát và câu hỏi tự phản tư về khẩu vị rủi ro.
relationship_decisive (có nên ly hôn ngay)
Redirect: chuyển chuyên gia tâm lý
User prompt ví dụ
"Tôi có nên ly hôn chồng tôi luôn không?"
Reply mẫu
Mình không quyết định ly hôn thay bạn. Đây là quyết định lớn cần chuyên gia tâm lý hôn nhân đồng hành. Mình có thể giúp bạn chuẩn bị câu hỏi để mang vào phiên trị liệu.
legal_specific (có nên kiện ai)
Redirect: chuyển luật sư
User prompt ví dụ
"Tôi có nên kiện công ty cũ không?"
Reply mẫu
Mình không tư vấn pháp lý. Bạn cần gặp luật sư để đánh giá hồ sơ cụ thể. Mình có thể giúp bạn liệt kê câu hỏi mang vào buổi tư vấn pháp lý.
4. Quy trình kiểm chứng (4 layers)
AI chỉ chen vào L3 — và bị bao bọc bởi L4.
- L1
Engine deterministic
Lập lá số, an sao → no AI
- L2
Evidence extraction
Trích cung/sao/đại vận liên quan → no AI
- L3
AI interpretation
AI diễn giải JSON → có guardrails
- L4
Safety classifier post-LLM
Reject/regenerate nếu vi phạm policy
5. Adversarial testing
Bộ test đối kháng định kỳ để xác nhận guardrails hoạt động.
- 100 prompts mỗi category x 6 categories = 600 tests.
- Tests gồm: trick prompts, jailbreaks, role-play attacks, encoding tricks, multi-turn injection.
- Pass rate hiện tại: ≥99%.
- Chạy lại mỗi prompt version thay đổi.
6. Báo cáo lỗi
Kênh báo cáo và SLA xử lý.
- User báo lỗi → /account/report.
- Email khẩn: safety@hieu.asia.
- SLA: phản hồi trong 72h, fix trong 7 ngày cho lỗi P0/P1.
7. References
Framework và quy định tham chiếu.
- OWASP LLM Top 10
- NIST AI Risk Management Framework
- Nghị định 13/2023/NĐ-CP về bảo vệ dữ liệu cá nhân
Liên quan: /methodology/model-card · /methodology.