AI Safety

AI Safety Policy

Cách hieu.asia phòng vệ AI: guardrails theo OWASP LLM Top 10, refusal policy 6 categories, 4 layer validation, adversarial testing 600 prompts.

1. Định hướng

Framework rủi ro và chất lượng tham chiếu.

OWASP LLM Top 10

hieu.asia áp dụng OWASP LLM Top 10 làm framework rủi ro tham chiếu.

Xem framework

NIST AI RMF

NIST AI Risk Management Framework làm framework chất lượng.

Xem framework

4 nhóm rủi ro chính

Hallucination, unsafe advice, prompt injection, sensitive data leakage.

2. Bảng guardrail

10 rủi ro chính và biện pháp đối ứng đang vận hành.

Rủi ro	Biện pháp	Trạng thái
Prompt injection	User input không được sửa system prompt hoặc gọi tool trái phép	Active
Hallucinated star	AI nhắc sao không có trong chart JSON → reject/regenerate	Active
Unsafe medical advice	Chuyển hướng sang chuyên gia y tế	Active (safety-guard)
Financial advice	Không khuyến nghị giao dịch, all-in, mã cụ thể	Active (safety-guard)
Legal advice	Không thay luật sư, chỉ giúp chuẩn bị câu hỏi	Active (safety-guard)
Relationship harm	Không kết luận phản bội/chia tay/cưới ngay	Active (safety-guard)
Third-party analysis	Không phân tích người thứ ba thiếu consent	Active (policy)
Sensitive data leakage	Prompt/completion ẩn danh hoá trước observability	Active (Langfuse mask)
Over-personalization	Có disclaimer và confidence score	Active
Generic answer	Output phải có dữ kiện lá số + bối cảnh + hành động cụ thể	Active (detector)

3. Refusal policy

6 categories engine từ chối trả lời — kèm ví dụ user prompt và reply mẫu.

self_harm

Redirect: surface 1800 599 920 hotline

User prompt ví dụ

"Tôi không muốn sống nữa, bạn nghĩ sao về lá số tôi?"

Reply mẫu

Mình rất lo cho bạn. Mình không phải chuyên gia tâm lý — bạn vui lòng gọi 1800 599 920 (Ngày Mai – đường dây hỗ trợ khủng hoảng) ngay để có người đồng hành. Lá số có thể đợi.

mortality

Redirect: không phán sống chết

User prompt ví dụ

"Lá số tôi cho biết tôi sống được bao lâu?"

Reply mẫu

Mình không đoán thọ mệnh hay thời điểm qua đời từ lá số. Đây là ranh giới đạo đức của hieu.asia. Mình có thể giúp bạn nhìn các chủ đề sức khoẻ và lựa chọn lối sống thay vào đó.

medical

Redirect: chuyển bác sĩ

User prompt ví dụ

"Tôi đau ngực mấy hôm rồi, lá số nói tôi bị gì?"

Reply mẫu

Mình không chẩn đoán y tế. Triệu chứng đau ngực cần được bác sĩ khám trực tiếp — bạn đặt lịch với bác sĩ hoặc đến cơ sở y tế gần nhất sớm nhất có thể.

financial_specific (mua/bán cụ thể, all-in)

Redirect: chuyển advisor có chứng chỉ

User prompt ví dụ

"Tôi nên all-in vào mã VNM tuần này không?"

Reply mẫu

Mình không tư vấn giao dịch cụ thể hay khuyên all-in. Bạn cần advisor có chứng chỉ hành nghề. Mình có thể giúp bạn nhìn chủ đề tài chính tổng quát và câu hỏi tự phản tư về khẩu vị rủi ro.

relationship_decisive (có nên ly hôn ngay)

Redirect: chuyển chuyên gia tâm lý

User prompt ví dụ

"Tôi có nên ly hôn chồng tôi luôn không?"

Reply mẫu

Mình không quyết định ly hôn thay bạn. Đây là quyết định lớn cần chuyên gia tâm lý hôn nhân đồng hành. Mình có thể giúp bạn chuẩn bị câu hỏi để mang vào phiên trị liệu.

legal_specific (có nên kiện ai)

Redirect: chuyển luật sư

User prompt ví dụ

"Tôi có nên kiện công ty cũ không?"

Reply mẫu

Mình không tư vấn pháp lý. Bạn cần gặp luật sư để đánh giá hồ sơ cụ thể. Mình có thể giúp bạn liệt kê câu hỏi mang vào buổi tư vấn pháp lý.

4. Quy trình kiểm chứng (4 layers)

AI chỉ chen vào L3 — và bị bao bọc bởi L4.

L1
Engine deterministic
Lập lá số, an sao → no AI
L2
Evidence extraction
Trích cung/sao/đại vận liên quan → no AI
L3
AI interpretation
AI diễn giải JSON → có guardrails
L4
Safety classifier post-LLM
Reject/regenerate nếu vi phạm policy

5. Adversarial testing

Bộ test đối kháng định kỳ để xác nhận guardrails hoạt động.

600 prompts tổng cộng: 6 bộ × 100 prompts/bộ.
2 bộ cốt lõi (sao bịa + safety refusal) đạt 100/100 — xem chi tiết tại /methodology.
4 bộ specialized (jailbreaks, role-play, encoding tricks, multi-turn injection) đạt ≥99%.
Chạy lại mỗi prompt version thay đổi.

6. Báo cáo lỗi

Kênh báo cáo và SLA xử lý.

User báo lỗi → /account/report.
Email khẩn: safety@hieu.asia.
SLA: phản hồi trong 72h, fix trong 7 ngày cho lỗi P0/P1.

7. References

Framework và quy định tham chiếu.

OWASP LLM Top 10
NIST AI Risk Management Framework
Nghị định 356/2025/NĐ-CP (thay thế 13/2023) + Luật Bảo vệ dữ liệu cá nhân 91/2025/QH15

Liên quan: /methodology/model-card · /methodology.

AI Safety Policy

1. Định hướng

OWASP LLM Top 10

NIST AI RMF

4 nhóm rủi ro chính

2. Bảng guardrail

3. Refusal policy

self_harm

mortality

medical

financial_specific (mua/bán cụ thể, all-in)

relationship_decisive (có nên ly hôn ngay)

legal_specific (có nên kiện ai)

4. Quy trình kiểm chứng (4 layers)

Engine deterministic

Evidence extraction

AI interpretation

Safety classifier post-LLM

5. Adversarial testing

6. Báo cáo lỗi

7. References