Vừa qua các nhà nghiên cứu bảo mật thuộc Unit 42 của Palo Alto Networks đã phát hiện ra một kỹ thuật tấn công LLM Jailbreak mới, nhắm vào OpenAI và các model LLM (Large Language Models) khác hiện có, giúp nâng cao tỉ lệ tấn công thành công trong các cuộc tấn công mạng hơn 60%.

LLM Jailbreak là gì

LLM Jailbreak là một thuật ngữ thường dùng để chỉ hành động khai thác, vượt qua những hạn chế hay sự kiểm soát của một mô hình ngôn ngữ lớn (Large Language Model - LLM). Mục đích của LLM Jailbreak là điều khiển, ép buộc các mô hình LLM thực hiện các tác vụ mà nó không được phép làm, như cung cấp thông tin không phù hợp, thực hiện các yêu cầu không an toàn hoặc trái với các chính sách bảo mật.

Các kỹ thuật Jailbreak hiện tại

Các kỹ thuật LLM Jailbreak đang tồn tại trên không gian mạng chủ yếu hiện nay được thực hiện trực tiếp và trong một lượt phản hồi (single-turn) hoặc đa phản hồi (multi-turn) để bổ sung nội dung nhằm đưa ra kết quả chứa nội dung độc hại, bao gồm các kỹ thuật:

Persona persuasion [PDF]: Đây là chiến lược yêu cầu mô hình LLM giả vờ hoặc đóng vai một nhân vật nhất định, từ đó vượt qua các biện pháp bảo vệ để tạo ra những phản hồi mà lẽ ra bị hạn chế.
Role-playing, Do Anything Now (DAN): Kỹ thuật này yêu cầu mô hình LLM đóng vai một nhân vật không bị ràng buộc bởi các chính sách bảo mật. "Do Anything Now" là một dạng yêu cầu mô hình thực hiện bất kỳ tác vụ nào mà người sử dụng muốn, vượt qua các giới hạn mà mô hình bình thường sẽ không làm.
Token smuggling: Là kỹ thuật giấu các nội dung độc hại trong các token thông qua các phương pháp mã hóa, chẳng hạn như Base64, giúp "che giấu" prompt độc hại và đưa vào mô hình LLM mà không bị phát hiện ngay lập tức.

Kỹ thuật Bad Likert Judge

Được các nhà nghiên cứu gọi với cái tên Bad Likert Judge, kỹ thuật mới này tập trung nhắm tới khả năng đánh giá của các model LLM bằng thang điểm Likert. Đây là thang điểm đánh giá dựa trên việc "đồng ý" hay "không đồng ý" từ người trả lời về một vấn đề, một tuyên bố nào đó mà họ được nhận. Kỹ thuật này yêu cầu các mô hình LLM đánh giá các yêu cầu được gửi đến, sau đó yêu cầu tạo ra các phản hồi chứa các ví dụ phù hợp dựa trên từng thang điểm được đưa ra với mục đích cuối cùng tạo ra kết quả có những nội dung độc hại ở thang điểm cao nhất.

Các cuộc nghiên cứu thử nghiệm trên sáu LLM gồm OpenAI, Azure, Google, Amazon Web Services, Meta và Nvidia đều cho ra kết quả gần như giống nhau. Ở bước đầu tiên của quá trình tấn công, kỹ thuật Bad Likert Judge yêu cầu các mô hình LLM mục tiêu tiến hành đánh giá các kết quả được tạo ra từ những mô hình LLM khác. Để nâng cao khả năng sinh ra các nội dung độc hại từ mô hình LLM mục tiêu, kẻ tấn công có thể cung cấp thêm các hướng dẫn cụ thể cho mô hình LLM mục tiêu như ảnh dưới đây:

Khi bước đầu tiên cho ra kết quả như mong muốn, kẻ tấn công chỉ đơn giản thêm vào các yêu cầu mô hình LLM mục tiêu đưa ra các câu trả lời dựa theo thang Likert có chứa những nội dung độc hại mà kẻ tấn công cần. Ngoài ra để cho ra được nội dung độc hại như mong muốn, kẻ tấn công có thể bổ sung thêm các yêu cầu, hướng dẫn, hoặc các vòng lặp yêu cầu gửi tới mô hình LLM mục tiêu.

Tổng kết

Không có mô hình LLM nào an toàn trước các cuộc tấn công jailbreak (tấn công bẻ khoá), đây là lời khẳng định từ các nhà nghiên cứu bảo mật của Unit 42 từ Palo Alto Networks công bố trong bài nghiên cứu của mình do sự giới hạn về mặt tính toán của các mô hình LLM mục tiêu có thể khiến chúng bỏ qua hoặc bị vượt qua các biện pháp bảo vệ an toàn trên hệ thống.

Một trong những đề xuất để giảm thiểu rủi ro này từ phía các chuyên gia đó là sử dụng hệ thống lọc nội dung (content-filtering system). Nghiên cứu chỉ ra cho thấy hệ thống có thể giảm tỷ lệ cho ra các phản hồi chứa các nội dung không an toàn lên đến 89,2%, khiến đây trở thành một phương pháp tối ưu cần được triển khai rộng rãi trên thực tế tại các mô hình LLM.