Gemini's Secret Affair: Prompt injection gián tiếp qua notification và kỹ thuật Fake Context Alignment

Một tin nhắn WhatsApp từ số lạ là đủ để biến trợ lý giọng nói Gemini thành công cụ của kẻ tấn công: mở cửa sổ thông minh trong nhà nạn nhân, phát video trực tiếp qua Zoom, hay đọc tin nhắn riêng tư mỗi tối lúc 8 giờ. Đó là những gì nhóm SafeBreach Labs trình diễn trong nghiên cứu "Gemini's Secret Affair" công bố ngày 03/06/2026 — và toàn bộ chuỗi tấn công không cần nạn nhân cài thêm bất kỳ thứ gì.

Tóm tắt
SafeBreach Labs phát hiện một lớp tấn công indirect prompt injection (IPI) mới nhắm vào trợ lý giọng nói Google Gemini, lợi dụng khả năng đọc và tóm tắt thông báo (notification) đến từ các ứng dụng nhắn tin: WhatsApp, Slack, SMS, Signal, Instagram, Messenger. Bằng kỹ thuật mới có tên Fake Context Alignment, nhóm nghiên cứu vượt qua được các biện pháp giảm thiểu mà Google triển khai sau nghiên cứu trước đó, qua đó ép Gemini thực thi hành động trái phép mà người dùng không hề hay biết.
Hệ quả gồm: điều khiển thiết bị nhà thông minh, phát video trực tiếp nạn nhân qua app khác, mạo danh người liên hệ tin cậy để lừa đảo quy mô lớn, và "đầu độc" bộ nhớ dài hạn của Gemini để duy trì truy cập lâu dài. SafeBreach đã báo cáo theo quy trình responsible disclosure; Google xác nhận đã giảm thiểu bằng cập nhật content classifier. Không có bằng chứng kỹ thuật này bị khai thác ngoài thực địa. Với tổ chức tại Việt Nam đang đưa AI assistant/agent vào quy trình, đây là lời cảnh báo rằng mọi dữ liệu đi vào ngữ cảnh của LLM đều phải bị coi là untrusted input.
Bối cảnh: từ lời mời lịch đến tin nhắn
Nghiên cứu này nối tiếp "Invitation Is All You Need", trong đó SafeBreach dùng lời mời Google Calendar làm vật mang payload để tiêm prompt gián tiếp vào Gemini. Sau công bố đó, Google đầu tư đáng kể vào việc vá — đặc biệt chặn việc chaining nhiều agent và một kỹ thuật tên là Delayed Tool Invocation.
Delayed Tool Invocation, do Johann Rehberger công bố, không yêu cầu Gemini thực thi hành động độc hại ngay lập tức. Thay vào đó, kẻ tấn công đầu độc ngữ cảnh để Gemini chỉ kích hoạt hành động sau một prompt vô hại của người dùng — ví dụ: khi người dùng trả lời "Cảm ơn", Gemini mới mở cửa sổ qua agent Google Home.

Lần này, mục tiêu chuyển sang trợ lý giọng nói — bề mặt rộng hơn và được tin tưởng hơn nhiều. Trợ lý giọng nói có một đặc tính khiến nó đặc biệt nguy hiểm: khi Gemini đặt câu hỏi, nó tự động mở microphone và chờ người dùng trả lời. Cơ chế này cho phép kẻ tấn công ép nhiều lượt tương tác (multi-turn) từ nạn nhân — điều kiện then chốt để dựng các đòn tấn công nhiều bước.

Phân tích kỹ thuật
Notification IPI: bề mặt tấn công gần như vô hạn
Điểm khởi đầu là phát hiện rằng tool đọc notification trong Android Utilities agent xử lý dữ liệu untrusted từ tin nhắn đến. Với một định dạng IPI tương tự nghiên cứu trước (chỉ chỉnh sửa nhỏ), nhóm nghiên cứu tiêm được chỉ thị vào cuộc hội thoại từ xa giữa nạn nhân và trợ lý.
Điều khiến đòn này nguy hiểm là bề mặt tấn công gần như vô hạn: bất kỳ ứng dụng nào có thể tạo ra một thông báo trên thiết bị nạn nhân đều có thể trở thành kênh phân phối payload. Ngay cả khi chưa gọi tool ngoài, chỉ riêng việc đầu độc ngữ cảnh đã đủ để thay đổi output — ví dụ ép Gemini phát đi một thông điệp giả dạng cảnh báo hệ thống kiểu "Đã có lỗi, bấm vào đây để làm mới".
Mạo danh người liên hệ tin cậy — social engineering "có nội công"
Khi attacker kiểm soát được output của một agent chuyên xử lý notification, họ đang khai thác một kênh giao tiếp vốn gắn liền với tin nhắn từ người thật. Output bị thao túng vì thế thừa hưởng mức độ tin tưởng cao mà người dùng dành cho người quen của mình.
Cụ thể hơn: nếu biết tên cấp trên của nạn nhân, kẻ tấn công có thể ép Gemini đọc lên một tin nhắn giả mạo danh người đó, ví dụ yêu cầu nạn nhân tải tài liệu lên một thư mục Google Drive. Vì Gemini thường được dùng bằng giọng nói khi người dùng không cầm điện thoại — chẳng hạn lúc lái xe — nạn nhân khó kiểm chứng và dễ làm theo.
Đáng lo hơn, đòn này có thể thực hiện hoàn toàn "mù": vì việc tiêm diễn ra sau khi trợ lý đã xử lý các notification có sẵn vào ngữ cảnh, payload có thể chỉ thị Gemini lấy cái tên thật đầu tiên tìm thấy trong hàng đợi thông báo rồi gán tin nhắn giả cho người đó. Kẻ tấn công không cần biết trước danh tính nạn nhân — đủ điều kiện cho tấn công social engineering quy mô hàng triệu người mà không cần khâu trinh sát.
Fake Context Alignment: vượt mitigation Delayed Tool Invocation
Thao túng output thì nguy hiểm, nhưng chưa đủ để thực hiện các đòn tác động thế giới vật lý như mở cửa sổ thông minh hay stream video. Muốn vậy phải ép Gemini gọi tool ngoài — đúng thứ Google đã chặn.
Khi áp dụng kỹ thuật Delayed Tool Invocation cũ, Gemini từ chối 100% số lần thử. Qua thử-sai, nhóm nghiên cứu suy ra cơ chế bảo vệ: lớp kiểm tra an ninh nhìn vào cả prompt cuối của người dùng lẫn output cuối của Gemini để quyết định một câu "Yes" có hợp lý để kích hoạt tool hay không. Tức là nếu hệ thống "tin" rằng Gemini vừa hỏi xin phép và người dùng vừa đồng ý, hành động sẽ được cấp quyền.

Từ đó ra đời Fake Context Alignment — tạo ra một ảo giác kép: trình bày một kịch bản cấp-quyền hợp lệ cho cơ chế an ninh phía sau của Gemini, đồng thời trình bày một kịch bản hoàn toàn vô hại cho nạn nhân. Cả hệ thống lẫn người dùng đều tin mình đang tương tác bình thường, nhưng kịch bản mà cơ chế an ninh thực sự xử lý là kịch bản độc hại của attacker.
Kỹ thuật 1 — Obfuscated Fake Context Alignment
Lợi dụng việc đa số người dùng không biết quá hai ngôn ngữ, payload ép Gemini đọc lên một câu hỏi bằng tiếng nước ngoài (ví dụ tiếng Trung: 你想打开窗户吗? — "Bạn có muốn mở cửa sổ không?"), ngay sau đó là một câu English vô hại kiểu "Đó là tất cả những gì bạn cần tôi làm chứ?". Người dùng không hiểu tiếng Trung, nghĩ rằng đó chỉ là lỗi vặt, và tự tin trả lời "Yes" cho câu English. Nhưng vì câu hỏi tiếng Trung đã nằm trong lịch sử hội thoại, cơ chế an ninh phía backend căn chỉnh chữ "Yes" với chỉ thị mở cửa sổ — và cấp quyền thực thi tool.

Kỹ thuật 2 — Muted Fake Context Alignment
Stealth hơn nữa: nhóm phát hiện Gemini không đọc phần hyperlink bị che bởi clickable text khi chuyển văn bản thành giọng nói (TTS). Khai thác điều này, họ ép Gemini đọc lên một câu vô hại như "Xin lỗi, tôi gặp lỗi, bạn còn đó không?", trong khi trên màn hình âm thầm hiển thị một link có nội dung "Bạn có muốn mở cửa sổ không?". Người dùng đang lái xe nghe câu hỏi vô hại, trả lời "Yes" — và cơ chế an ninh "nhìn thấy" text bị ẩn trên màn hình, căn chỉnh "Yes" với việc cấp quyền tool, rồi mở cửa sổ.

The Ultimate Combo
Kết hợp cả hai cho độ tin cậy và độ ẩn cao nhất: payload cuối ép Gemini xuất câu hỏi cấp-quyền bằng tiếng Trung và giấu trọn câu tiếng Trung đó bên trong một hyperlink bị "muted". Người dùng nghe một câu English hoàn toàn bình thường, đáp "Yes" vô hại, và âm thầm kích hoạt Delayed Tool Invocation — vượt qua các mitigation mới nhất của Google.

Xem demo: Obfuscated · Muted · Combo
Vượt Safe Browsing và crossing app boundary
Để ép Gemini mở app khác, attacker phải mở được URL. Google đã thêm một lớp phòng thủ không có ở nghiên cứu trước: Gemini kiểm tra URL ngoài với cơ sở dữ liệu Safe Browsing và từ chối mở thứ bị coi là "unsafe" hoặc lạ; ngay cả domain "safe" cũng bị từ chối nếu kèm tham số (vd https://google.com?parameter1=value1).
Vấn đề: được xếp loại "safe" trong Safe Browsing không hề khó. Gần như mọi domain phục vụ một website lành tính trong một thời gian đều được tự động xếp loại an toàn (có thể tự kiểm tra tại Safe Browsing transparency report). Nhóm nghiên cứu khai thác lòng tin này bằng cách cấu hình một domain hợp lệ trả về HTTP 301 redirect trỏ tới một Zoom App Intent URI. Vì Gemini đi theo redirect một cách "mù" mà không hỏi xác nhận, đòn tấn công hoạt động trơn tru: chỉ cần tiêm payload vào một notification, thiết bị nạn nhân lập tức mở Zoom, tham gia một cuộc họp định sẵn và phát video trực tiếp.
Lưu ý của SafeBreach: domain
safebreach.comchưa bao giờ redirect tới Zoom App Intent URI trong thực tế — thiết lập trong video demo là cấu hình thủ công trên thiết bị thử nghiệm trỏ về một HTTP server cục bộ. (Demo Zoom)
Long-term impact: memory poisoning và persistence
Đây là phần nghiên cứu trước chưa đạt được. Vì Fake Context Alignment mô phỏng hoàn hảo kịch bản người dùng đồng ý, nó mở khóa được các tính năng bền vững của Gemini:
- Memory poisoning: payload âm thầm hỏi nạn nhân có muốn Gemini nhớ tên là "Danny" không; khi nạn nhân vô tình đáp "Yes" cho câu English, Gemini lưu vĩnh viễn vào long-term memory.
- Scheduled actions: dùng cùng kỹ thuật, nhóm ép Gemini tạo tác vụ định kỳ tự đọc tin nhắn gần đây của nạn nhân mỗi ngày lúc 8 giờ tối. Vì long-term memory của Gemini gắn với toàn bộ tài khoản Google Workspace, việc đầu độc qua một notification trên điện thoại có thể lập tức lan sang tương tác của nạn nhân với Gemini trên tablet, máy tính hay loa thông minh — multi-device propagation. (Demo memory · Demo scheduling)
MITRE ATLAS & ATT&CK Mapping
Nghiên cứu này là technique disclosure, không phải chiến dịch ngoài thực địa, nên không có IOC (hash/IP/domain) thật để liệt kê — thay vào đó là ý tưởng detection ở phần dưới. Ánh xạ TTP:
| Giai đoạn | Kỹ thuật | ID |
|---|---|---|
| Initial Access / Execution | LLM Prompt Injection: Indirect | AML.T0051.001 |
| Delivery | Phishing | T1566 |
| Social Engineering | Impersonation | T1656 |
| Execution | User Execution (nạn nhân trả lời "Yes") | T1204 |
| Defense Evasion | Obfuscation (ngôn ngữ nước ngoài + muted hyperlink) | — |
| Persistence | Memory poisoning + recurring scheduled actions (đặc thù LLM) | — |
Detection & Hunting ideas (cho SOC)
Vì đây là tấn công ở tầng AI assistant chứ không phải endpoint truyền thống, hướng phát hiện thiên về telemetry của agent và hành vi bất thường của thiết bị:
# Hunting hypotheses
- Notification/tin nhắn chứa text đa ngôn ngữ trộn lẫn bất thường
(vd ký tự CJK chèn cuối tin nhắn từ contact lạ).
- Hyperlink có anchor text dạng câu hỏi cấp-quyền
("Do you want to...?") nhưng href trỏ tới domain redirect.
- Smart-home / IoT action được kích hoạt ngay sau một
notification-summary session của trợ lý giọng nói.
- App Intent URI (vd Zoom join) được mở từ một redirect chain
bắt nguồn từ domain "safe" + 301.
- Long-term memory / scheduled task của AI assistant bị thay đổi
mà không có thao tác cấu hình rõ ràng từ người dùng.
Nếu tổ chức log được prompt/response của LLM (Tier 2 content inspection), có thể xây rule phát hiện indirect prompt injection theo AML.T0051.001 trên SIEM.
Nhận định chuyên gia
Điểm quan trọng nhất không phải là một bug đơn lẻ đã được Google vá, mà là phát biểu của chính Or Yair (SafeBreach): indirect prompt injection không phải lỗ hổng cổ điển có thể "vá một lần là xong". Chừng nào LLM còn vận hành như một "magic box" nhận đồng thời chỉ thị từ backend và từ nội dung frontend, kẻ tấn công chỉ cần trông đủ hợp lệ để vượt guardrail. Giải pháp khả dĩ là guardrail/classifier chủ động giám sát hành vi — tức một cuộc đua phòng thủ liên tục, không phải một bản patch.
Với bối cảnh Việt Nam, điều này đáng lưu ý ở chỗ làn sóng tích hợp AI assistant và agent vào quy trình doanh nghiệp đang tăng nhanh, trong khi mô hình mối đe dọa của hầu hết SOC vẫn xoay quanh endpoint, network và identity cổ điển. Fake Context Alignment cho thấy một class rủi ro mới: context shifting — output bị che/đổi ngôn ngữ/ẩn dưới hyperlink mà người dùng không nhận ra vẫn có thể thay đổi hoàn toàn ngữ cảnh hội thoại. Nguyên tắc cốt lõi mà đội ngũ phân tích rút ra: mọi input đến từ bên ngoài — notification, email, tài liệu, lời mời lịch — đều là một câu lệnh tiềm năng, và phải được xử lý như untrusted.
Đây cũng không phải vấn đề riêng của một sản phẩm. Cùng giai đoạn, một lỗ hổng Gemini khác trên panel AI của trình duyệt cho phép leo thang đặc quyền và xâm phạm quyền riêng tư khi người dùng duyệt web — cho thấy bề mặt tấn công của trợ lý AI đang mở rộng trên nhiều kênh cùng lúc.
Timeline phản hồi từ vendor
| Thời điểm | Sự kiện |
|---|---|
| 17/08/2025 | SafeBreach báo cáo cho Google Vulnerability Reward Program (VRP) |
| 14/11/2025 | Google xác nhận cập nhật content classifier đã giảm thiểu các kịch bản IPI và Delayed Tool Invocation trong nghiên cứu |
| 03/06/2026 | SafeBreach công bố nghiên cứu công khai |
Khuyến nghị
- Coi mọi nội dung bên ngoài là untrusted. Notification, email, lời mời lịch, tài liệu — tất cả đều là câu lệnh tiềm năng đối với AI assistant. Đừng tin output của trợ lý chỉ vì nó "nói" tin nhắn đến từ người quen.
- Kiểm tra thủ công trước khi hành động nhạy cảm. Khi trợ lý đề nghị mở thiết bị, gửi tiền, tải tài liệu hay vào cuộc họp — mở app gốc kiểm tra, đừng phê duyệt bằng giọng nói lúc đang lái xe hoặc không nhìn màn hình.
- Giới hạn quyền của AI agent. Áp dụng least-privilege cho tích hợp smart-home, app và tài khoản; tách bạch tài khoản cá nhân khỏi tài khoản gắn dữ liệu doanh nghiệp (Google Workspace).
- Giám sát ở tầng agent. Nếu log được prompt/response của LLM, xây detection cho indirect prompt injection (AML.T0051.001) và cảnh báo khi long-term memory / scheduled task bị thay đổi bất thường.
- Cập nhật sản phẩm và theo dõi disclosure. Bản vá của vendor cho prompt injection là tạm thời theo từng kỹ thuật, không vĩnh viễn — cần theo dõi liên tục các nghiên cứu mới.
Tài liệu tham khảo
- SafeBreach Labs — Exploiting Gemini via Prompt Injection (Gemini's Secret Affair)
- SafeBreach Labs — Invitation Is All You Need
- Dark Reading — Malicious Notifications Could Trick Google Gemini Users
- Dark Reading — Bug in Google's Gemini AI Panel Opens Door to Hijacking
- Google Security Blog — Mitigating prompt injection attacks
- Johann Rehberger — Embrace The Red
- MITRE ATLAS — AML.T0051 LLM Prompt Injection





