Skip to main content

Command Palette

Search for a command to run...

GPUBreach: Bit-Flip Trong GDDR6 Dẫn Đến Root Shell Toàn Hệ Thống

Updated
16 min read
GPUBreach: Bit-Flip Trong GDDR6 Dẫn Đến Root Shell Toàn Hệ Thống

Tổng quan

Phía FPT Threat Intelligence vừa phát hiện một kỹ thuật tấn công phần cứng cho phép kẻ tấn công chiếm quyền root trên toàn bộ máy chủ chỉ với quyền chạy CUDA code trên GPU chia sẻ, mà không cần tắt bất kỳ cơ chế bảo vệ phần cứng nào.

Đây không phải lỗ hổng phần mềm thông thường có thể vá bằng security update. GPUBreach khai thác đặc tính vật lý của bộ nhớ GDDR6 để lật các bit trong page table, rồi leo thang từ GPU user lên CPU kernel root.

Tổ chức đang chạy shared GPU environment trên cloud, data center triển khai NVIDIA RTX A6000 hoặc các GPU GDDR6 class cho AI workload, cùng với developer dùng workstation GPU cho AI training đều nằm trong vùng ảnh hưởng.

Rủi ro kinh doanh ở đây rất cụ thể: một tenant độc hại trong môi trường cloud GPU chia sẻ có thể đọc dữ liệu của tenant khác, đánh cắp model weight, lấy cryptographic key và chiếm quyền điều hành toàn bộ host server. Hành động ưu tiên ngay lúc này là enable ECC trên GPU server nếu phần cứng hỗ trợ, rà soát GPU tenancy model và theo dõi NVIDIA advisory khi có cập nhật.


Bối cảnh kỹ thuật

Thông tin vulnerability

Thuộc tính Chi tiết
Tên attack GPUBreach
CVE Chưa có, NVIDIA chưa assign CVE chính thức tại thời điểm xuất bản
CVSS Chưa có, NVIDIA chưa đánh giá chính thức
Driver CVE liên quan CVE-2025-33220, CVE-2025-33218 [NEEDS VERIFICATION: xác nhận đây là driver CVEs trong exploit chain]
CWE CWE-119 (Buffer Errors / Memory Safety), CWE-787 (Out-of-bounds Write)
Hardware affected NVIDIA GPU với GDDR6 memory, bao gồm RTX A6000, A100 và tương đương
Software affected NVIDIA GPU driver (kernel module), tất cả version chưa patch
Disclosure date 11/11/2025, thông báo cho NVIDIA, Google, AWS, Microsoft
Public date 13/04/2026, IEEE S&P 2026, Oakland
Patch status Chưa có patch. NVIDIA tham chiếu security notice Rowhammer 07/2025
PoC status Code public trên GitHub sith-lab/gpubreach từ ngày 13/04/2026
Researchers Chris S. Lin et al., University of Toronto

Timeline sự kiện

Thời điểm Sự kiện
2025, USENIX Security GPUHammer được công bố. Rowhammer trên GDDR6 làm suy giảm độ chính xác DNN model
11/11/2025 Responsible disclosure: nhóm Toronto thông báo GPUBreach cho NVIDIA, Google, AWS, Microsoft
07/2025 NVIDIA phát hành Rowhammer security notice, khuyến nghị bật ECC. Notice này không bao gồm GPUBreach
01/2026 Google trả bug bounty 600 USD, acknowledge disclosure
13/04/2026 GPUBreach trình bày tại IEEE S&P 2026. Full paper và PoC code được public
13/04/2026 Hai công trình concurrent GDDRHammer và GeForge cũng trình bày cùng hội nghị
Hiện tại NVIDIA chưa có patch, chưa assign CVE. Security notice 07/2025 vẫn là tài liệu chính thức duy nhất

Cơ chế khai thác chi tiết

Tại sao GPU page table là mục tiêu

GPU quản lý bộ nhớ qua page table, cấu trúc dữ liệu ghi lại địa chỉ vật lý của từng memory page được cấp cho mỗi process. Điểm khác biệt căn bản so với CPU là GPU page table nằm hoàn toàn trong GDDR6 DRAM, cùng không gian vật lý với dữ liệu user thông thường.

Điều này tạo ra attack surface không tồn tại trên CPU. Nếu attacker flip được bit trong một Page Table Entry (PTE), họ thay đổi được page-frame number mà PTE trỏ đến, tức là redirect memory mapping về địa chỉ tùy chọn.

Attack flow từ CUDA user đến root shell

[1] CUDA code execution, attacker có GPU permission
    ↓
[2] Rowhammer trên GDDR6, flip bit trong GPU Page Table Entry
    Khai thác UVM allocation để đặt page table vào đúng vị trí
    Dùng timing side-channel để xác định flippable row
    ↓
[3] Arbitrary GPU memory R/W
    PTE bị corrupt trỏ về page-table page của attacker
    Attacker kiểm soát page table của chính mình
    Đọc và ghi toàn bộ GPU memory, cross-process
    ↓
[4] Vượt qua IOMMU mà không cần tắt nó
    Attacker dùng PTE aperture bits để trigger GPU DMA
    DMA nhắm vào driver-owned CPU buffer mà IOMMU cho phép
    Corrupt metadata trong trusted buffer
    ↓
[5] CPU privilege escalation lên root shell
    NVIDIA driver đang chạy ở kernel privilege đọc metadata bị corrupt
    Trigger out-of-bounds write trong kernel driver code
    Attacker kiểm soát kernel write và spawn root shell

Tại sao IOMMU không chặn được

IOMMU giới hạn GPU chỉ được DMA vào các CPU memory region được approve. NVIDIA driver quản lý "driver-owned buffers", vùng memory mà GPU được phép DMA vào theo thiết kế có sẵn.

GPUBreach không phá vỡ IOMMU boundary. Thay vào đó nó corrupt metadata bên trong trusted buffer, vùng IOMMU đã cho phép từ trước. Khi NVIDIA kernel driver xử lý metadata bị corrupt này, các memory-safety bug trong driver code bị trigger và dẫn đến kernel-level out-of-bounds write mà attacker kiểm soát.

IOMMU vẫn hoạt động bình thường, nhưng không thể ngăn driver tự hại chính mình bằng dữ liệu nó tin là hợp lệ.


Hậu quả sau khi exploit thành công

Được validate trên NVIDIA RTX A6000 chạy GDDR6, GPUBreach cho phép thực hiện những việc sau trên GPU: đọc và ghi tùy ý toàn bộ GPU memory, truy cập cross-process vào data của tenant khác trong time-sliced GPU sharing, đánh cắp post-quantum cryptographic key từ NVIDIA cuPQC library trong lúc đang thực hiện key exchange, đánh cắp LLM model weight đang nằm trong GPU DRAM, và thực hiện degradation attack để giảm accuracy AI model từ 80% về 0% bằng cách modify một code branch.

Trên CPU, kết quả là full privilege escalation lên root shell và system-wide compromise, toàn bộ dữ liệu và process trên máy đều bị kiểm soát.


So sánh với các công trình concurrent tại IEEE S&P 2026

Ba nhóm nghiên cứu độc lập, cùng hội nghị, cùng attack surface. Khi điều này xảy ra, nó thường có nghĩa là attack surface đã "chín" đủ để attacker thực tế có thể đang khám phá song song.

Tiêu chí GPUBreach (Toronto) GDDRHammer (UNC / Georgia Tech / MBZUAI) GeForge (Purdue / Rochester / UWA / Clemson)
GPU page-table corruption
Arbitrary GPU memory R/W
CPU privilege escalation Có, root shell Không Có, root shell
Yêu cầu tắt IOMMU Không cần Không cần Bắt buộc
Nguy hiểm trong production Cao nhất Trung bình Thấp hơn

GPUBreach là nguy hiểm nhất vì đạt root shell mà không cần tắt IOMMU. Đó là điều kiện mà mọi production environment đều không đáp ứng vì IOMMU luôn được bật trên server và cloud.


MITRE ATT&CK Mapping

Tactic Technique ID Technique Name Triển khai trong GPUBreach
Execution T1059.004 Unix Shell Spawn root shell qua kernel driver exploit
Privilege Escalation T1068 Exploitation for Privilege Escalation Trigger out-of-bounds write trong NVIDIA kernel driver
Defense Evasion T1562 Impair Defenses Bypass IOMMU protection qua trusted-driver corruption
Credential Access T1552 Unsecured Credentials Đánh cắp post-quantum crypto key từ GPU DRAM cuPQC
Discovery T1082 System Information Discovery Cross-process GPU memory read để recon tenant khác
Collection T1005 Data from Local System Thu thập LLM weights, model data từ GPU memory
Lateral Movement T1611 Escape to Host Từ GPU tenant context leo thang lên host system

Phát hiện và Detection

Thách thức detection

GPUBreach là hardware-level attack, phần lớn diễn ra bên dưới OS visibility. Không có network traffic bất thường, không có suspicious file write, không có process injection theo nghĩa thông thường. EDR truyền thống gần như mù tại các bước đầu của attack.

Tuy nhiên có một số signal khả thi để theo dõi.

Signal 1: ECC error rate bất thường

Rowhammer tạo ra corrected ECC errors trước khi flip thành công. Một ECC error rate spike bất thường, đặc biệt nếu concentrated vào một GPU trong thời gian ngắn, là early warning signal đáng chú ý.

# Kiểm tra ECC error trên NVIDIA GPU (Linux)
nvidia-smi --query-gpu=ecc.errors.corrected.volatile.total,\
ecc.errors.uncorrected.volatile.total \
--format=csv,noheader

Signal 2: CUDA process chạy bất thường

Rowhammer cần sustained hammering, nghĩa là CUDA kernel chạy lâu hơn expected mà không có computational output tương ứng.

# Monitor GPU utilization pattern
nvidia-smi dmon -s u -d 1
# Utilization cao liên tục kết hợp output thấp là dấu hiệu đáng ngờ

Signal 3: Kernel driver crash hoặc warning

# Xem kernel log cho NVIDIA driver errors
dmesg | grep -i nvidia | grep -E "error|warning|oob|out.of.bound"

# Audit log cho privilege escalation event sau GPU activity
ausearch -m SYSCALL -k privilege_escalation --start today

Signal 4: Outbound connection bất thường sau GPU session

Root shell sau khi exploit thành công thường thực hiện C2 callback. Hunt connection mới xuất hiện sau thời điểm GPU tenant bắt đầu, đặc biệt nếu connection từ process không liên quan đến GPU workload.

SIEM Detection Rule

index=gpu_telemetry source="nvidia-smi"
| where ecc_errors_corrected > threshold_per_minute
| join type=left [
    search index=os_events EventType=privilege_change
    | where time > ecc_spike_time AND time < ecc_spike_time + 300
  ]
| where privilege_change.new_uid == 0
| alert

Mitigation và Workaround hiện tại

Không có patch từ NVIDIA tại thời điểm này. NVIDIA chỉ tham chiếu security notice Rowhammer tháng 7/2025, được viết trước khi GPUBreach research hoàn thành.

ECC là mitigation một phần, không hoàn toàn

# Enable ECC trên NVIDIA server GPU (yêu cầu reboot)
sudo nvidia-smi -e 1

# Verify ECC status
nvidia-smi --query-gpu=ecc.mode.current --format=csv,noheader

ECC giúp correct single-bit flip và detect double-bit flip. Nhưng có hai giới hạn quan trọng. Nếu attack pattern tạo hơn 2 bit flip cùng lúc, một điều đã được chứng minh trên DDR4 và DDR5, ECC không correct được và có thể gây silent data corruption. Consumer GPU thuộc GeForce series không có ECC, nghĩa là không có mitigation nào được biết đến. Bật ECC cũng giảm khoảng 6% VRAM capacity, một trade-off cần tính toán cho production workload.

Hopper và Blackwell Confidential Computing

NVIDIA Hopper và Blackwell Data Center GPU có Confidential Computing mode với hardware-enforced memory isolation mạnh hơn. Đây là layer bảo vệ bổ sung, dù GPUBreach paper chưa đánh giá đầy đủ hiệu quả trong tất cả tình huống.

Tổng hợp trạng thái mitigation

Mitigation Hiệu quả Giới hạn
Enable ECC Giảm reliability của attack Không block hoàn toàn, consumer GPU không có
Dedicated GPU per tenant Loại trừ attack vector Chi phí cao, khó scalable
IOMMU Không hiệu quả GPUBreach không cần tắt IOMMU
Hopper/Blackwell CC mode Cải thiện isolation Chưa verify đầy đủ vs GPUBreach
Patch NVIDIA driver Giảm CPU escalation risk Chưa có patch

Nhận định

Bug bounty 600 USD từ Google không phản ánh đúng mức độ nghiêm trọng của research này. Để so sánh, Google trả tới 250.000 USD cho Chrome sandbox escape. Mức bounty thấp phản ánh điều kiện tấn công khắt khe, cụ thể là cần co-tenancy trên cùng physical GPU và sustained hammering time, chứ không phải đánh giá thấp impact về mặt kỹ thuật.

Nhìn vào rủi ro thực tế theo từng môi trường: cloud multi-tenant GPU là rủi ro cao nhất vì bất kỳ user nào có CUDA execution permission đều là potential attacker, và trong GPU sharing environment, co-tenancy là default chứ không phải ngoại lệ. On-premise AI server có rủi ro trung bình nếu nhiều team hoặc user chia sẻ GPU server, thấp hơn nhiều nếu dedicated single-user. Consumer desktop và laptop có rủi ro thấp về mặt immediate vì không có ECC và không có mitigation, nhưng attacker cũng cần có CUDA access cụ thể để khai thác.

Điều đáng lo ngại hơn là ba nhóm nghiên cứu độc lập từ các trường khác nhau đều đến cùng kết luận tại cùng hội nghị. Trong lịch sử security research, pattern này thường báo hiệu rằng attack surface đã đủ rõ ràng để threat actor thực tế cũng đang hoặc sắp khám phá. GPUBreach hiện tại không có patch, và khác với nhiều hardware vulnerability, điều kiện khai thác là CUDA execution permission trong cloud, hoàn toàn accessible với bất kỳ cloud customer nào thuê GPU instance.

Với xu hướng AI workload tăng mạnh tại các tổ chức tài chính, chính phủ và tech company ở Việt Nam, nhiều trong số đó đang sử dụng cloud GPU của AWS, GCP hoặc Azure, đây là attack vector cần đưa vào threat model ngay cả khi chưa có patch. Thực tế phổ biến là phần lớn tổ chức đang dùng shared GPU cloud để tối ưu chi phí AI training và ít ai đang monitoring ECC error rate hay GPU-level anomaly. Đây là blind spot cần giải quyết.


Khuyến nghị hành động

Immediate (0-24h)

Nếu đang chạy AI workload trên shared cloud GPU, việc đầu tiên là inventory toàn bộ GPU instance đang sử dụng: cloud provider nào, GPU model nào, sharing mode hay dedicated. Với workload xử lý data nhạy cảm như cryptographic key, PII hoặc model IP, cần xem xét tạm thời chuyển sang dedicated GPU instance thay vì shared cho đến khi có patch.

Nếu quản lý on-premise GPU server, chạy ngay các lệnh sau:

# Kiểm tra ECC status
nvidia-smi --query-gpu=name,ecc.mode.current --format=csv

# Nếu ECC đang OFF và GPU hỗ trợ, bật ngay (cần reboot)
sudo nvidia-smi -e 1

# Verify sau reboot
nvidia-smi -q | grep -A2 "ECC Mode"

Kiểm tra danh sách user có CUDA execution permission và revoke bất kỳ account nào không có business justification rõ ràng. Alert on-call team về research này, đặc biệt nếu tổ chức có GPU trong scope SOC monitoring.

Short-term (1-7 ngày)

Rà soát và hardening GPU access:

# Audit user có thể submit CUDA job trên Kubernetes
kubectl get clusterrolebinding -o json | \
jq '.items[] | select(.subjects[]?.kind == "User") |
{name: .metadata.name, subjects: .subjects}'

# Review nvidia-container-toolkit permissions nếu dùng container

Thiết lập monitoring ECC error liên tục:

# Log ECC errors mỗi 60 giây
while true; do
  nvidia-smi --query-gpu=timestamp,name,\
  ecc.errors.corrected.volatile.total,\
  ecc.errors.uncorrected.volatile.total \
  --format=csv >> /var/log/gpu_ecc_monitor.csv
  sleep 60
done

Đăng ký nhận NVIDIA Security Bulletin tại nvidia.com/en-us/product-security/ để nhận update về patch ngay khi có. Liên hệ AWS, GCP hoặc Azure để hỏi về GPU isolation policy và mitigation họ đã implement ở tầng infrastructure. Đánh giá khả năng upgrade lên Hopper hoặc Blackwell GPU với Confidential Computing support trong kế hoạch refresh hardware.

Nếu có SIEM coverage GPU telemetry, hunt ECC error spike trong 30 ngày qua, đặc biệt tập trung vào spike trên 5 errors mỗi phút từ single GPU và theo sau bởi new network connection hoặc process với UID 0.

Long-term

Đưa GPU memory architecture vào security evaluation khi mua hardware mới. GDDR7 và HBM3e có resistance cao hơn đáng kể với Rowhammer attack so với GDDR6. Đây không chỉ là tiêu chí performance nữa mà là tiêu chí security.

Với multi-tenant AI infrastructure, thiết kế hard isolation per tenant ở GPU level, không chỉ dừng lại ở software-level scheduling. Đề xuất với leadership về dedicated GPU instance cho workload xử lý cryptographic material hoặc sensitive model IP, không chia sẻ physical GPU với workload khác.

Thêm GPU security vào scope của security assessment định kỳ, bao gồm ECC status, driver version và user permission. Xây dựng playbook riêng cho hardware vulnerability response vì GPUBreach là loại vulnerability không có patch ngay, cần quy trình xử lý khác với software CVE thông thường. Theo dõi các publication concurrent là GDDRHammer và GeForge và cập nhật threat model khi có thêm PoC code.


Indicators

GPUBreach là hardware và kernel attack nên không có IOC truyền thống như file hash hay domain. Indicators là behavioral.

# Hardware indicators
ECC corrected errors: spike đột biến trên 10/phút từ single GPU
ECC uncorrected errors: xuất hiện là red flag nghiêm trọng

# Kernel indicators trên Linux
dmesg: NVIDIA driver OOB write warning
dmesg: NVIDIA driver kernel panic / OOPS với stack trace liên quan UVM hoặc page table
/proc/kmsg: nvidia + out of bounds hoặc memory corruption

# Process indicators sau khi exploit thành công
Unexpected root shell spawned từ GPU-related process
Process với UID 0 xuất hiện mà không có sudo hoặc su call trước đó
CUDA-related process chạy lâu hơn 30 phút mà không có output tương ứng

# Network indicators post-exploit
Outbound connection mới từ GPU host đến unknown IP
sau thời điểm GPU ECC error spike

# PoC và paper
GitHub: https://github.com/sith-lab/gpubreach (active từ 13/04/2026)
Paper: https://gpubreach.ca/

Nguồn tham khảo:

More from this blog

F

FPT IS Security

738 posts

Dedicated to providing insightful articles on cybersecurity threat intelligence, aimed at empowering individuals and organizations to navigate the digital landscape safely.