Mỗi vài năm, NVIDIA giới thiệu một kiến trúc GPU mới đặt theo tên nhà khoa học nổi tiếng: Turing, Ampere, Ada Lovelace, và nay là Blackwell — đặt theo nhà toán học David Blackwell. Đây là kiến trúc đứng sau toàn bộ dòng RTX 50 series và GPU datacenter B200.
Nhưng Blackwell không chỉ là “nhiều nhân hơn, nhanh hơn”. Đây là kiến trúc đầu tiên được thiết kế từ đầu cho kỷ nguyên neural rendering — nơi AI không còn là tính năng phụ mà trở thành trung tâm của cách GPU xử lý đồ họa. Bài viết này giải thích chi tiết những gì làm nên Blackwell, dành cho cả người mới và developer muốn hiểu sâu.
NVIDIA Blackwell là kiến trúc GPU thế hệ mới nhất (2025), powering RTX 50 series và GPU datacenter B200. Chip flagship GB202 có 92 tỷ transistor, die 750mm² — GPU consumer lớn nhất từng sản xuất. Điểm nhấn: Neural Shaders (AI trong shader pipeline), DLSS 4 Multi Frame Generation, GDDR7 (bandwidth +78%), Tensor Cores Gen 5 hỗ trợ FP4, và AI Management Processor. Đây là kiến trúc đầu tiên thiết kế cho neural rendering.
Blackwell là gì? Nguồn gốc tên gọi
Blackwell là kiến trúc vi xử lý đồ họa (GPU microarchitecture) thế hệ thứ 10 của NVIDIA, công bố tại CES tháng 1/2025. Tên gọi vinh danh David Blackwell (1919-2010) — nhà toán học và thống kê học người Mỹ, nổi tiếng với định lý Rao-Blackwell trong lý thuyết xác suất.
Điểm đặc biệt của Blackwell: đây là kiến trúc thống nhất phục vụ cả hai thị trường rất khác nhau. Phiên bản datacenter (B200, GB200) dành cho training AI quy mô lớn tại các trung tâm dữ liệu. Phiên bản consumer (RTX 50 series) dành cho gaming và sáng tạo nội dung. Cả hai chia sẻ triết lý thiết kế chung: đặt AI làm trung tâm.
Chip GB202: GPU consumer lớn nhất lịch sử
GB202 — chip powering RTX 5090 — là một kỳ tích kỹ thuật. Với 92,2 tỷ transistor trên die 750mm² (sản xuất bằng tiến trình TSMC 4NP/5nm), đây là GPU consumer lớn nhất từng được sản xuất, sánh ngang nhiều GPU server.
| Thành phần | Số lượng | Ghi chú |
|---|---|---|
| Transistor | 92,2 tỷ | Die 750mm² |
| GPC (Graphics Processing Clusters) | 12 | Cụm xử lý đồ họa |
| SM (Streaming Multiprocessors) | 192 (full) / 170 (RTX 5090) | Đơn vị xử lý cơ bản |
| CUDA Cores | 24.576 (full) / 21.760 (RTX 5090) | Lõi xử lý song song |
| RT Cores | 192 (full) / 170 (RTX 5090) | Gen 4, 1 per SM |
| Tensor Cores | 768 (full) / 680 (RTX 5090) | Gen 5, 4 per SM |
| L2 Cache | 128 MB (full) / 96 MB (RTX 5090) | Cache tốc độ cao |
| Memory Bus | 512-bit | 8× memory controller 64-bit |
| AI Performance | 3.352 TOPS | Trillion operations/giây |
Lưu ý: RTX 5090 không dùng full GB202. NVIDIA “khóa” một phần (170/192 SM) để tăng yield sản xuất và cải thiện nhiệt độ. Điều này cũng để ngỏ khả năng ra mắt card mạnh hơn (như RTX 5090 Ti) trong tương lai.
Các chip Blackwell: GB202 đến GB207
NVIDIA chia kiến trúc Blackwell thành 5 chip khác nhau, mỗi chip phục vụ một phân khúc giá. Hiểu cấu trúc này giúp bạn nắm được tại sao RTX 5070 yếu hơn RTX 5080 đáng kể.
| Chip | GPU sử dụng | SM | Memory Bus | Transistor |
|---|---|---|---|---|
| GB202 | RTX 5090 | 170/192 | 512-bit | 92,2 tỷ |
| GB203 | RTX 5080, 5070 Ti | 84 | 256-bit | ~45 tỷ |
| GB205 | RTX 5070 | 50 | 192-bit | 31,1 tỷ |
| GB206 | RTX 5060 Ti, 5060 | 36 | 128-bit | ~22 tỷ |
| GB207 | RTX 5050 | ~20 | 128-bit (GDDR6) | nhỏ nhất |
Đáng chú ý: không có chip “GB204”. NVIDIA bỏ qua tên này, dùng GB205 thay thế cho phân khúc RTX 5070 (vốn dùng AD104 ở thế hệ Ada). GB205 nhỏ hơn AD104 (263mm² vs 294,5mm²) — giúp NVIDIA có biên lợi nhuận tốt hơn hoặc định giá thấp hơn.
5 cải tiến cốt lõi của Blackwell
1. GDDR7 — bộ nhớ nhanh nhất: Blackwell chuyển từ GDDR6/GDDR6X sang GDDR7, chạy ở 28 Gbps/pin (so với ~21 Gbps của GDDR6X). Trên bus 512-bit của RTX 5090, điều này tạo bandwidth ~1,79 TB/s — tăng 78% so với RTX 4090. Đây là cải tiến quan trọng nhất cho AI inference. Đọc thêm: GDDR7 vs GDDR6X vs GDDR6
2. Tensor Cores Gen 5 với FP4: Thế hệ Tensor Cores thứ 5 hỗ trợ định dạng FP4 (4-bit floating point) — gấp đôi thông lượng AI so với FP8 trên Ada Lovelace. FP4 cho phép chạy quantized model nhanh hơn và tiết kiệm VRAM hơn.
3. DLSS 4 Multi Frame Generation: Thay vì tạo 1 frame giả như DLSS 3, Multi Frame Gen tạo tối đa 3 frame AI cho mỗi frame render thật — nhân FPS lên tới 4x. DLSS 4 cũng là ứng dụng real-time đầu tiên của transformer model trong đồ họa. Đọc thêm: DLSS 4 là gì?
4. AI Management Processor (AMP): Bộ xử lý chuyên quản lý lập lịch và phân bổ tài nguyên cho các tác vụ AI phức tạp, ưu tiên công việc theo nhu cầu thời gian thực. Đây là thành phần mới hoàn toàn so với Ada.
5. RT Cores Gen 4 + Mega Geometry: Tăng tốc độ ray-triangle intersection, hỗ trợ RTX Mega Geometry cho phép render cảnh có hàng triệu tam giác với ray tracing. Kết hợp với neural rendering, cho phép path tracing real-time.
Neural Shaders: Trái tim của Blackwell
Nếu phải chọn một điểm khác biệt cốt lõi giữa Blackwell và các kiến trúc trước, đó là Neural Shaders. SM (Streaming Multiprocessor) trong Ada Lovelace được thiết kế tối ưu cho shader truyền thống. SM trong Blackwell được thiết kế lại để tối ưu cho neural shaders — chạy các mạng neural nhỏ trực tiếp trong shader pipeline.
Điều này mở ra những khả năng mới:
- Neural Texture Compression: Nén texture bằng AI, giảm dung lượng VRAM cần thiết tới 7 lần — quan trọng khi VRAM ngày càng đắt.
- Neural Material Rendering: Render vật liệu (da, vải, kim loại) chân thực hơn với chi phí tính toán thấp hơn phương pháp truyền thống.
- RTX Neural Faces: Tạo khuôn mặt nhân vật game chân thực bằng generative AI real-time.
- Hợp nhất FP32/INT32: Blackwell hợp nhất khả năng xử lý FP32 và INT32 trên mọi CUDA Core, tăng hiệu quả cho tác vụ AI.
Về bản chất, Blackwell đặt cược rằng tương lai của đồ họa không phải là tính toán nhiều pixel hơn, mà là dùng AI để dự đoán và tạo ra pixel thông minh hơn.
Blackwell vs Ada Lovelace: So sánh kiến trúc
| Tiêu chí | Blackwell (RTX 50) | Ada Lovelace (RTX 40) |
|---|---|---|
| Năm ra mắt | 2025 | 2022 |
| Bộ nhớ | GDDR7 (28 Gbps) | GDDR6X (~21 Gbps) |
| Tensor Cores | Gen 5 (FP4) | Gen 4 (FP8) |
| RT Cores | Gen 4 + Mega Geometry | Gen 3 |
| DLSS | DLSS 4 (Multi Frame Gen) | DLSS 3 (Frame Gen) |
| Neural Shaders | ✅ Có | ❌ Không |
| AI Management Processor | ✅ Có | ❌ Không |
| SM thiết kế cho | Neural workload | Shader truyền thống |
| FP32/INT32 | Hợp nhất | Tách biệt |
Tóm lại: Blackwell là bước tiến lớn về kiến trúc AI nhưng cải thiện hiệu năng rasterization thuần khá khiêm tốn (10-30% tùy phân khúc). Phần lớn “đột phá” của Blackwell đến từ AI — DLSS 4, neural rendering — chứ không phải sức mạnh thô. Xem: So sánh RTX 5090 vs RTX 4090
Blackwell trong datacenter: B200 và sức mạnh AI
Phiên bản datacenter của Blackwell — B200, GB200 — là nền tảng hạ tầng AI hàng đầu thế giới hiện nay. Khác với RTX consumer, B200 dùng HBM3e (lên đến 192GB), NVLink 5 cho multi-GPU, và tối ưu hoàn toàn cho training LLM quy mô lớn.
Với doanh nghiệp cần sức mạnh Blackwell cấp datacenter mà không muốn đầu tư hàng tỷ VNĐ mua phần cứng, thuê GPU Cloud là giải pháp tối ưu. Sunteco Cloud cung cấp GPU NVIDIA từ RTX (Blackwell consumer) đến H100/B200 (datacenter), trả theo giờ, thanh toán VNĐ.
- ✅ GPU NVIDIA: RTX 50 series, A100, H100, B200 — pre-installed CUDA + framework AI
- ✅ Thanh toán VNĐ, pay-as-you-go, hạ tầng datacenter Tier 3 tại VN
- ✅ Hỗ trợ 24/7 tiếng Việt, dùng thử miễn phí
- ✅ Dịch vụ AI/HPC NVIDIA BasePOD cho doanh nghiệp
🚀 Dùng thử GPU Cloud Blackwell miễn phí
|
💬 Tư vấn AI/HPC
Câu hỏi thường gặp về Blackwell
NVIDIA Blackwell là gì?
Kiến trúc GPU thế hệ mới nhất của NVIDIA (2025), đặt theo tên nhà toán học David Blackwell. Powering RTX 50 series (consumer) và B200 (datacenter). Điểm nhấn: Neural Shaders, DLSS 4, GDDR7, Tensor Cores Gen 5 FP4. Chip flagship GB202 có 92 tỷ transistor — GPU consumer lớn nhất lịch sử.
Blackwell khác Ada Lovelace như thế nào?
Blackwell có GDDR7 (bandwidth +78%), Tensor Cores Gen 5 (FP4), Neural Shaders, DLSS 4 Multi Frame Gen, và AI Management Processor — đều không có trên Ada. SM được thiết kế lại cho neural workload. Tuy nhiên hiệu năng rasterization thuần chỉ cải thiện 10-30%.
Neural Shaders trong Blackwell là gì?
Cho phép chạy mạng neural nhỏ trực tiếp trong shader pipeline, mở ra neural texture compression (giảm VRAM 7x), neural material rendering, và RTX Neural Faces. SM Blackwell được thiết kế đặc biệt cho neural workload này.
Các chip Blackwell GB202, GB203, GB205 khác nhau gì?
GB202 (RTX 5090): lớn nhất, bus 512-bit. GB203 (RTX 5080/5070 Ti): bus 256-bit. GB205 (RTX 5070): bus 192-bit. GB206 (RTX 5060 Ti/5060): bus 128-bit. GB207 (RTX 5050): nhỏ nhất, GDDR6. Xem: Tổng hợp RTX GPU.
Kết luận
NVIDIA Blackwell không chỉ là kiến trúc GPU nhanh hơn — đây là tuyên ngôn về tương lai của đồ họa và AI hợp nhất. Với Neural Shaders, DLSS 4, và Tensor Cores Gen 5, Blackwell đặt cược rằng AI sẽ định hình cách GPU render hình ảnh và xử lý tính toán. Dù bạn dùng RTX 5090 cho gaming hay thuê B200 qua Cloud cho training AI, hiểu kiến trúc Blackwell giúp bạn khai thác tối đa sức mạnh của nó.
Muốn trải nghiệm sức mạnh Blackwell mà không cần mua phần cứng đắt đỏ? Thuê GPU Cloud tại Sunteco — từ RTX 50 series đến B200 datacenter, trả theo giờ.






