Bạn đã quyết định thuê GPU Cloud để train AI. Nhưng khi mở bảng giá, bạn thấy hàng chục lựa chọn GPU: T4, A100 40GB, A100 80GB, H100, RTX 4090, RTX 5090… Chọn sai GPU = hoặc tốn tiền thừa, hoặc thiếu VRAM giữa chừng.
Bài viết này so sánh chi tiết 3 GPU datacenter phổ biến nhất cho AI training — T4, A100 và H100 — cộng thêm RTX 4090/5090 làm reference. Mục tiêu: giúp bạn chọn đúng GPU cho đúng workload, đúng ngân sách.
Chọn GPU cho AI training: T4 (16GB) cho inference và fine-tune nhỏ — giá rẻ nhất. A100 (40–80GB) cho training CNN, fine-tune LLM, workload AI vừa — cân bằng giá/hiệu năng. H100 (80GB HBM3) cho training LLM 7B+, multi-GPU, inference production — hiệu năng cao nhất nhưng đắt nhất. Nguyên tắc: chọn theo model size và VRAM cần thiết, không chọn theo tên GPU.
Bảng so sánh T4 vs A100 vs H100

| Thông số | T4 | A100 80GB | H100 SXM5 |
|---|---|---|---|
| Kiến trúc | Turing (12nm) | Ampere (7nm) | Hopper (4nm) |
| CUDA Cores | 2.560 | 6.912 | 16.896 |
| Tensor Cores | 320 (Gen 3) | 432 (Gen 3) | 528 (Gen 4) |
| VRAM | 16 GB GDDR6 | 80 GB HBM2e | 80 GB HBM3 |
| Băng thông bộ nhớ | 300 GB/s | 2.000 GB/s | 3.350 GB/s |
| FP16 Tensor | 65 TFLOPS | 312 TFLOPS | 1.979 TFLOPS |
| FP8 | Không | Không | 3.958 TFLOPS |
| NVLink | Không | Gen 3 (600 GB/s) | Gen 4 (900 GB/s) |
| Transformer Engine | Không | Không | Có |
| MIG | Không | 7 instances | 7 instances |
| TDP | 70W | 400W | 700W |
| Giá thuê/giờ (VN) | 15.000–25.000đ | 70.000–120.000đ | 100.000–200.000đ |
| Năm ra mắt | 2018 | 2020 | 2023 |
NVIDIA T4 — GPU entry-level cho AI
T4 là GPU datacenter thế hệ Turing, ra mắt năm 2018 nhưng vẫn rất phổ biến nhờ giá rẻ và tiêu thụ điện cực thấp (70W). T4 là “GPU miễn phí” trên Google Colab và Kaggle — nơi hàng triệu developer bắt đầu hành trình AI.
T4 phù hợp cho
- Inference model nhỏ–vừa (BERT, ViT, ResNet)
- Fine-tune BERT, DistilBERT trên dataset nhỏ
- Stable Diffusion (chậm nhưng chạy được)
- Sinh viên làm đồ án AI, thử nghiệm prototype
- Serving model nhẹ trên production (cost-effective)
T4 không phù hợp cho
- Training LLM (VRAM 16GB quá nhỏ)
- Fine-tune model lớn hơn 7B parameters
- Training CNN trên dataset lớn (chậm do CUDA cores ít)
- Multi-GPU training (không có NVLink)
NVIDIA A100 — “ngựa chiến” AI đa dụng
A100 là GPU datacenter phổ biến nhất cho AI trong giai đoạn 2020–2025. Với 80 GB HBM2e, 432 Tensor Cores và NVLink Gen 3, A100 xử lý tốt hầu hết workload AI từ training đến inference.
A100 phù hợp cho
- Training CNN (ResNet, YOLO, EfficientNet) trên dataset lớn
- Fine-tune LLM 7B (LoRA: 40GB đủ; full: cần 80GB)
- Inference LLM 13B–30B (80GB VRAM chứa thoải mái)
- Xử lý dữ liệu lớn với NVIDIA RAPIDS
- Production AI khi cần MIG chia nhỏ GPU cho nhiều model
A100 40GB vs 80GB
A100 40GB đủ cho: fine-tune LoRA 7B, training CNN, inference model vừa. A100 80GB cần khi: training LLM 7B full, batch size lớn, model cần hơn 40 GB VRAM. Giá 80GB đắt hơn ~50%. Nếu không chắc, bắt đầu với 40GB — nếu gặp CUDA OOM thì upgrade lên 80GB.
NVIDIA H100 — vua LLM training
H100 nhanh hơn A100 từ 3–6 lần cho training LLM nhờ Transformer Engine, FP8 và HBM3 (3,35 TB/s). Đây là GPU tối ưu cho mọi tác vụ AI lớn — nhưng cũng đắt nhất.
H100 phù hợp cho
- Training LLM 7B+ parameters (full precision hoặc mixed)
- Training phân tán multi-GPU (NVLink 4, NVSwitch)
- Inference production cao tải (serve hàng nghìn request/giây)
- Khi thời gian training là chi phí lớn — H100 train nhanh hơn = ít giờ thuê hơn
Khi nào H100 không đáng?
Nếu job training chỉ mất 2–3 giờ trên A100, dùng H100 không tiết kiệm đáng kể (train nhanh hơn nhưng giá/giờ đắt hơn). H100 chỉ thực sự cost-effective khi training kéo dài 10+ giờ trên A100 — lúc đó tốc độ 3–6x giảm tổng chi phí.
RTX 4090/5090 — lựa chọn thay thế?

Nhiều developer dùng GPU consumer (RTX 4090, RTX 5090) cho AI training vì giá thuê rẻ hơn nhiều so với A100/H100. Đây là so sánh nhanh:
| Tiêu chí | RTX 4090 | RTX 5090 | A100 80GB |
|---|---|---|---|
| VRAM | 24 GB GDDR6X | 32 GB GDDR7 | 80 GB HBM2e |
| Băng thông | 1.008 GB/s | ~1.600 GB/s | 2.000 GB/s |
| NVLink | Không | Không | Có (600 GB/s) |
| FP16 Tensor | 330 TFLOPS | ~500 TFLOPS | 312 TFLOPS |
| Giá thuê/giờ | 8.000–15.000đ | 15.000–30.000đ | 70.000–120.000đ |
| Phù hợp | AI cá nhân, SD, LoRA | Training vừa, GenAI | Production, multi-GPU |
RTX 4090/5090 tốt cho AI cá nhân, Stable Diffusion, fine-tune LoRA. Nhưng không phù hợp cho production (không NVLink, VRAM nhỏ, không MIG). Nếu cần multi-GPU hoặc model lớn hơn 24–32 GB, A100/H100 là bắt buộc.
Flowchart: chọn GPU theo workload

Model dưới 1B parameters (BERT, ViT, ResNet) → T4 hoặc RTX 4060 (đủ VRAM, giá rẻ nhất).
Model 1B–7B parameters, fine-tune LoRA → A100 40GB hoặc RTX 4090 (cần 16–24 GB VRAM).
Model 7B full training hoặc 13B–30B inference → A100 80GB (cần 40–80 GB VRAM).
Model 7B+ full training, cần tốc độ cao nhất → H100 (Transformer Engine + FP8, nhanh 3–6x).
Model 70B+ training phân tán → Multi-GPU H100 (NVLink 4 + NVSwitch, 8× H100 DGX).
Stable Diffusion / GenAI → RTX 4060–5090 (VRAM 8–32 GB, giá rẻ nhất).
Sinh viên / đồ án → T4 hoặc RTX 4060 (tiết kiệm chi phí, đủ cho model nhỏ).
So sánh chi phí thực tế cho 5 tác vụ

| Tác vụ | T4 (20k/h) | A100 80GB (100k/h) | H100 (150k/h) |
|---|---|---|---|
| Fine-tune BERT (3h trên T4) | 3h = 60.000đ | 0,5h = 50.000đ | 0,3h = 45.000đ |
| Training ResNet-50 (1 epoch ImageNet) | ~24h = 480.000đ | ~3h = 300.000đ | ~1h = 150.000đ |
| Fine-tune Llama 7B LoRA (3 epoch) | Không đủ VRAM ❌ | ~6h = 600.000đ | ~2h = 300.000đ |
| Training LLM 7B full (1 epoch) | Không đủ VRAM ❌ | ~48h = 4.800.000đ | ~12h = 1.800.000đ |
| 100 ảnh Stable Diffusion XL | ~60min = 20.000đ | ~10min = 17.000đ | ~5min = 12.500đ |
Bảng trên cho thấy: với tác vụ nhỏ (BERT, SD), T4 rẻ nhất. Với tác vụ vừa (ResNet), A100 cân bằng tốt. Với LLM lớn, H100 thực sự tiết kiệm hơn nhờ tốc độ nhanh hơn = ít giờ thuê hơn. Chi tiết về tính chi phí: Thuê GPU theo giờ — tính chi phí & chọn cấu hình.
Câu hỏi thường gặp
Nên chọn T4, A100 hay H100 để train AI?
T4 (16GB, ~15k–25k VNĐ/giờ): inference, fine-tune nhỏ, sinh viên. A100 (40–80GB, ~50k–120k/giờ): training CNN, fine-tune LLM 7B, workload AI vừa. H100 (80GB HBM3, ~100k–200k/giờ): training LLM 7B+ full, multi-GPU, inference production. Chọn theo model size và VRAM cần thiết.
T4 có train AI được không?
Được, nhưng giới hạn ở model nhỏ (BERT, ViT). VRAM 16GB không đủ cho training LLM. T4 lý tưởng cho sinh viên, prototype và inference cost-effective. Với training nghiêm túc, nên lên A100.
A100 40GB hay 80GB?
40GB đủ cho fine-tune LoRA 7B, training CNN, inference model vừa. 80GB cần khi training LLM 7B full hoặc batch size lớn. Bắt đầu với 40GB, upgrade nếu gặp CUDA OOM.
Khi nào cần H100 thay vì A100?
Khi training LLM 7B+ full (Transformer Engine + FP8 nhanh 3–6x), multi-GPU NVLink 4, hoặc inference production cao tải. Nếu job training chỉ mất vài giờ trên A100, H100 không đáng chi phí tăng thêm.
Có nên dùng RTX 4090 thay A100 cho AI?
RTX 4090 (24GB) mạnh ngang A100 40GB cho một số tác vụ, giá rẻ hơn nhiều. Nhưng không có NVLink, VRAM nhỏ, không MIG — không phù hợp production và multi-GPU. Tốt cho AI cá nhân, LoRA, Stable Diffusion.
Thuê GPU train AI tại Sunteco Cloud
Đầy đủ GPU từ T4 đến H100, pre-installed CUDA + PyTorch, thanh toán VNĐ.
- ✅ T4 từ 15.000đ/giờ — A100 từ 50.000đ/giờ — H100 có sẵn
- ✅ Pay-as-you-go, không cam kết dài hạn
- ✅ Dùng thử miễn phí, hỗ trợ 24/7 tiếng Việt
Kết luận
Chọn GPU cho AI training không phải “cứ đắt nhất là tốt nhất”. T4 hoàn hảo cho inference và học tập. A100 là “ngựa chiến” đa dụng phù hợp hầu hết workload. H100 chỉ thực sự cost-effective cho LLM lớn và multi-GPU training. Nguyên tắc: xác định model size → tính VRAM cần → chọn GPU rẻ nhất đáp ứng được.
Dùng bảng so sánh và flowchart trong bài để chọn nhanh, rồi dùng thử Sunteco GPU Cloud miễn phí để kiểm chứng.






