Máy tính Hưng Danh

NVIDIA A100 TENSOR CORE GPU HIỆU NĂNG VƯỢT TRỘI TRÊN BÀI TEST HPL, HPL-AI, HPCG

HIỆU NĂNG VƯỢT TRỘI CỦA NVIDIA A100 trên các bài test HPL, HPL-AI, HPCG

Nvidia A100 TEST HPL, HPL-AI, HPCG

Giới thiệu NVIDIA A100 TENSOR CORE GPU

NVidia A100 TENSOR CORE GPU là một thiết bị điện toán đặc biệt. Không chỉ dành riêng cho các công việc Machine Learning / AI mà A100. Nó còn có thể đáp ứng cho các tác vụ tính toán khoa học đòi hỏi hiệu suất tính toán đại số tuyến tính hiệu năng cao. Các dòng GPU GeForce RTX 30xx và Quadro RTX Ax000 cũng rất tốt cho tính toán số học – Các phép tính không yêu cầu độ chính xác dấu phẩy động 64bit– tức là FP64 (floating point 64). Bên cạnh đó, A100 lại rất xuất sắc ở những công việc như thế bên cạnh khả năng tính toán số học với độ chính xác cao nhờ khả năng tăng tốc xử lý tính toán bằng GPU

Sức mạnh của Nvidia A100:

  • NVIDIA A100 cung cấp hiệu suất tính toán dấu phẩy động chính xác kép (Double-precision floating-point) vượt trội.
  • NVIDIA A100 cũng thể hiện hiệu năng rất tốt với các phép tính với độ chính xác thấp hơn như FP32, FP16 bao gồm cả 32-bit Tensor-Cores, TF32. Vậy nên, khi sử dụng A100 cho các tính toán chính xác hỗn hợp (Mixed Precision) vẫn đem lại một hiệu suất tính toán rất tốt và cung cấp một dộ chính xác chấp nhận được cho nhiều ứng dụng. Đặc biệt cho “ML/AI model traning”
  • Hiệu suất vRam của A100 cũng là một điểm cộng lớn. Có thể cung cấp hiệu năng gấp 5 lần so với các hệ thống Dual CPU tốt nhất khi chạy các ứng dụng giới hạn bộ nhớ (memory-bound application). GPU NVIDIA A100 đi kèm với 2 tùy chọn 40GB và 80GB vRam.

Ứng dụng thực tế:

  • Các bạn sẽ tự hỏi là Mixed-Precision Arithmetic được sử dụng để làm gì. Thì đây là tính năng giúp tăng tốc quá trình huấn luyện AI lên rất nhiều lần. Ví dụ như các ngành:
    – Khoa học Trái Đất (mô phòng động đất, dự báo thời tiết cực đoan, mô phỏng bão v.v…)
    – Nghiên cứu y tế (phân tích biến thể di truyền, xác định kiểu gen v.v..)
    – Năng lượng hạt nhân (mô phỏng phản ứng, biến đổi vật chất trong phản ứng hạt nhân, v.v..)

Benchmarks NVIDIA A100 GPU: HPC, HPC-AI, HPCG

  • HPL: HPL Linpack Benchmark được sử dụng để đo đánh giá xếp hạng Top500 Supercomputers. Được tối ưu để đo lường hiệu năng tính toán dấu phẩy động chính xác kép. HPL Linpack là một bộ phương trình tuyến tính dày đặc để kiểm tra hiệu suất xử lý của các hệ thống.
  • HPL-AI: Mixed Precision Benchmark là một phép thử tương tự HPL Linkpack Benchmark nhưng sử dụng các phép tính với độ chính xác thấp hơn – điều này sẽ phù hợp với các ứng dụng được dùng để traning ML/AI models. A100 sử dụng TF32 và 32-bit Tensor-Cores cho các bài test HPL-AI. Đây là 1 bài kiểm tra trong danh sách Top500 Supercomputes
  • HPCG: High Performance Conjugate Gradients. Đây cũng là một bài kiểm tra được sử dụng cho Top500 Supercomputers. Đây là một thuật toán tính toán các phương trình vi phân bằng phương pháp Gradient liên hợp (GC) với điều kiện cho trước (Multigrid preconditioned conjugate gradient algorithm). Với các phép nhân vector ma trận thưa (Sparse matrix – vector multiplication) với các mẫu I/O (pattern) chung. Đây là mẫu công việc điển hình của nhiều bài toán liên quan đến các nghiệm số của các bộ phương trình vi phân. Các phép toán này yêu cầu rất nhiều bộ nhớ/IO-bound.

Việc lựa chọn các bài kiểm tra này để chỉ ra sự khác biệt của A100 so với RTX30xx và Quadro RTX Ax000.

Setup Tests System cho NVIDIA A100 TENSOR CORE GPU:

  • nVidia A100 system

    • CPU: 2*Intel Xeon Platinum 8180 28C/56T
    • MB: Tyan Thunder HX GA88-B5631
    • Memory: 12*32GB Reg ECC D4 384GB
    • GPU: 1-4 nVidia A100 40GB
  • nVidia Titan-V system

    • CPU: Intel Xeon W-2295 18C/36T
    • MB: Asus WS C422 PRO SE
    • Memory: 8*16GB Reg ECC D4 128GB
    • GPU: 1-2 nVidia Titan V 12GB
  • Software:

    • Ubuntu 20.04
    • nVidia driver 460
    • nVidia HPC-Benchmark 21.4 (NGC – nVidia GPU Accelerated Containers)
    • nVidia Enroot 3.3 (để sử dụng containers)

 

Kết quả của NVIDIA A100 TENSOR CORE GPU:

  • HPL Linpack Benchmark

NVIDIA A100 TENSOR CORE GPU HIỆU NĂNG VƯỢT TRỘI TRÊN BÀI TEST HPL, HPL-AI, HPCG

 

Kết quả đã nói lên tất cả, 4*A100 cho kết quả gấp 14 lần hệ thống Dual CPU Intel Ice Lake 8352Y.

  • HPL-AI

 

  • HPCG

NVIDIA A100 TENSOR CORE GPU HIỆU NĂNG VƯỢT TRỘI TRÊN BÀI TEST HPL, HPL-AI, HPCG

RTX3090 thì sao?

Tất nhiên bạn sẽ tò mò thứ gì đó như RTX3090 chẳng hạn. RTX3090 là một GPU tuyệt vời để training ML/AI models với FP32 và Tensor-Cores. Hạn chế lớn nhất là công suất tiêu thụ cao (350W) và kích thước của hầu hết RTX3090 khá lớn (PCIe slots). Tuy nhiên, các vấn đề này có thể khắc phục bằng phần mềm và các thiết kế blower truyền thống. Một phần nữa là nguồn cùng của RTX3090 thường không dồi dào, nhất là thời điểm hiện tại.RTX3090 thì sao?

  • Ở bài benchmark HPL, vì RTX3090 sử dụng GPU GA102 thay vì GA100 như trên A100 nên kết quả chậm hơn gần 20 lần so với A100
  • RTX3090 cũng có hiệu suất bộ nhớ rất tốt với 24GB GDDR6 với kết quả ở bài benchmark HPCG bằng khoảng 60% so với A100

 

Kết luận:

A100 là một thiết bị điện toán tuyệt vời. Chúng tôi rất khuyến khích sử dụng khả năng tăng tốc của GPU cho các chương trình khoa học vì khả năng coding ngày càng dễ dàng hơn với GPU. Và A100 TENSOR CORE là một sản phẩm xuất sắc nếu đặt nó trong một hoàn cảnh đúng đắn, để phát huy hết khả năng của  Nvidia A100 trong việc tính toán double precision và ứng dụng memory-bound.

Hiện tại, giá bán lẻ của nVidia A100 40GB ở mức 10.000$

Xem thêm các tin tức công nghệ mới tại: MÁY TÍNH HƯNG DANH 

Tham khảo thêm cái bộ máy chạy AI và Deep Learning: Tại Đây

Trả lời

Địa chỉ email của bạn sẽ không được công bố.