Máy tính Hưng Danh

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Giới thiệu về Intel Sapphire Rapids 64GB HBM2e

Tuần này, chúng tôi có sự kiện Siêu máy tính thường niên , nơi tất cả những người chơi Máy tính hiệu suất cao lớn sẽ đặt thẻ của họ lên bàn cân khi nói đến phần cứng, cài đặt và thiết kế giành chiến thắng. Là một phần của sự kiện, Intel sẽ có một bài thuyết trình về các dịch vụ phần cứng của mình, tiết lộ thêm chi tiết về phần cứng thế hệ tiếp theo của siêu máy tính Aurora Exascale.

Aurora là một hợp đồng mà Intel đã có trong một thời gian – phạm vi ban đầu là để có một hệ thống dựa trên 10nm Xeon Phi , ý tưởng này đã bị hủy hoại khi Xeon Phi bị loại bỏ và đã trở thành một bối cảnh luôn thay đổi do các dịch vụ phần cứng của Intel. Nó đã được hoàn thiện cách đây vài năm rằng hệ thống hiện sẽ sử dụng bộ vi xử lý Sapphire Rapids của Intel (những bộ đi kèm với bộ nhớ băng thông cao) kết hợp với bộ tăng tốc GPU dựa trên Ponte Vecchio X e -HPC mớivà tăng từ vài trăm PetaFLOP lên ExaFLOP máy tính. Gần đây nhất, Giám đốc điều hành Pat Gelsinger của Intel đã tiết lộ rằng máy gia tốc Ponte Vecchio đang đạt được gấp đôi hiệu suất, trên cả mong đợi của những tiết lộ ban đầu và Aurora sẽ là Siêu máy tính 2 + EF khi được chế tạo. Intel dự kiến sẽ cung cấp lô phần cứng đầu tiên cho Phòng thí nghiệm Quốc gia Argonne vào cuối năm nay, nhưng điều này sẽ đi kèm với khoản xóa nợ 300 triệu USD đối với tài chính quý 4 của Intel. Intel dự kiến sẽ cung cấp phần còn lại của máy cho đến năm 2022 cũng như tăng cường sản xuất phần cứng cho mục đích sử dụng phổ biến trong Q1 để tung ra thị trường rộng rãi hơn trong nửa đầu năm nay.

Thông tin chi tiết về phần cứng của Intel Sapphire Rapids 64GB HBM2e

Về mặt bộ xử lý, chúng tôi biết rằng mỗi đơn vị của Aurora sẽ có hai trong số các CPU Sapphire Rapids (SPR) mới nhất của Intel, có bốn khối máy tính, DDR5, PCIe 5.0, CXL 1.1 (không phải CXL.mem) và sẽ sử dụng tự do EMIB kết nối giữa các gạch. Aurora cũng sẽ sử dụng SPR với Bộ nhớ băng thông cao tích hợp (SPR + HBM) và tiết lộ chính là SPR + HBM sẽ cung cấp lên đến 64 GB HBM2e bằng cách sử dụng ngăn xếp 8-Hi.

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Ngăn xếp của Intel Sapphire Rapids 64GB HBM2e

Dựa trên các trình bày, Intel dự định sử dụng bốn ngăn xếp HBM2e 16 GB cho tổng số 64 GB. Intel có mối quan hệ với Micron và kích thước vật lý của Micron HBM2e phù hợp với các đại diện được đưa ra trong vật liệu của Intel (so với Samsung hoặc SKHynix chẳng hạn). Micron hiện cung cấp hai phiên bản HBM2E 16 GB với phần cứng ECC : một ở tốc độ 2,8 Gbps trên mỗi chân (358 GB / giây trên mỗi ngăn xếp) và một ở tốc độ 3,2 Gbps trên mỗi chân (410 GB / giây trên mỗi ngăn xếp). Nhìn chung, chúng tôi đang xem xét băng thông cao nhất từ ​​1.432 TB / s đến 1.640 TB / s tùy thuộc vào phiên bản Intel đang sử dụng. Các phiên bản có HBM sẽ sử dụng thêm bốn ô, để kết nối mỗi ngăn xếp HBM với một trong các chiplet của SPR.

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Intel Sapphire Rapids 64GB HBM2e và sơ đồ cụ thể :

Dựa trên sơ đồ này của Intel, mặc dù Intel tuyên bố rằng SPR + HBM sẽ chia sẻ một socket với SPR truyền thống, nhưng rõ ràng là sẽ có những phiên bản không tương thích. Đây có thể là một trường hợp mà các phiên bản Aurora của SPR + HBM được điều chỉnh riêng cho máy đó .

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Thông tin về Ponte Vecchio (PVC)

Về phía Ponte Vecchio (PVC) của phương trình, Intel đã tiết lộ rằng một máy chủ duy nhất bên trong Aurora sẽ có sáu bộ tăng tốc PVC trên mỗi bộ xử lý SPR. Mỗi máy gia tốc sẽ được kết nối theo cấu trúc liên kết tất cả với nhau bằng giao thức Xe-Link mới được tích hợp trong mỗi PVC – Xe-Link hỗ trợ 8 máy ở chế độ kết nối hoàn toàn, vì vậy Aurora chỉ cần 6 máy trong số đó tiết kiệm điện hơn cho phần cứng. Nó không được tiết lộ cách chúng được kết nối với bộ vi xử lý SPR – Intel đã tuyên bố rằng sẽ có một kiến trúc bộ nhớ thống nhất giữa CPU và GPU

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Thông tin chi tiết được Intel bổ sung ngày hôm nay là mỗi triển khai ngăn xếp kép Ponte Vecchio (sơ đồ mà Intel đã hiển thị nhiều lần là hai ngăn xếp cạnh nhau) sẽ có tổng cộng 64 MB bộ nhớ đệm L1 và 408 MB bộ nhớ đệm L2, được hỗ trợ bởi HBM2e.

So sánh bộ nhớ đệm của Ponte Vecchio

408 MB bộ nhớ đệm L2 trên hai ngăn xếp có nghĩa là 204 MB mỗi ngăn xếp. Nếu chúng ta so sánh nó với phần cứng khác:

  • NVIDIA A100 có 40 MB bộ nhớ đệm L2
  • Navi 21 của AMD có 128 MB Bộ nhớ đệm vô cực (một L3 hiệu dụng)
  • CNDA2 MI250X của AMD trong Frontier có 8 MB L2 cho mỗi ‘ngăn xếp’, hoặc tổng cộng 16 MB

Cho dù bạn cắt nó theo cách nào, Intel đang đặt cược khó vào việc có hệ thống phân cấp bộ nhớ cache phù hợp cho PVC. Biểu đồ của PVC cũng cho thấy 4 chip HBM2e trên một nửa, điều này cho thấy rằng mỗi thiết kế ngăn xếp kép PVC có thể có 128 GB HBM2e. Có khả năng không có cái nào trong số chúng là ‘phụ tùng’ cho mục đích năng suất, vì thiết kế dựa trên chiplet cho phép Intel chế tạo PVC bằng cách sử dụng khuôn tốt đã biết ngay từ đầu.

Ngoài ra, chúng tôi cũng nhận được một con số chính thức về quy mô bao nhiêu GPU Ponte Vecchio và bộ xử lý Sapphire Rapids (+ HBM) mà chúng tôi cần cho Aurora. Trở lại tháng 11 năm 2019, khi Aurora chỉ được liệt kê là siêu máy tính 1EF, tôi đã đưa ra một số con số sơ bộ dựa trên việc Intel nói rằng Aurora là 200 giá đỡ và đưa ra các dự đoán có học về cách bố trí – tôi có tới 5000 CPU và 15000 GPU, với mỗi PVC cần khoảng 66,6TF hiệu suất. Vào thời điểm đó, Intel đã thể hiện 40 TF hiệu suất trên mỗi thẻ trên silicon đời đầu. Các con số chính thức của Intel cho máy Aurora 2EF là:

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Thông tin về siêu máy tính Aurora:

Aurora có tổng 18000+ CPU Intel Sapphire Rapids 64GB HBM2e và 54000+ GPU là rất nhiều phần cứng. Nhưng chia 2 Exaflop cho 54000 máy gia tốc PVC thì chỉ có 37 TeraFlops trên mỗi PVC làm giới hạn trên và con số đó giả sử hiệu suất bằng không đến từ các CPU.

Để bổ sung thêm vào hỗn hợp: Giám đốc điều hành Intel Pat Gelsinger chỉ vài tuần trước nói rằng PVC đã đạt được gấp đôi hiệu suất dự kiến ​​ban đầu, cho phép Aurora trở thành một cỗ máy 2EF. Điều đó có nghĩa là mục tiêu hiệu suất ban đầu cho PVC là ~ 20 TF của FP64? Không có gì lạ, thông báo MI250X gần đây của AMD vào tuần trước đã giới thiệu một chip GPU kép với 47,9 TF hiệu suất vector FP64, chuyển sang 95,7 TF trong hiệu suất ma trận FP64. Kết quả cuối cùng ở đây có thể là MI250X của AMD thực sự có hiệu suất thô cao hơn PVC, tuy nhiên AMD yêu cầu 560 W cho thẻ đó, trong khi số điện năng của Intel chưa được tiết lộ. Chúng tôi cũng có thể làm một số phép toán khăn ăn ở đây.

  • Frontier sử dụng thẻ MI250X 560 W và được đánh giá cho 1,5 ExaFlops của FP64 Vector với công suất 30 MW. Điều này có nghĩa là Frontier cần 31300 thẻ (1,5 EF / 49,7 TF) để đáp ứng mục tiêu hiệu suất và đối với mỗi thẻ MI250X 560 W, Frontier đã phân bổ công suất 958 Watts (30 MW / 31300 thẻ). Đây là chi phí 71% cho mỗi thẻ (có nghĩa là làm mát, hệ thống lưu trữ, máy tính / quản lý khác, v.v.).
  • Aurora sử dụng PVC ở công suất không xác định, được đánh giá cho 2 ExaFlops của FP64 Vector ở công suất 60 MW. Chúng tôi biết rằng PVC có hơn 54000 thẻ để đáp ứng các mục tiêu hiệu suất, có nghĩa là hệ thống đã phân bổ 1053 W (tức là 60 MW / 54000) cho mỗi thẻ để bao gồm bộ gia tốc PVC và các chi phí khác cần thiết. Nếu chúng ta giả định (một giả định lớn mà tôi biết) rằng Frontier và Aurora có tổng chi phí tương tự, thì chúng ta đang xem xét 615 W trên mỗi PVC.
  • Điều này sẽ kết thúc với PVC ở 615 W cho 37 TF, so với MI250X ở 560 W cho 47,9 TF.
  • Cuộc thảo luận thô này không thảo luận về các tính năng cụ thể mà mỗi thẻ có cho trường hợp sử dụng của nó.
Compute GPU Accelerator Comparison
Confirmed Numbers
 IntelAMDNVIDIA
ProductPonte VecchioMI250XA100 80GB
ArchitectureXe-HPCCDNA2Ampere
Transistors100 B58.2 B54.2 B
Tiles (inc HBM)47106 + 1 spare
Compute Units1282 x 110108
Matrix Cores1282 x 440432
INT8 Tensor?383 TOPs624 TOPs
FP16 Matrix?383 TOPs312 TOPs
FP64 Vector?47.9 TFLOPS9.5 TFLOPS
FP64 Matrix?95.7 TFLOPs19.5 TFLOPS
L2 / L32 x 204 MB2 x 8 MB40 MB
VRAM Capacity128 GB (?)128 GB80 GB
VRAM Type 8 x HBM2e8 x HBM2e5 x HBM2e
VRAM Width?8192-bit5120-bit
VRAM Bandwidth?3.2 TB/s2.0 TB/s
Chip-to-Chip Total BW88 x 100 GB/s12 x 50 GB/s
CPU CoherencyYesWith IFWith NVLink 3
ManufacturingIntel 7
TSMC N7
TSMC N5
TSMC N6TSMC N7
Form FactorsOAMOAM (560 W)SXM4 (400W*)
PCIe (300W)
Release Date202211/202111/2020
*Some Custom deployments go up to 600W

Intel cũng tiết lộ rằng họ sẽ hợp tác với SiPearl để triển khai phần cứng PVC trong các nỗ lực của HPC Châu Âu. SiPearl hiện đang xây dựng một CPU dựa trên Arm có tên là Rhea được xây dựng trên TSMC N7.

Trong tương lai, Intel cũng đã phát hành một lộ trình nhỏ. Không có gì quá ngạc nhiên ở đây – Intel có kế hoạch cho các thiết kế ngoài Ponte Vecchio và các bộ xử lý Xeon Scalable trong tương lai cũng sẽ có các tùy chọn được kích hoạt với HBM.

Intel Sapphire Rapids 64GB HBM2e, Ponte Vecchio 408 MB L2 Cache

Tham khảo các sản phẩm Workstation: Tại đây.

Cập nhật tin tức khuyến mãi và thông tin mới nhất tại: FANPAGE MÁY TÍNH HƯNG DANH

Các tin tức IT mới nhất tại: Tin tức

Trả lời

Địa chỉ email của bạn sẽ không được công bố.