Một vài điều bị 'hype' trên chip NVIDIA Blackwell B100 B200 GB200

Liệu bạn đã hiểu rõ và hiểu đúng về những điều nổi bật hay đáng mong chờ trên Blackwell - thế hệ chip AI mới nhất của NVIDIA - hay chưa?

Bài viết này không có nghĩa những gì bạn biết về thế hệ chip AI mới nhất của NVIDIA là sai. Nhưng một số điều trong đó chưa được rõ ràng và khi không hiểu rõ thì rất dễ bị nhầm lẫn... mà càng nhầm thì càng dễ "sai".

Nội dung bài viết

Blackwell mạnh hơn Hopper nhưng là bao nhiêu lần?

Thật sự rất dễ bị lầm nếu không xem kỹ slide giới thiệu của chính NVIDIA tại sự kiện GTC 2024. Cụ thể trong buổi công bố, NVIDIA thể hiện sức mạnh của con chip Blackwell là 20,000 TFLOPS, còn của Hopper chỉ "khiêm tốn" có 4000 TFLOPS. Nhưng nếu để ý kỹ, toán tử dùng trên Hopper là FP8 còn trên Blackwell là FP4. Thậm chí "soi kỹ" hơn thì toán tử trên Ampere và các đời chip cũ là FP16.

Sức mạnh AI giữa các đời chip của NVIDIA không dùng chung thang đo

Dĩ nhiên nếu có hiểu biết về độ rộng của từng toán tử thì không khó để bạn nhận ra FP4 chỉ bằng 1/2 FP8 và bằng 1/4 FP16. Và chi tiết đáng nói hơn là Ampere không hỗ trợ các toán tử FP8/FP4 cũng như Hopper không hỗ trợ FP4. Có nghĩa chính NVIDIA đã không dùng cùng một thang đo khi so sánh sức mạnh giữa các thế hệ chip với nhau. FP4 là toán tử hoàn toàn mới và chỉ mỗi Blackwell hỗ trợ nó. Vậy dùng một toán tử mà thế hệ cũ không hỗ trợ thì phép so sánh có công bằng?

Trên thực tế nếu "bắt" Blackwell chạy các phép toán dùng FP16 hay FP8 thì mọi thứ sẽ bớt "hyped". Và quả vậy, ngay bảng thông số kỹ thuật của chính NVIDIA cũng thể hiện rõ: một cấu hình GB200 (1 CPU Grace + 2 GPU Blackwell) cho hiệu năng FP16 đạt 10 PFLOPS (1 PFLOPS = 1000 TFLOPS), hiệu năng FP8 đạt 20 PFLOPS. Tức nếu chúng ta làm phép "cưa đôi" thuần tuý thì 1 GPU B200 chỉ đạt 5 PFLOPS FP16 hoặc 10 PFLOPS FP8. Con số này trên H100 lần lượt là 2 PFLOPS FP16 hoặc 4 PFLOPS FP8.

FP4 là toán tử hoàn toàn mới, "nhẹ" bằng 1/2 FP8

Tất nhiên dùng máy tính Windows hay Android hay iOS "nhẩm" nhẹ thì bạn cũng thấy là Blackwell mạnh gấp 2.5 lần Hopper. Nhưng để đạt 5 lần thì gần như "chơi cheat" vì bắt buộc phép toán của bạn phải sử dụng FP4 (một toán tử mới toanh). Có nghĩa trên thực tế nếu ngôn ngữ lập trình của bạn là FP8 hoặc cũ hơn thì... bạn nên quan tâm tiếp giá thành cần đầu tư trên từng chiếc card. Mình không nói là NVIDIA đang scam nhưng bạn cần rõ hơn nhu cầu thực sự của bản thân vì để có thể khai thác được tối đa Blackwell, bạn bắt buộc phải nâng cấp các dòng code.

Thêm một điều nữa tuy hơi ngoài lề là FP4 sẽ có độ chính xác thấp hơn FP8 (dĩ nhiên không bàn tới FP16). Do đó có "sửa" lại code hay không cũng tuỳ thuộc bản chất vấn đề mà bạn đang đối diện. Nếu bạn cần các kết quả trả về có giá trị "sát" hơn những gì mong muốn thì hãy cân nhắc kỹ toán tử sử dụng. NVIDIA chỉ quảng cáo FP4 cho tốc độ tính toán nhanh hơn, không nói rằng chất lượng tính toán vẫn tốt như cũ.

Toán tử càng ngắn thì độ chính xác của phép tính càng thấp

Blackwell mạnh hơn và cũng tốn nhiều điện hơn

Mặc dù nếu chi ly trên từng bit/watt thì Blackwell có hệ số hiệu suất tính toán cao hơn Hopper. Theo thông tin của NVIDIA, Blackwell sẽ có 3 cấu hình khác nhau gồm GB200 (1 CPU + 2 GPU @ 2700 W), B200 (1 GPU @ 1000 W) và B100 (1 GPU @ 700 W). Mẫu Hopper "phổ thông" H100 mà chúng ta thường nghe tiêu thụ 700 W. Trong đó mẫu Blackwell mạnh gấp 2.5 lần Hopper là cấu hình 1000 W. Vậy nên có thể tạm tính B200 tiêu thụ điện nhiều hơn H100 43% nhưng hiệu năng cao hơn 150%, vẫn là khoản đầu tư có giá trị cao hơn, phải không?

So sánh sức mạnh giữa H100 (1 GPU) vs. GB200 (2 GPU)

Song nếu quay ra cấu hình GB200 thì hệ số bit/watt sẽ không được cao đến vậy. Xét trung bình GB200 hiệu năng gấp 5 lần H100, trong khi tiêu thụ điện gần gấp 4 lần. Tuy xét chi phí/lợi ích GB200 vẫn tốt hơn nhưng nó đã không còn lợi bằng B200 trước đó. Ngoài ra ở cấu hình B100, tuy con số hiệu năng chưa được rõ ràng song có thể nói nó mạnh hơn H100 tuy dùng chung một mức tiêu thụ điện. Vậy có thể nói nếu bạn đạt vấn đề chi phí/lợi ích trên hết thì B100/B200 đáng đầu tư hơn cả.

Cũng cần bổ sung thêm ở đây là mức tăng hiệu năng của Blackwell so với Hopper thuần tuý chỉ là... nhồi nhét transistor. Trong khi H100 "chỉ có" 80 tỷ transistor thì B100/B200 có tới 208 tỷ transistor (hoặc 2 x 104 tỷ). Làm con toán đơn giản (208/80) cũng thấy rõ Blackwell thực tế không có sự cải thiện nào về mặt kiến trúc so với Hopper. Nó chỉ có nhiều đơn vị tính toán hơn phiên bản trước. Và như thế thì các đối thủ của NVIDIA hoàn toàn vẫn có thể đuổi kịp nếu áp dụng chung "bài" nhồi transistor.

H100 có 80 tỷ transistor còn B100/B200 tới 208 tỷ!

Dĩ nhiên mình không nói Blackwell không phải là sản phẩm tốt, song nó không phải là mục tiêu không vượt được về mặt sức mạnh. Xét hiệu năng thuần tuý, model MI300 của AMD ngang ngửa H100 về mặt AI và mạnh hơn hẳn về mặt HPC, trong khi chi phí sản xuất MI300 thấp hơn vì cấu hình chiplet của AMD đa dạng hơn (GPU MI300 gồm 4 chiplet trong khi H100 chỉ có 1 die duy nhất). B100/B200 tuy cũng là chiplet xong kích thước từng die riêng lẻ đạt con số tối đa mà TSMC có thể cung cấp, từ đó cũng làm cho chi phí sản xuất Blackwell cực kỳ đắt đỏ.

Blackwell rất mạnh AI nhưng "tụt" HPC

Có một nhầm lẫn rất phổ biến mà rất nhiều người mắc phải là năng lực AI = năng lực siêu máy tính (HPC). Tất nhiên điều này một phần cũng có nguyên nhân từ trò marketing nạc mỡ lẫn lộn của NVIDIA, khi đánh đồng siêu máy tính với AI. Nhiều phương tiện truyền thông cũng không phân biệt được 2 khái niệm này nên gây ra hiểu nhầm rất nặng nề. Tuy cả siêu máy tính lẫn AI đều sử dụng thang đo FLOPS (floating-point operations per second hay số phép toán dấu phẩy động mỗi giây) nhưng toán tử siêu máy tính sử dụng là FP64, phép đo chuẩn là phép đo Linpack; còn AI cho tới hiện nay đều dựa trên FP16 (hoặc FP8 và mới nhất là FP4).

Các siêu máy tính dùng FP64 để đạt độ chính xác cao nhất

Tất cả các ấn bản ghi nhận top siêu máy tính của tạp chí TOP500 cho tới hiện nay chưa bao giờ sử dụng toán tử nào khác FP64. Thế nên muốn nói về siêu máy tính thì bạn cần phải "tỉnh", đặc biệt trước các con số quảng cáo của NVIDIA.

Và chúng khác biệt nhiều đến thế nào? Ở cấu hình Blackwell mạnh nhất GB200, cả 2 GPU mới cho tổng hiệu năng (có bật Tensor core) đạt 90 TFLOPS FP64 (trong khi FP4 lên tới 40,000 TFLOPS!). Có nghĩa nếu tạm "cưa đôi" thì 1 GPU B200 chỉ đạt 45 TFLOPS FP64 (có Tensor). Nếu so sánh với H100, con số này là 67 TFLOPS FP64 (có Tensor). Cần chú ý nếu không bật Tensor (do ứng dụng không khai thác được) thì H100 chỉ còn 34 TFLOPS FP64. Như vậy B200 sẽ còn thấp tới mức nào nữa nếu không bật Tensor?

Danh sách các siêu máy tính hàng đầu thế giới đều dựa trên thang đo FP64

Và bạn hãy nhớ rằng, B200 có tới 208 tỷ transistor (gấp 2.6 lần H100) nhưng hiệu năng FP64 kém cả H100. Nếu đầu tư vô Blackwell để chạy siêu máy tính thì... well, ngay cả Hopper đời cũ vẫn tốt hơn. Và đấy là mình chưa tính tới MI300 của AMD.

Dĩ nhiên mình không "chê" Blackwell của NVIDIA. Có thể nói AI đang là trend vậy nên NVIDIA đầu tư hết tất cả vào đấy cũng là điều hợp lý, nhìn từ góc độ kinh doanh. Song cần hiểu rõ AI là AI và siêu máy tính là siêu máy tính. Chúng là 2 phạm trù khác biệt như nước sông và nước hồ, dù với người ngoại đạo thì sông hay hồ cũng đều là nước 🙂