Công nghệ đóng gói chip 3D của TSMC và 'kỳ quan bán dẫn' AMD Instinct MI300
Khi mặt đất không còn đủ chỗ để xây nhà thì "lên cao" là tất yếu. Nhưng trong thế giới siêu vi, đây là vấn đề không đơn giản.
Đâu là con chip phức tạp nhất từng được chế tạo? Well, trước hết cần xác định bạn muốn nói tới giai đoạn lịch sử nào vì mỗi thời sẽ có những đặc trưng riêng và do đó, câu trả lời sẽ thay đổi. Khi thế giới tạm biệt năm Giáp Thìn này và chuyển sang Ất Tỵ, cá nhân mình có 2 lựa chọn. Đó là Ponte Vecchio của Intel và MI300 của AMD. Riêng Intel, đáng ra sẽ là Rialto Bridge nhưng các drama của công ty này đã khai tử nó từ trong trứng nên chỉ còn Ponte Vecchio đang tồn tại trên thị trường là đáp ứng được.
Nội dung bài viết
Những cái tên nổi bật
Lại nhắc Ponte Vecchio, đáng ra con chip này sẽ nhận được nhiều điểm tín nhiệm hơn khi Intel bắt đầu đề cập tới nó sau khi Raja Koduri "chạy" từ AMD qua Intel. Nhưng con chip này phức tạp tới mức tới tận 2021 nó mới "chào sân" lần đầu và phải tận 2023 mới được tung ra thị trường. Trong khi đó AMD dù chậm chân hơn khi tới tận 2022 mới nhắc tới MI300, nhưng sang 2023 công ty này đã có thể chào hàng sản phẩm trên. Và để so sánh thì Ponte Vecchio có 100 tỷ transistor còn MI300A (bản đầu tiên) có tới 146 tỷ!
Cho tới hiện tại, Ponte Vecchio là con chip phức tạp nhất Intel từng sản xuất
Tất nhiên con số transistor không phải yếu tố quyết định xem sản phẩm nào phức tạp hơn. Trên quan điểm cá nhân mình còn đánh giá các tiêu chí về dây chuyền bán dẫn, công nghệ đóng gói chip và khả năng sản xuất hàng loạt. Dĩ nhiên bạn có thể bổ sung thêm GB200 Grace Blackwell của NVIDIA vào trong danh sách, với tổng 208 tỷ transistor. Song mình không đánh giá nó cao bằng Ponte Vecchio lẫn MI300, vì GB200 là sự kết hợp của 2 die GB100 (104 tỷ/die). Và NVIDIA có truyền thống làm die monolithic lớn nhất có thể (858 mm2 với EUV 0.33 NA) nên đây là cách "không bền vững" về lâu dài. Sang High-NA 0.55 EUV, kích thước recticle tối đa chỉ còn 1/2 nên con đường NVIDIA đang đi đã gần tới hạn.
Dĩ nhiên đây là đánh giá chủ quan của mình, bạn có thể không đồng ý với điều đó. Nhưng chốt lại sau khi điểm danh 3 cái tên thì mình chọn MI300 là đại diện phức tạp nhất từng được chế tạo cho tới hết 2024 (sang 2025 AMD có thể sẽ ra MI400 với độ phức tạp cao hơn, nên là ...)
Nhưng xét tất cả các yếu tố, AMD Instinct MI300 xứng đáng đứng đầu danh sách "kỳ quan bán dẫn"
Moore's Law Is Dead
Nhưng trước hết, hãy nói một chút lý do tại sao mình viết bài này (vâng, năm nào chả có chip mới ra đời, mà con sau thì thường nhiều transistor hơn con trước). Nguyên nhân chủ yếu nằm ở định luật Moore đã tới hồi kết thúc. Sẽ có người lý luận thế lọ thế chai nhưng mình dựa trên phát biểu gốc của Gordon Moore vào 1965 rằng "số lượng transistor trên mỗi mạch điện tử tích hợp (IC) sẽ gấp đôi trong vòng 2 năm".
Nếu mang SoC hiện tại về 1965, nó không thể nào nhét vừa 1 con chip được
Bạn có thể "cãi" mạch IC có nghĩa là 1 con chip, không bắt buộc con chip đó phải là 1 die (monolithic) duy nhất. Song ở 1965 thì lúc đấy kể cả CPU cache còn chưa tồn tại, x86 chưa có mặt trên đời và tất cả mọi lý thuyết SoC đều như "vịt nghe sấm" với giới công nghệ lúc bấy giờ. Thực tế nếu vác con chip SoC gắn trên smartphone hôm nay về 1965 và hô biến nó ra trình độ bán dẫn lúc bấy giờ thì nó to hơn cả cái máy tính trạm. Và bạn có gọi cả cái máy trạm là một mạch IC không? Mình thì không.
Tất nhiên vào 1965, thế giới cũng chưa có khái niệm về thiết kế MCM (multi-die module) hay chiplet. Nên không thể bảo logic của Moore bao hàm cả chiplet. Nhìn chung, một mạch IC với mình là một die chip duy nhất. Và thiết kế monolithic đang dần tới hồi kết như đã nêu ở trên. Để đạt hệ số NA cao (giúp vẽ mạch bán dẫn chi tiết hơn) thì giới hạn recticle/photomask càng nhỏ lại. Mà diện tích die hẹp lại thì số transistor có thể "nhồi nhét" vào dĩ nhiên là cũng giảm. Tính tới hiện tại, một die monolithic dựa trên node TSMC N3 có thể đạt tối đa khoảng 170 tỷ transistor (197 triệu/mm2 * 858 mm2), nhưng đó là trên lý thuyết, thực tế thấp hơn rất nhiều (vì còn phải chia phần cho SRAM). Nên có thể nói cứ đi "con đường" monolithic thì sớm muộn bạn cũng "đâm đầu vô tường".
Do giới hạn quang học, High-NA EUV sẽ có diện tích die tối đa chỉ bằng 1/2 0.33 NA EUV
Nên vấn đề rõ mười mươi là bạn không thể làm monolithic mãi được (tạm bỏ qua các ứng dụng không cần "đua bơi" transistor như hạ tầng mạng, điện tử gia dụng, chip quân sự…). MCM hoặc chiplet là lối thoát duy nhất cho các hãng chip hiệu năng cao.
À vâng, chiplet, thứ này đã tồn tại cả chục năm qua rồi. Có gì mới ở đây? Bạn đang thắc mắc.
Cái mới ở đây chính là khác biệt trong cách sản xuất một con chip Ryzen/EPYC vs. MI300. Nếu chỉ áp dụng những kỹ thuật làm ra con Ryzen đầu tiên thì AMD/TSMC không thể nào chế tạo được MI300. Để có thể làm ra được MI300, TSMC phải vận dụng gần như mọi "skill" mà công ty này có được tính tới hiện tại. Nói hơi quá thì đây là "quest" khó nhất mà AMD từng đề ra cho công ty Đài Loan. Thậm chí có thể nói cả Samsung Foundry lẫn Intel Foundry cũng không làm được tính tới thời điểm này. Đây cũng là lý do tại sao mình chọn MI300 thay vì Ponte Vecchio hay GB200 - mình không nói rằng 2 con chip sau không phức tạp, nhưng độ phức tạp của MI300 còn nhiều hơn thế.
AMD dùng tất cả mọi công nghệ TSMC đang có để làm ra MI300
TSMC 3DFabric - SoIC, InFO và CoWoS
Có thể nói giới bán dẫn hiện nay đang chia ra 2 "đẳng cấp". Một là những hãng gia công chip theo kiểu monolithic "truyền thống" bao lâu nay. Và phần còn lại là thiểu số những công ty làm được chiplet (hoặc cao hơn là chip 3D). Tính tới hiện tại chỉ có 3 cái tên trong đám "thiểu số" gồm Intel, Samsung và TSMC. Tương lai sẽ có thêm vài cái tên khác nhưng hôm nay, chúng ta chỉ tập trung vào TSMC.
Các công nghệ đóng gói chip 3D của TSMC
3 cụm từ phía trên là 3 công nghệ đóng gói 3D mà TSMC hiện đang cung cấp cho khách hàng. 3DFabric là tên gọi chung cho tất cả các công nghệ này. Nhưng tại sao lại cần tới 3 công nghệ khác nhau chỉ để làm chip 3D? Đó là vì xây 1 căn nhà 1 tấm thì bạn không cần phân biệt trên dưới trước sau. Nhưng khi cần tới 2 căn thì tương quan vị trí và kết nối chúng sẽ thế nào?
3DFabric chia ra 2 dạng: tạo 3D trước (front-end) hay tạo 3D sau (back-end) khi cắt/test wafer. Nếu việc chồng chip diễn ra trước khi cắt wafer (FE3D), TSMC có SoIC. Còn chồng chip sau khi wafer đã cắt (BE3D), TSMC có InFO và CoWoS. Bạn có cảm giác đã thấy những cái tên này ở đâu không? SoIC được AMD dùng để sản xuất X3D (3D V-Cache), InFO dùng trên các chip Apple iPhone và CoWoS, well, hầu như mọi con chip tăng tốc AI đều dùng công nghệ này.
Cốt lõi của SoIC là kỹ thuật tạo liên kết hybrid bonding với các mạch chỉ cách nhau 9 μm (0.9 μm là sai số cho phép)
SoIC (System of Integrated Chips) hay chồng chip dọc được thực hiện chủ yếu dựa trên hybrid bonding. Cụ thể các mạch liên kết giữa 2 die chip được tạo ra bởi TSV (through-via-silicon). Khác biệt ở đây là cự ly hybrid bonding cực kỳ nhỏ, từ 9 μm (thế hệ 1) trở xuống. Theo lộ trình của TSMC, hybrid bonding thế hệ 2 bắt đầu triển khai trong 2024 có cự ly chỉ còn 6 μm. Thế hệ 3 còn 4.5 μm và thế hệ 4 là 3 μm. Trong bài phân tích X3D trước, mình có mô tả cách TSMC thực hiện như thế nào, bạn có thể xem lại.
SoIC lại chia ra 2 dạng là CoW (chip on wafer) và WoW (wafer on wafer). CoW là khi 2 die chip có kích thước khác nhau (ví dụ X3D thế hệ đầu), con chip nhỏ hơn sẽ được đặt nằm trên wafer chứa die chip lớn hơn rồi hybrid bonding mới được thực hiện. WoW là khi 2 die chip có kích thước bằng nhau (có thể X3D đời sau đang dùng dạng này), về nguyên tắc chúng có thể được cắt nhỏ ra cùng lúc. Lúc này TSMC sẽ chồng 2 wafer lên nhau (sao cho các vị trí TSV khít nhất có thể) rồi tiến hành hybrid bonding. Sau đó mới diễn ra công đoạn cắt, test thành phẩm.
Ở CoW, die chip nhỏ hơn được cắt ra trước rồi mới "hàn" lên die chip lớn hơn
Ở WoW, 2 wafer được chồng lên nhau trước, "hàn" lại rồi mới cắt ra sau
TSMC 3DFabric - SoIC, InFO và CoWoS (tiếp)
InFO (Integrated Fan Out) có nghĩa là chip tích hợp toả chân (fan out). Cụm fan out trong bán dẫn ám chỉ việc các con chip ngày càng nhỏ nhưng chân tín hiệu của chúng có giới hạn thu nhỏ. Để có thể liên kết với mạch PCB hoặc các chip khác, yêu cầu đặt ra các các chân này cần được toả ra (giống như xoè cánh quạt) trên một diện tích lớn hơn diện tích die chip gốc. InFO của TSMC có thể hiểu là chồng chip ngang, khi 2 die logic được đặt sát cạnh nhau để trao đổi tín hiệu thông qua việc "toả chân" qua một tấm nền (substrate) nằm phía dưới.
Kỹ thuật InFO-PoP với die DRAM nằm phía trên die logic
Thực tế khái niệm này có chút mâu thuẫn với kỹ thuật InFO-PoP mà TSMC dùng sản xuất chip iPhone. Trong đó die chip DRAM được đặt chồng lên trên die logic thông qua microbump và TSV chứ không đặt ngang. Lý do TSMC vẫn xếp InFO-PoP vô nhóm InFO có lẽ vì yếu tố "lịch sử". Dù sao đóng gói 3D là một mảng mới mẻ hoàn toàn chưa có tiêu chuẩn chung nên hãng nào cũng "mò mẫm" từng bước một.
InFO-R dùng 1 lớp RDL để liên kết 2 die logic đặt cạnh nhau. InFO-L bổ sung 1 cầu LSI với băng thông tốc độ cao
InFO "chuẩn" ở đây gồm InFO-R và InFO-L. InFO-R có nghĩa tấm nền liên kết là một lớp Redistribution (RDL) được cấu tạo bởi polymer "kẹp" các mạch đồng (Cu) ở giữa. Phiên bản RDL hiện tại có tới 6 lớp mạch Cu trong đó cự ly tối thiểu giữa từng chân Cu là 4 μm. InFO-L là bản cao cấp hơn với phần liên kết tín hiệu giữa 2 die chip được thực hiện qua một cầu nối LSI (Local Silicon Interconnect).
Cần chú ý InFO-L vẫn dùng RDL như InFO-R ở các khu vực khác. LSI ở đây đóng vai trò một liên kết tốc độ cực cao, tương tự EMIB của Intel, nhằm giúp việc trao đổi dữ liệu giữa 2 die chip nhanh nhất có thể. Nhanh cỡ nào? Bạn đã nghe tới UltraFusion chưa? Vầng đó là cái tên Apple đã đặt cho liên kết này khi ra mắt M1 Max cũng như các phiên bản chip M 2 die về sau này.
Apple UltraFusion thực chất dựa trên cầu LSI của TSMC
CoWoS (Chip on Wafer on Substrate). Cái tên này hẳn không còn lạ gì với bạn. Có thể nói mọi con chip AI kèm theo một mớ chip HBM bu chung quanh tính tới thời điểm này đều dựa trên CoWoS. Đây cũng có thể xem là công nghệ đóng gói chip 3D đầu tiên mà TSMC triển khai, trước khi có thêm SoIC và InFO. Nếu để ý, bạn sẽ thấy CoWoS có cụm CoW (chip on wafer) giống 1 trong 2 dạng SoIC kể trên, song thực tế chúng không liên quan gì nhau.
Nền tảng CoWoS dựa trên tấm đệm interposer để liên kết die logic với các die HBM
CoWoS có 3 phiên bản với CoWoS-S là bản đầu tiên. Chữ S là viết tắt của silicon interposer, trong đó các chip SoC lẫn HBM sẽ "alo" với nhau qua tấm đệm này. Sau lần xuất hiện đầu tiên trên AMD Fury-X, CoWoS-S gần như trở thành tiêu chuẩn cho các hãng khác "học theo". Song CoWoS-S có nhược điểm là giới hạn reticle dùng đế sản xuất ra tấm silicon. Ở lần ra mắt đầu tiên với Fury-X, diện tích tấm silicon chỉ gấp 1.5 lần giới hạn reticle EUV (có nghĩa chỉ nhét được 1 die SoC + 4 die HBM). Tới 2019, TSMC mới cải thiện được lên 2 lần (1 die SoC + 6 die HBM). Phiên bản 2021 là gấp 3 lần (lúc này mới gắn được 2 die SoC) và 2023 thì được 4 lần (vẫn chỉ được 2 die SoC kèm thêm các die HBM).
Silicon interposer có tốc độ cao nhưng chi phí sản xuất cao và sản lượng hạn chế
Và dù có thể làm ra tấm silicon bự hơn, không có nghĩa là sản lượng của chúng cao hơn. Một quy luật của lithography là kích thước die càng lớn thì hiệu suất càng giảm. CoWoS-S cũng không thoát được chuyện này. Do đó TSMC phải tìm tới giải pháp khác nếu như không muốn "đâm đầu vô tường" trước cả định luật Moore. Cái khó ló cái khôn, TSMC tìm được lối thoát ngay từ chính mình - RDL và LSI.
CoWoS-R và CoWoS-L thực chất là sự kết hợp giữa InFO và CoWoS. Trong đó thay vì dùng tấm silicon đắt đỏ thì TSMC dùng RDL có chi phí chế tạo thấp hơn. Ngoài ra, do đặc tính vật liệu hữu cơ nên RDL có hệ số giãn nở vì nhiệt ổn hơn Si, giúp giảm thiểu tình trạng giãn nở không đồng bộ giữa các die chip và mạch liên kết cũng như tấm nền và PCB ở dưới. Đối với các ứng dụng gần tới băng thông cực cao, cầu LSI sẽ vào cuộc. Vì thế CoWoS-R và CoWoS-L là giải pháp thay thế nếu khách hàng muốn làm những con chip siêu bự như trường hợp GB200 Blackwell của NVIDIA. Thực tế gần đây có thông tin NVIDIA đã bỏ dùng CoWoS-S để chuyển hoàn toàn sang CoWoS-L cho các chip Blackwell sau này.
So sánh 3 hình thức CoWoS-S, CoWoS-R và CoWoS-L
Tạm kết
Tới đây mình có vài nhận định thế này. Cái tên CoWoS xuất hiện tương đối lâu và dần trở thành 1 thuật ngữ công nghiệp. Song nó không chính xác ở cụm chip on wafer (bên SoIC khái niệm này đúng). Nó nên được gọi là SoS (System on Substrate) hay CoS (Chips on Substrate) sẽ hợp lý hơn. Dù sao thì đây là lựa chọn của TSMC nên chúng ta cứ tạm dùng vậy. Một điểm khác cũng theo quan điểm cá nhân là CoWoS-S, CoWoS-R và CoWoS-L mình hay gọi vui là "small, regular and large" =))))
3DFabric của TSMC gồm đóng gói 2D, 2.5D và 3D
Thêm vào đó, nếu để ý bạn sẽ thấy CoWoS dường như là phiên bản "thuần HBM" từ InFO. Vì khi không dùng silicon interposer nữa thì phần liên kết RDL + LSI thực ra y hệt InFO. Có thể hiểu CoWoS sinh ra chủ yếu cho mục đích liên kết chip logic với HBM. Còn InFO là logic + logic. Trong 1 tương lai dài hơi hơn, InFO và CoWoS gần như là một (GB200 của NVIDIA là ví dụ).
GB200 là sự kết hợp cả CoWoS và InFO
Sau cùng, lựa chọn cách "xây chip" như nào là tuỳ theo khách hàng. TSMC cho biết họ có thể kết hợp lẫn lộn giữa SoIC, InFO và CoWoS để "nhào nặn" mọi thứ. Đây cũng là điểm mà AMD đã tận dụng triệt để để làm ra MI300 mà chúng ta sẽ tìm hiểu ở bài kế tiếp.
