英特爾雖然策略相對保守,但是卻正在通過價格來取勝,英特爾推出了Gaudi人工智能加速器的積極定價策略。英特爾表示,一套包含八個英特爾Gaudi 2加速器和一個通用基板的標準數據中心AI套件將以65,000美元的價格提供給系統提供商,這大約是同類競爭平臺價格的三分之一。英特爾表示,一套包含八個英特爾Gaudi 3加速器的套件將以125,000美元的價格出售,這大約是同類競爭平臺價格的三分之二。AMD和Nvidia雖然不公開討論其芯片的定價,但根據定制服務器供應商Thinkmate的說法,配備八個Nvidia H100 AI芯片的同類HGX服務器系統的成本可能超過30萬美元。
一路高歌猛進的芯片巨頭們,新產品發布速度和定價凸顯了AI芯片市場的競爭激烈程度,也讓眾多AI初創芯片玩家望其項背。可以預見,三大芯片巨頭將分食大部分的AI市場,大量的AI初創公司分得一點點羹湯。
工藝奔向3納米
AI芯片走向3納米是大勢所趨,這包括數據中心乃至邊緣AI、終端。3納米是目前最先進工藝節點,3納米工藝帶來的性能提升、功耗降低和晶體管密度增加是AI芯片發展的重要驅動力。對于高能耗的數據中心來說,3納米工藝的低功耗特性至關重要,它能夠有效降低數據中心的運營成本,緩解數據中心的能源壓力,并為綠色數據中心的建設提供重要支撐。
英偉達的B200 GPU功耗高達1000W,而由兩個B200 GPU和一個Grace CPU組成的GB200解決方案消耗高達2700W的功率。這樣的功耗使得數據中心難以為這些計算GPU的大型集群提供電力和冷卻,因此英偉達必須采取措施。
Rubin GPU的設計目標之一是控制功耗,天風國際證券分析師郭明錤在X上寫道,Rubin GPU很可能采用臺積電3納米工藝技術制造。另據外媒介紹,Rubin GPU將采用4x光罩設計,并將使用臺積電CoWoS-L封裝技術。與基于Blackwell的產品相比,Rubin GPU是否真的能夠降低功耗,同時明顯提高性能,或者它是否會專注于性能效率,還有待觀察。
AMD Instinct系列此前一直采用5納米/6納米雙節點的Chiplet模式,而到了MI350系列,也升級為了3納米。半導體知名分析師陸行之表示,如果英偉達在加速需求下對臺積電下單需求量大,可能會讓AMD得不到足夠產能,轉而向三星下訂單。

英特爾用于生成式AI的主打芯片Gaudi 3采用的是臺積電的5納米,對于 Gaudi 3,這部分競爭正在略微縮小。不過,英特爾的重心似乎更側重于AI PC,從英特爾最新發布的PC端Lunar Lake SoC來看,也已經使用了3納米。Lunar Lake包含代號為Lion Cove的新 Lion Cove P核設計和新一波Skymont E 核,它取代了 Meteor Lake 的 Low Power Island Cresmont E 核。英特爾已披露其采用 4P+4E(8 核)設計,禁用超線程/SMT。整個計算塊,包括P核和E核,都建立在臺積電的N3B節點上,而SoC塊則使用臺積電N6節點制造。

在邊緣和終端AI芯片領域,IP大廠Arm也在今年5月發布了用于智能手機的第五代 Cortex-X 內核以及帶有最新高性能圖形單元的計算子系統 (CSS)。Arm Cortex-X925 CPU就利用了3納米工藝節點,得益于此,該CPU單線程性能提高了36%,AI性能提升了41%,可以顯著提高如大語言模型(LLM)等設備端生成式AI的響應能力。
高帶寬內存(HBM)是必需品
HBM(High Bandwidth Memory,高帶寬存儲器)已經成為AI芯片不可或缺的關鍵組件。HBM技術經歷了幾代發展:第一代(HBM)、第二代(HBM2)、第三代(HBM2E)、第四代(HBM3)和第五代(HBM3E),目前正在積極發展第六代HBM。HBM不斷突破性能極限,滿足AI芯片日益增長的帶寬需求。
在目前一代的AI芯片當中,各家基本已經都相繼采用了第五代HBM-HBM3E。例如英偉達Blackwell Ultra中的HBM3E增加到了12顆,AMD MI325X擁有288GB的HBM3e內存,比MI300X多96GB。英特爾的 Gaudi 3封裝了八塊HBM芯片,Gaudi 3能夠如此拼性價比,可能很重要的一點也是它使用了較便宜的HBM2e。
