“生成式AI需要更高的芯片算力和片間互聯能力。”
“大模型算力需求超過半導體增長曲線,Chiplet是滿足需求的關鍵。”
“(大模型需要)分布式計算能力,包括數據并行、模型并行、流水并行等分布式計算方案,計算效率尤其關鍵。”
(資料圖)
自去年年底大模型“熱潮”席卷而來,半導體業內對于大模型需要什么樣的硬件的問題眾說紛紜。當前國內外大模型的數量已發展到以百千計,大模型參數量也發展到千億級。在這種趨勢下,算力芯片究竟該如何適應大模型不斷增長的算力需求?
從集群的角度看問題:提高帶寬與存儲
“大模型時代,從單卡效率看問題的視角已經落伍了,對硬件設備的審視要更多地從集群的角度去看。” 燧原科技產品市場總經理高平在接受《中國電子報》采訪時說道。
在當前計算機采用的馮·諾依曼的體系架構下,計算和存儲是分離的。一項任務的完成,既需要高算力,又需要大存儲量和高效互聯作為支持。長期以來,廠商對于處理器效率提升的關注點都放在算力上。而大模型訓練,動輒需要上千張甚至上萬張算力芯片組成的集群。這使得原本沒有特別受到重視的存儲量和帶寬一下子成為制約集群效率的瓶頸,也成為各廠商最為關注的技術指標。
沐曦集成電路(上海)有限公司聯合創始人、CMO孫爾俊在接受《中國電子報》記者采訪時表示,大模型需要緩存上千億的參數量,單個芯片的存儲量越大,整個集群所需要的芯片數量就越少,片間花費的傳輸時間就相應地會更低,從而更有利于提高整個集群的計算效率。這意味著,如果單卡存儲容量不夠,原本用1000張卡就能完成加速的工作,需要擴展到更多的芯片上完成,卡間互聯所需要的時間會被拉長,整個系統的效率也由此降低。
沐曦首款人工智能推理GPU曦思N100
片間帶寬是另一個備受關注的指標。芯片存儲量和片間互聯帶寬,就像是支撐大模型硬件基礎的一體兩面。如果把大模型訓練比作貨物運輸的過程,存儲量就像是每輛卡車的裝載量,而帶寬就像是高速公路的并行車道數。二者共同決定了整個訓練任務多久才能完成。
由此,如何提高算力芯片的單片存儲和片間帶寬,成為算力芯片廠商需要考慮的問題。
在提高芯片存儲量方面,業界采取的依然是提升晶體管密度和加大存儲面積兩種思路。一方面采用更先進的工藝,另一方面采用3D封裝,將存儲貼在芯片上。
相比之下,帶寬提升更困難一些。高平表示:“帶寬提升在很長時間內都是芯片設計領域的難點。相比于算力成倍數的提升,帶寬的提升一直不大。工藝功耗等因素限制了數據傳輸的時鐘頻率,成本與芯片面積限制了傳輸的通道數量。”因此,業界出現了許多另辟蹊徑的討論,例如通過使存儲與計算模塊靠得更近以縮短傳輸距離,或者采取改變計算與存儲排列方式的存算一體的架構等。
天數智芯在2023WAIC上展示大模型落地支持能力
天數智芯副總裁鄒翾分享了天數的經驗——通過優化算法、片間通訊協議和通訊物理層來系統化的緩解帶寬瓶頸:“流行的大模型算法在硬件工程化中還有很多的調優空間,框架層有多種拓撲結構可以平衡單點計算與傳輸速度,有效降低帶寬需求;互聯技術方面,我們在協議層也采用了私有的協議,可以提高有效數據傳輸的效率;在物理層未來可供選擇的非電技術也有進一步提升帶寬的空間。”他還提到,未來應用的性能需要在系統架構上優化。一來大模型的工作負載可以結合節點配置的情況和傳輸能力進行調整,二來傳輸方式可以不僅限于電互聯,還可以利用光互聯等其他技術。軟硬件系統級聯合調優還有很大的空間,可以進一步壓縮對于芯片硬件帶寬的需求。
提升“軟”實力:優化工具與云服務
“對于很多客戶來說,硬件就是個黑盒子,他們并不關心芯片內部的架構是什么樣的。他們直接接觸的,是產品的軟件。”一位算力芯片領域資深專家告訴《中國電子報》記者,“與全球算力芯片領軍企業相比,算力芯片的后起之秀們在硬件上實現趕超相對容易,軟件反而是短板。”
“好用”,是大模型對算力芯片軟件棧最基礎的要求。
這個要求在大模型出現之前便已經存在。大模型的“遍地開花”對于軟件的要求并沒有根本性的變化,仍需要相適配的軟件持續調優。
軟件的優化,最需要客戶與算力芯片企業的協同。作為算力芯片軟件配套方面的“老大哥”,英偉達CUDA的制勝秘訣,就是擁有相當數量的客戶群體,并充分了解客戶需求。通過與客戶溝通,持續進行軟件調優,使產品更好用、更易用。
而對于國內算力芯片企業而言,不少企業接到的單個訂單量比較大,足夠維持企業的正常運轉,但客戶數量較少,這對于發展企業自己的軟件棧并不是一件好事。“從軟件的角度來說,一個客戶無論買100張卡還是買10張卡,能夠給我們帶來的反饋是一樣的。我們希望有更多的企業給我們具體的反饋,這樣軟件迭代優化的速度也會更快。” 某算力芯片企業表示。
能不能做得像英偉達CUDA一樣?這是算力芯片企業最常被問到的問題。
對于獨立開發軟件的企業而言,由于客戶已經形成了使用CUDA的習慣,為了幫助客戶盡快適應從CUDA軟件向新環境的遷移,在自研軟件的界面設計上,會主動選擇貼合客戶使用習慣的設計,從而幫助客戶更輕松地完成遷移。
“加大在軟件上的投入,已經是一個共識。幾乎所有AI芯片公司軟件團隊一定比硬件團隊人更多、投入更大。芯片公司越來越像軟件公司,將研發的重點放在軟件棧上面。”業界專家表示。
燧原科技全棧式人工智能開發服務平臺
此外,提供云服務也是算力芯片企業提升影響力、拓展客戶面的重要實現方式。成本低是云服務的核心優勢。對于一些初創企業或者是規模較小的團隊而言,購買算力芯片需要的成本較高,而通過云租賃的方式獲得算力資源,可以以較低的成本緩解算力不足的問題。當前,谷歌、英偉達、阿里云、金山云等都已經具備為大模型提供云端算力的能力。
“從長期來看,肯定是自建算力平臺的成本更低。但對于前期啟動資金較少的企業來說,租用云算力的方式可以幫助企業在更短的時間內使用到運算更快的計算集群。” 一位算力芯片領域資深專家這樣告訴《中國電子報》記者。
市場開拓:強化產業協作
在算力芯片領域,市場對于英偉達之外的算力芯片廠商產品,接受度還有待提高。
據《中國電子報》記者采訪了解,英偉達的產品依然是中國大模型企業的首選,其他品牌與英偉達的競爭存在客戶使用習慣、客戶對穩定性的質疑等多方面的制約。在金融、網絡安全等領域之外,算力芯片“后起之秀”們的應用數量還比較有限。選擇新興算力芯片企業的,多是不以大模型作為主營業務的企業。這些企業或者是在嘗試使用大模型、以大模型作為未來可能的發展方向,或者是做人工智能領域研究的實驗室。另外有些企業,希望豐富自己的供應鏈來源,也會購進一批“國產卡”。以大模型為主營業務的企業,對效率的要求更高,希望產品“拿回來就能用”,雖然部分企業也會購進一批國產卡,但整體來看對可能需要進行設備調試的新興品牌意愿不強。
大模型的發展給算力芯片企業帶來了千載難逢的發展機會。據記者了解,當前國內算力芯片廠商已經獲得了一定數量的專做大模型業務的客戶。但相比于“百模大戰”的盛況,以及每家企業都需要搭建千卡甚至萬卡集群的規模,待開掘的市場空間還很廣闊。當前,英偉達部分熱門產品仍然緊俏,最長交付周期達三個月之久,這給其他的市場參與者帶來了利好。
不僅如此,大模型的出現為原本苦于尋找應用場景的算力芯片找到了入場渠道。在大模型出現之前,模型種類比較分散,會出現多種模型解決同一個問題的情況。應用企業采用的技術路線碎片化,也導致芯片硬件廠商的技術路線多樣化,技術難以收斂。
而大模型出現之后,應用的模型不再四面開花,模型的底層技術有了收斂的趨勢,會更多地使用Transformer結構,這意味著上下游的協同將會從原來更偏向垂直合作的結構向金字塔形轉變。即多種算力芯片產品共同服務于一種大模型結構。這也意味著算力芯片企業如果能夠做到與一位大模型公司實現技術互通、生態共建,將贏得更高的市場話語權。
在此背景下,國內算力芯片企業更需要苦練內功,提供符合客戶要求的產品,在單卡算力、卡間互聯、內存大小等方面做到更優,同時提供更便于上手的軟件服務。
燧原科技智算中心2.0模式
“打鐵還需自身硬”。在當前市場背景下,國內算力芯片廠商該如何提升市場規模?記者通過采訪了解到:供應鏈上下游之間的協作尤為重要。
“國內的算力芯片生態比較碎片化,國內芯片類型眾多,缺乏統一的標準,這使得客戶面對繁雜的市場也會有些無所適從。”高平表示。相比于英偉達,其他算力芯片廠商都是市場后入者。在這種情況下,如果每家都有自己的一套技術邏輯,那么客戶嘗試不同的廠商所需要付出的時間成本會更大,從而不利于市場的靈活發展。高平指出,面對這種情況,相關部門和大型企業可以進行引導,帶領產業鏈實現行業標準的完善。
一位算力芯片專家提及,供應鏈縱向投資也是一種實現產業協同的方式。例如做下游應用的廠商,面向上游投資芯片,就會有比較大的動力在自己的產品中使用相應芯片產品。
搭建生態,是實現產業鏈協作的最終形式。高平表示,可以將產業鏈上下游納入企業自己的生態體系,包括AI企業、OEM企業,AIGC應用企業等,通過與不同類型的企業搭建聯系,共同解決未來應用場景的問題,這是一種生態搭建方式。在可操作層面,可以建立開發者社區,從而加強客戶與品牌之間的溝通。
責任編輯:房家輝
分享到:版權聲明:凡注明來源“流媒體網”的文章,版權均屬流媒體網所有,轉載需注明出處。非本站出處的文章為轉載,觀點供業內參考,不代表本站觀點。文中圖片均來源于網絡收集整理,僅供學習交流,版權歸原作者所有。如涉及侵權,請及時聯系我們刪除!關鍵詞: