很難想象,一個只有兩三百人的會議,來了國內“百模大戰”中的幾十家企業。他們為何而來?
(資料圖)
文|趙艷秋
編|牛慧
8與24日,在北京東三環一家酒店中舉辦的一場發布會現場,來了國內“百模大戰”中過半的企業。
全場的氣氛有些焦慮,一些與會者見面時的問候語變成了“你家的GPU服務器到貨了沒有?”
今年上半年,全球新發布的大模型約有400個;截至7月,中國發布的10億參數以上的大模型有79個。Gartner在其最新2023年新興技術成熟度曲線,將生成式AI置于過高期望的頂峰,大模型賽道的熱潮,也導致AI算力現在變得異常稀缺,而GPU芯片大廠英偉達的營收和市值都創造了新高。
“我們判斷現在英偉達H800的缺口在45萬片。”一位與會互聯網算力平臺負責人說,業界整體面臨算力從哪來的問題。
更進一步說,Gartner預計生成式AI將在未來兩到五年帶來變革性好處,不少大模型企業出于自身業務長期的發展,正在體系化考慮大模型業務,比如,思考自建算力集群,產業鏈也開始要解決更多大模型系統化發展帶來的挑戰。
01
中美大模型或將走向不同“分野”
很難想象,一個只有兩三百人的會議,來了幾十家大模型企業。
此前有業界人士稱,中國將與美國一樣,未來只有幾個大廠有能力做大模型,其他企業都將在大模型上做應用開發,但顯然每家來參會的企業都懷抱希望,想要一搏。
“我們的模型開源后,大約有150家企業客戶將它用到了實際生產中,但其實可能這只是登記在冊的,實際數量已遠遠超過了這個數。”百川智能技術聯合創始人陳煒鵬說。百川是由王小川等創立的大模型企業,今年4月進入該賽道,時機并不算早,但獲得了市場的良性反饋。他們準備在Q4發布更大的500億參數的模型。
快手在8月剛剛宣布自研大模型“快意”,一位與會人士稱,正在加緊探索應用場景。
“其實,今天我們只是在生成式AI的起點。”浪潮信息高級副總裁劉軍告訴數智前線,“我認為還沒有到定義中國大模型格局的階段。”
浪潮信息高級副總裁劉軍
他的理由是,生成式AI未來的前景實在是太廣闊了。而從技術角度看,以十年的維度,今天GPT4的能力還是一個小娃娃,未來有多遠,人們能到多高的山,現在都還是未知。包括一些組織正在研究新算法要去顛覆大模型“鼻祖”Transformer,美國至今也在對大模型進行瘋狂投資,這些都是行業內值得關注的動向。
不得不承認,從應用角度看,當下大模型在中美的普及程度不太一樣。ChatGPT在美國已成為很多人工作不可或缺的助手,寫代碼、寫文檔、做翻譯、寫郵件,不少人每天都在用,也有很多人在持續使用文生圖的Stable Diffusion、Midjourney。
在國內,一些先行企業在做大模型的落地嘗試。上海儀電旗下數科公司南洋萬邦智能物聯部經理曾佑軒告訴數智前線,從他們做的項目來看,主要是內部員工的AI助手、知識管理兩大方向。目前AI助手的費用已做到每月每人10元。
但一位與會互聯網人士對此不以為然,他認為上述用戶體量還是太小。他們的App有數億用戶,對大模型的落地“胃口”顯然更大。“你看ChatGPT有幾億用戶。”他說。
大家認為,普及上的差距,核心原因是大模型的性能差距。從各大模型企業釋放的信息來看,今年底,國內基礎大模型有望趕上GPT3.5的水平。“我們設想中國有10個達到GPT4、GPT5這樣能力的大模型,運用前景跟今天就會完全不一樣。”業內資深人士說。
劉軍認為,客觀來看,一方面國內在基礎大模型上和Open AI之間存在較大差距,確實需要做提升;另一方面,中國公司在應用上毫無疑問具備特別強的創新能力。這兩者結合起來,中國在生成式AI上會有一個非常好也不一樣的前景。“美國現在的格局,并不意味著就是中國未來的格局。”
大模型的追趕,需要數據、算法和算力上的保障,算力目前是一個突出問題。
大模型能力的提升和其訓練投入的算力當量正相關。簡單說,算力當量就是模型參數量乘以訓練的token數。根據公開資料分析,GPT-4、PaLM-2等模型的算力當量已達到GPT-3的數十倍,相當于上萬顆領先的英偉達Hopper架構GPU組成的AI集群,訓練超過1 個月的時間。實際情況是大家可能找不到這樣的算力,這是國內大模型企業面臨的一大挑戰。
一位與會創業者對數智前線說,他看到業界正在研發各類XPU芯片,早有“百芯大戰”之說。未來AI算力將走向百花齊放,尤其是誰將在ChatGPT之后,面向大模型訓練開發出專門的芯片。到那時,GPU將不再通吃天下。
不過,快手異構計算負責人劉凌志稱,他們看到新的AI芯片 落地用起來,基本上在兩三年之后。
為了加快多元化芯片的落地,8月,浪潮信息發布了《開放加速規范AI服務器設計指南》,“百芯”公司可參考規范,將服務器適配周期從原來將近一年時間縮短到三分之一。這里的核心問題是,英偉達最搶手的GPU采用了NVLink高速互聯協議,但這是一種私有協議。為解決其他芯片高速協同工作,國際開放組織OCP制定了開放加速計算規范,目前浪潮信息是最核心的牽頭者和推動者。
在8月北京舉辦的OCP大會上,數智前線看到了采用燧原AI加速芯片的服務器。有業者告訴數智前線,多元算力局面將在2024年底到來。
不過,為了解決大模型的快速推進和算力稀缺之間的矛盾,業界需要做的還要更多。
02
硬件企業向上,軟件企業向下
當下算力的矛盾,不僅是芯片問題,也有如何從系統角度把芯片用起來的問題。
“很多人認為,只要買了很多GPU,就可以搭建超大規模的訓練集群,這是很大的誤區。”商湯聯合創始人陳宇恒曾告訴數智前線,他深刻體會到構筑AI計算集群去訓練大模型的不易,稱之為“工程的奇跡”。試想,把幾千、幾萬塊GPU連接起來,實現非常高的并行效率,還要保障長時間無故障運行,確實不容易。
浪潮信息人工智能與高性能應用軟件部AI架構師Owen ZHU在拜訪一家海外大型科技企業時,企業的IT總監告訴他:“Al集群就像一臺動力強勁的法拉利,但目前為止我們還沒有很好的掌握如何駕馭它。”這家企業有很長一段時間都在用公有云,當他們要創建自己的AI集群時,發現自己已喪失了面對最新硬件設備構建集群、優化運維的能力。
“我們每個創業公司都會考慮自建集群,但基本決策都還沒有下。”一家與會的大模型創業人士告訴數智前線,他稱想自建的原因是目前整個行業的算力都很緊張,使用云服務有很大的不確定性,長期來看成本也較貴,因為原來云可以超賣,但現在訓練大模型,為了追求集群的性能,不允許云廠商超賣,這導致用云的成本比自建要高。而目前沒做決策的原因,是自建的復雜性。
金山辦公技術總監熊龍飛觀察,他們的一些用戶出于數據安全和隱私,對私有化部署已提出強烈需求。“當前,我們做的主要還是公有云方案,后面要進行私有化部署的遷移,不僅需要尺寸更小的模型,也要更強的本地算力集群。”
Owen ZHU觀察,企業在智算場景下,建設本地集群的需求越來越明顯,但從目前的情況看,絕大多數用戶在如何用好這些算力上,或多或少都遇到一些問題。
基于這些用戶的需求,8月24日,浪潮信息正式發布大模型智算軟件棧OGAI (Open GenAI Infra) “元腦生智”,這是一套全棧軟件,面向生成式AI開發與應用場景,涉及從集群系統環境部署到算力調度保障再到大模型開發管理。
“現在市面上沒有公開、標準化的東西,我們就把自己從2021年起做大模型的工程經驗、服務客戶的經驗,轉化成工具和流程。”Owen ZHU說。
這看上去有些跨界,畢竟浪潮信息以算力和基礎設施為主。但實際上,人工智能產業鏈上,跨界動作愈發頻繁,業界有著“軟件企業向下,硬件企業向上”的現象。
各大互聯網企業不僅開發各類大模型,做模型商店,還向下做芯片,做人工智能算力大底座。
GPU大廠英偉達CEO黃仁勛在今年一個大學演講中稱,“調動公司各方力量來推進人工智能”。英偉達估計,這項工作在過去十年間已花費了超過 300 億美元,使英偉達不僅是一家芯片供應商,還建立起一支訓練大模型的人工智能團隊,開發了CUDA 之外的多層關鍵軟件,目的是為程序員節省勞動力。
“人工智能是對計算方式的重新發明。”黃仁勛進一步解釋,“我們從頭開始構建一切,從處理器一直到最終。”
此前,浪潮信息也已開始人工智能的相關布局,在2021年9月,發布了參數量為2457億的大語言模型“源1.0”,成為國內首個推出大語言模型的“硬件”企業,時間與互聯網企業如阿里等不相上下。
在被問及浪潮信息的定位時,劉軍回應,開發大模型的核心出發點,還是研究大模型對于算力系統的需求特點,但他也隨即補充,“我們越來越不認為自己是個硬件廠商,如何能把硬件這個生意轉化成更大的生產力,我們必須去理解客戶的應用需求和痛點,這也要求浪潮信息不僅僅是硬件,我們在系統、軟件、算法上都有非常強的團隊和能力。”
在人工智能賽道,中美企業當下處于狂跑構筑大模型、創造新應用的關鍵時期,很多角色在加速轉變,因為客戶需求復雜,單一角色的價值越來越低,越做越難。這就好像混亂的“戰國時代”,沒有說分工在哪一層,有跨界,有垂直整合,有些亂序,說不上誰對誰錯,大家都在嘗試。
03
公有云之外的一套工具鏈
為什么浪潮信息會選擇此時推出大模型智算軟件棧OGAI?一位資深人士告訴數智前線,在公有云上跑通大模型后,不少企業開始考慮自建集群,而一些企業搶購的GPU,將陸續在下半年和明年上半年到達客戶現場。
此前,互聯網大廠都提供了相應的工具鏈,但都在自家云平臺上提供服務。浪潮信息的大模型智算軟件棧OGAI“元腦生智”,則針對本地化或私有化部署,并且可以在用戶的不同平臺上“嫁接”使用,不要求一定基于浪潮信息的“源”大模型或該公司的某一平臺。
大模型智算軟件棧OGAI分為五層,各層對應不同的應用場景,每層間是解耦的,用戶需要哪些工具,就可以調用哪些。Owen ZHU看到 ,在大型智算中心的建設場景中,基本會使用從L0到L4的全棧軟件服務,企業也可選擇其中的某一些工具鏈。
在這五層中,與其他工具鏈形成差異化的主要是L1和L2層。
L1層PODsys提供了集群部署的系統化工具。有趣的是,這一層是開源軟件組成的。Owen ZHU稱,這符合不少有互聯網精神的企業,使用開源組件的需求。在諸多開源工具中如何選用、如何配置、如何快速組合,浪潮信息將自己之前的實踐公開出來。這些軟件可從PODsys.ai網站下載,免費使用。
L2層則是商業化調度平臺AIStation,它的一些功能將與L1層PODsys形成承接。劉軍介紹,商業化和開源之間的區別在于生產效率。
比如,在PODsys里也有兩個開源的調度器,是免費使用的,而商業版本則能自動識別各種節點、設備的故障,把它從計算資源池里剔除出去,加入新的可用計算資源。同時,如果產生了斷點,它能從最新斷點自動化加載回來繼續往前計算。
這是斷點續訓功能,大模型訓練時間通常從幾周到幾個月,出現設備失效后,不能讓跑了幾十天的作業又重頭再來,斷點續訓的設置和保護,對客戶是一個極大的保護。目前,市面上的開源版本不提供這些功能,用戶可以根據需求來選擇。
L3大模型訓練層和L4層多模型納管層,提供的功能類似互聯網企業的工具鏈,但OGAI是為企業提供本地化和私有化部署的。值得關注的是L4層,未來,浪潮信息將通過它的元腦生態,參與到大模型企業的商業通道中。
經歷了這些年人工智能的演進后,劉軍稱,今天我們仍處于大模型的起點,除了人工智能的三要素——更好的數據、更有創意的算法和更好的算力之外,他希望再加兩個,即更好的工程和更好的生態,逐步將大模型的飛輪跑起來。
關鍵詞: