ChatGPT橫空出世,開啟了AI的2.0時代。
iPhone的問世為iPhone黃金時代揭開了序幕,也帶來了上一輪科技革命。現在市場各方期待著,“AI的iPhone時刻”會開啟怎么樣的新世界。
(資料圖)
國內國際廠商紛紛跟進潮流,搶占大模型高地,“百團大戰”如火如荼。
有人認為,我們距大模型真正落地還很遙遠。我本來也持有類似的觀點,直到我看到商湯的財報——
一系列引人關注的數據和舉措:
根據中期業績報告,生成式AI相關收入同比增長高達670.4%,占整體收入的比重漲至20.3%。生成式AI取得不錯的商業化成績,已貢獻了很有存在感的收入體量。
商湯已經建立了涵蓋底層基礎設施到上層模型的完整AI大模型服務體系。報告期內,商湯發布了應用于不同場景的生成式AI產品系列,包括商量、秒畫、如影、瓊宇、格物,分別對應著自然語言交互、AI文生圖、數字人、3D大場景重建、3D小物體生成這五個主流的生成式AI應用。商湯還提供諸如自動化數據標注、自定義大模型訓練、模型增量訓練、模型推理部署以及開發者效率提升等一系列MaaS服務,利用自己已經擁有的通用大模型,向客戶提供多種大模型能力,去幫助用戶更方便和快速的訓練自己垂直領域的模型。
圖:商湯的MaaS模式
資料來源:華泰證券研究所
上半年,商湯在智慧商業、智慧生活、智能汽車和智慧城市四大業務線積極推廣生成式AI業務,并取得不錯反響。其中,智慧商業板塊,商湯開始為客戶定制行業大模型,推動單客戶收入同比增長60%。
商湯的大模型甚至還實現了出海,把大模型的商業化版圖延伸至海外市場。商湯在中期業績報告中指出,公司根據海外市場的語言和文化差異,定制了特定需求的模型,助力全球合作伙伴成為真正的AGI受益者。
橫向對比來看,各個大廠的通用大模型主要還停留在研發階段、有研發成果的還在摸索如何盈利。此時商湯的AI大模型已經在加快商業化變現。
縱向對比來看,如果說投資者在上一次年報中,不難看出商湯在大模型上是具備領先技術實力的;那么在這次業績報告中,我們則可以清晰看到商湯大模型在短短的半年內取得非常明顯的商業化進展。尤其是,財務指標都是后視指標,商業化的速度往往遠遠早于業績兌現的速度。因此,財報中的那些數據還難以反應全部的商湯大模型商業化成果。
領先的商業化進程不可能是空中樓閣。
這一切都有跡可循。
扼住大模型咽喉的算力
隨著港美A三地的業績密集披露期到來,科技企業的中報出現十分有意思的分化。
我們可以看到,外國科技大廠基本都在增加CAPEX,數據中心的生意雖然仍未恢復到以前高峰增長時期,但是也依然受AI拉動了一波。
但國內的數據中心生意卻沒有明顯起色,甚至在下滑。“需求非常大,但受制于供給瓶頸”,相關廠商都是這么表述。準確的說,我們受制于芯片供給瓶頸,并不能滿足中國AI模型訓練和推理的需求。我們的數據中心沒有足夠的AI算力,因為我們的服務器廠商沒有足夠的高端GPU。
芯片,就是算力的根本,而算力是大模型的血液。AIGC背后支撐的千億級參數超大模型,其計算訓練輸出結果需要強大的算力支撐,
但也并非沒有變通之道——英偉達推出了數據傳輸速度相對較慢的A800、H100和H800,這些型號用來代替A100向中國出口。
但慢,則意味著需要更多的芯片堆疊。根據媒體報道,百度、騰訊、阿里巴巴以及字節跳動公司今年向英偉達下達的交付訂單金額達到10億美元,總共采購約10萬張A800芯片。平均下來,每個公司下單了2.5萬張的采購需求。全球產能本來已經非常緊張,這進一步加劇了英偉達供不應求困境。目前相關產品不僅漲價,交貨期還很長,連A800/H800都要到今年底或明年才能交貨。中美大廠都在緊急搶產能,中國廠商更是大肆囤貨,以應對將來的復雜國際環境。
算力問題,已經成為能否做好大模型的瓶頸問題。
但算力正好是商湯的長處——商湯自誕生之日起就是AI公司,其算力設施自然是滿足AI要求的算力設施。當前業界訓練大模型對大算力的需求非常旺盛,并且真正好用的基礎設施十分稀缺。全球TOP10超算中心中,以GPU為核心算力的僅有六家;在中國AI數據中心更為稀缺。
早于2022年1月,商湯就正式啟用了上海臨港智算中心。這是一個全球領先的超大型人工智能計算中心(AIDC),能提供開放、大規模、低碳節能的先進AI計算基礎設施,可以滿足AIGC大模型的訓練與推理需求。我們目前并不能知道商湯還有多少塊GPU儲存,不過可以找到間接數據作為輔佐。在AIDC的基礎上,商湯建設了業界領先的AI大裝置SenseCore,這是亞洲目前最大的智能計算平臺之一。根據中期業績報告,商湯AI大裝置SenseCore上線GPU數量已由3月底的27,000塊提升至約30,000塊,算力規模提升20%至6 ExaFLOPS。根據不同的機構測算,GPT-4的訓練需要的A100上數量大約在10000-25000張的區間。商湯的算力規模足以讓它再造一個通用大模型。
目前,商湯已經搭建了較為成熟的日日新大模型體系,因此大量GPU被投入于打造生成式AI產品系列上去。根據業績報告,商湯共投入上萬塊GPU到大語言模型商量SenseChat的研發上,約2,000塊GPU在文生圖模型的研發上,這大大加快了商湯大模型與應用場景的結合。
另外,商湯在依托大裝置訓練大模型時,也通過強大的數據清洗能力大大提升模型的效果。目前商湯每月能夠產出約2萬億token的高質量數據,預計年底高質量數據儲備將突破10萬億token,足以支持更加強大的基模型的訓練。
另外,得益于算力布局上的深厚積累,商湯通過優秀的系統架構、網絡架構、訓練框架及算法多方面的聯和優化,將大量的GPU高效連接,使其產生極高的并行效率。無論是最開始的1千張卡級,還是未來的1萬張卡級,隨著集群規模的增長,商湯一直以先進的技術優勢保障并行效率。另外,商湯也不斷總結經驗,通過增加硬件的可靠程度及軟件的容錯能力,支撐萬卡級的人工智能大模型并行訓練,保障算力中心長時間、無故障運行。
總結一下,商湯重視芯片等底層硬件基礎設施投入,具備強大的數據清洗能力,再加上其自建的AIDC算力集群大大壓縮應用模型的訓練時間,再以積累的豐富經驗對整體算力中心進行調優。這些因素讓商湯得以在生成式AI的商業化方面實現領先。
更根本的原因:中國大模型工業化生產開創者
在大模型研發成果的基礎上,商湯打造了“商湯日日新SenseNova”大模型及研發體系。“日日新大模型”目前整體參數量達到5000億,能提供自然語言生成、文生圖、感知模型標注、以及模型研發功能。在“日日新”大模型上,商湯能實現大模型預訓練,僅通過較少和微調就能高效生產AI模型。
從商湯大語言模型產品的更迭中,我們可以清晰得看到“日日新”底層大模型的效率:
4月,商湯推出商量SenseChat1.0,是國內最早的基于千億參數大語言模型的聊天機器人產品之一;6月,商湯聯合上海人工智能實驗室等多家國內頂尖科研機構發布基模型書生·浦語(InternLM);7月初商湯發布商量SenseChat2.0;8月,商湯的新模型InternLM-123B完成訓練。InternLM-123B在全球51個知名評測集(包括MMLU,AGIEval,ARC,CEval,Race,GSM8K等)共計30萬道問題集合上測試成績整體排名全球第二,超過GPT-3.5-turbo以及Meta新發布的LLaMA2-70B等模型。
目前,在“日日新”的基礎上,商湯快速形成豐富的生成式AI產品,囊括了自然語言交互、AI文生圖、數字人、3D大場景重建、3D小物體生成這五個主流領域,使得商湯得以高效應對多樣化、碎片化的應用場景。
有了適用、好用、有競爭力的產品,AI公司才能快速在應用場景落地,實現商業化。這是商湯具備較高商業化能力的最關鍵因素之一。
“大模型對AI生產力的改進,并不亞于第一次工業革命的珍妮紡紗機。
憑借著“大模型+大算力”的優勢,商湯正在加速開啟“21世紀的珍妮紡紗機”,并走向更光明的商業化前景。
關鍵詞: