高效靈活的云上基礎設施,是大模型創業的必要底座。
7月20日,騰訊云對外披露助力MiniMax研發大模型的最新進展。目前,騰訊云長期支持MiniMax的千卡級任務穩定運行在騰訊云上,可用性達99.9%。
MiniMax是一家專注通用大模型研發的獨角獸創業企業,擁有文本、語音、視覺多種模態融合的通用大模型引擎能力。研發過程中,每日億級的調用次數,也帶來了對算力的海量需求。
【資料圖】
從2022年6月起,基于算力集群、云原生、大數據、安全等產品能力,騰訊云為MiniMax搭建了從資源層、數據層到業務層的云架構。
在資源層,高性能、高彈性和高穩定的算力需要借助專業的云服務。騰訊云協同優化單機算力、網絡架構和存儲性能,為MiniMax構建起大規模、分布式的HCC高性能計算集群。
借助騰訊自研的星脈網絡,HCC集群將通信損耗降到更低;CFS Turbo、COS+GooseFS高性能存儲,使得上千個計算節點能同時高速讀取訓練數據。
同時,利用騰訊云容器服務TKE,MiniMax實現了對不同規格云服務器的統一管理和調度,各種類型的應用和服務得以部署在同一套基礎設施上,資源實現了高效整合,資源利用率大幅提升;
基于云原生的管理方式,支撐7*24小時的全局監控視角,支持編排、框架、實例等多層級的指標監控。一旦觸發故障,能夠在5分鐘內恢復任務、10分鐘內恢復基礎設施,無需人工干預完成,能夠最大化保障任務連續進行。
根據實測數據,在云底座的支撐下,激增的并發計算量;基于云原生支撐,MiniMax整體用云成本降低20%。
在數據層,MiniMax在大數據分析方面也有大量的任務需求。
通過騰訊云的數據集成DataInlong、流計算Oceanus、數據湖計算DLC等云原生大數據產品提供的數據處理能力,對大量數據做實時或離線分析,滿足了MiniMax在各個階段的數據分析需求,實現數據的快速靈活部署。以容器化的方式使用大數據組件,使得模型驗證、推理等任務得以按計劃推進。
此外,大模型研發過程中,MiniMax對云上資產安全、Web業務運營風險、DDoS攻擊防護等高度關注。
通過引入騰訊云的防火墻、WAF、主機安全、漏洞掃描、數據加密、iOA零信任安全管理等一系列安全產品,MiniMax實現了對云上資產的全方位保護,確保業務的穩定運行和數據的安全性。
業務上云后,基于海量、彈性的算力支撐和大量改進調優,MiniMax的大模型研發得以加速。
MiniMax業務副總裁魏偉表示:“成熟的云基礎設施,既滿足了業務彈性與穩定性的需要,又提升了研發效率。MiniMax將進一步擴大用云規模, 與騰訊云加速訓練、推理等更多業務場景的云上落地,共同打造面向大模型的云上基礎設施。相信未來,云計算會為AIGC帶來更多可能。”
在算力集群、星脈網絡、向量數據庫之外,騰訊云還推出了涵蓋模型預訓練、模型精調、智能應用開發的一站式行業大模型解決方案,助力企業快速搭建專屬模型。
未來,騰訊云將繼續通過軟硬一體的方式,持續加速全社會云上創新。
責任編輯:李楠
分享到:版權聲明:凡注明來源“流媒體網”的文章,版權均屬流媒體網所有,轉載需注明出處。非本站出處的文章為轉載,觀點供業內參考,不代表本站觀點。文中圖片均來源于網絡收集整理,僅供學習交流,版權歸原作者所有。如涉及侵權,請及時聯系我們刪除!關鍵詞: