(資料圖片)
據騰訊官微,騰訊集團高級執行副總裁、云與智慧產業事業群CEO湯道生表示,在大模型的訓練和使用過程中,需要大量異構算力的支持,對網絡速度與穩定性要求也很高,加上GPU服務器比一般服務器穩定性更低一些,服務器的運維、問題的排查更頻繁,整體運維的難度與工作量會高很多。在訓練集群中,一旦網絡有波動,訓練的速度就會受到很大的影響;只要一臺服務器過熱宕機,整個集群都可能要停下來,然后訓練任務要重啟,這些問題會使得訓練時間大大增加,投入在大模型的成本也會飆升。
關鍵詞:
責任編輯:QL0009