4月15日,莫斯科國立大學舉辦的MSU硬件視頻編碼比賽成績揭曉。經過數月的嚴格測試,騰訊自研的編解碼芯片“滄海”包攬了所參加的兩個賽道8項評分的全部第一。據了解,滄海芯片已在業務場景中投用數萬片,服務騰訊自研業務及公有云客戶。
MSU是視頻壓縮領域最具影響力的頂級賽事,迄今已連續舉辦了十七屆,吸引了包括亞馬遜、英偉達、Intel、AMD、字節、快手、阿里和騰訊在內的國內外知名企業參與。
具體來看,SSIM (結構相似性)、PSNR(峰值信噪比)和VMAF(視頻多方法評估融合) 等多項評價指標,滄海芯片大幅領先行業GPU等標品硬件。值得一提的是,在120fps的高幀率檔位上,在同等畫質下滄海較行業領先ASIC水平能再節省10%碼率。
(資料圖片僅供參考)
作為全真互聯時代的交互模式和關鍵技術,音視頻背后的編解碼能力至關重要。基于自研芯片與軟件的聯合調優,騰訊云的音視頻編解碼能力已達業界領先水平。
瞄準編解碼領域核心難題
多媒體業務進入音視頻直播時代,4K/8K的超高清內容對云計算基礎設施提出了難題。如何在降低成本的同時,最大化還原畫質、實現低延遲,是全真互聯時代面臨的難題。業界已有的通用處理器,并非針對數據中心轉碼場景定制開發,部署中很難兼顧真實場景的全方位挑戰。
2019年初,騰訊蓬萊實驗室、香農實驗室聯合啟動編解碼芯片”滄海“研發。對硬件編解碼的算法、架構和工程進行深度攻關,向高畫質、低延遲、低成本的“不可能三角”發起挑戰。
基于自身在底層軟硬件架構和音視頻領域的多年積累,研發團隊對每個模塊的計算任務都作了并行拆解。通過分配不同的計算單元,從而疊加大量處理任務;為滄海芯片內置視頻編碼加速專用功能模塊,讓流水控制邏輯更純粹,減少重復計算和分支判斷,帶來更低的功耗和成本。
滄海芯片的編碼器設計中完整實現了高精度運動搜索、全率失真優化、高效自適應量化等所有主流編碼工具,并融合騰訊云軟件編碼器碼率控制等方面的領先技術,壓縮率高于市面標品35%以上。
在硬件架構上,通過將視頻預分析計算單元進一步卸載到硬件中,滄海芯片大幅減少了高密度轉碼場景下任務對CPU性能的依賴,將轉碼性能提升到更強。通過靈活的多核擴展架構、高性能編碼流水線、層級化Memory布局,滄海芯片能滿足高吞吐、低時延和實時性要求。
根據MSU實測數據,從各項指標看,在同碼率下,相較于業界GPU等標品硬件,滄海能大幅改善畫面質量;在120fps的高幀率檔位上,同等質量下,滄海比行業領先水平進一步節省10%以上的碼率;另外,滄海芯片的單幀1080p的編碼耗時僅4毫秒,吞吐性能幾乎不受到編碼參數、視頻類型的影響。
已在業務場景規模應用
去年3月,滄海芯片順利“點亮”,目前已經量產并投用數萬片,在云游戲、直點播等場景中,面向騰訊自研業務和公有云客戶提供服務。
在直播平臺中,觀看人數小于200人的中長尾直播是主體,滄海芯片能幫助節省大量計算成本;在4K/8K超高清、高幀率場景中,相對軟件編碼,滄海芯片能實現低延時的高質量轉碼。
騰訊豐富的多媒體應用場景,提供了充分的分析和驗證條件,讓滄海芯片迭代出更有針對性的場景解決方案。
例如,針對云游戲場景,滄海芯片的瑤池板卡,可以靈活配比不同廠商 GPU。針對視頻轉碼場景,滄海芯片提供單機1024 路的高密轉碼能力,將轉碼成本降至最低。
軟硬件的聯合調優,也為騰訊云媒體處理(MPS)帶來了領先的產品優勢。現在,騰訊云能提供音畫質增強、云原生錄制、實時特效渲染、智能編輯、內容分析理解等服務,為用戶提供更低成本、更低延時、更極致壓縮的處理效果。
在去年專業流媒體技術社區SLC發布的報告中,騰訊云MPS超越亞馬遜AWS、微軟Azure等國際云廠商,摘得三大場景下性能全部最優。
芯片是硬件中最核心的部分。面向業務需求強烈的場景,騰訊有著長期的芯片研發規劃和投入,結合算力場景,推動自研芯片規模落地。目前,騰訊已經實現芯片端到端設計、驗證全覆蓋。
除滄海芯片外,騰訊自研的AI推理芯片”紫霄“,采用自研存算架構和自研加速模塊,可以提供高達3倍的計算加速性能和超過45%的整體成本節省,目前也已在內部業務中投用;高性能網絡芯片“玄靈”,助力云計算場景實現虛擬化零損耗。
基于底層軟硬件技術的持續突破,騰訊正持續探索最優性能和最佳性價比,助力更多的企業和開發者云上創新。
責任編輯:房家輝
分享到:版權聲明:凡注明來源“流媒體網”的文章,版權均屬流媒體網所有,轉載需注明出處。非本站出處的文章為轉載,觀點供業內參考,不代表本站觀點。文中圖片均來源于網絡收集整理,僅供學習交流,版權歸原作者所有。如涉及侵權,請及時聯系我們刪除!關鍵詞: