深圳大數據基礎研究領域傳來喜訊。5月20日,記者從深圳計算科學研究院獲悉,由該院系統研發團隊自主研發的多個產品已取得突破性進展。
其中,從理論到系統全自研的分析型數據庫系統“崖山”YashanDB首個版本,預計在今年下半年正式發布;“采石磯”數據增強引擎和“釣魚城”圖譜因果分析引擎及相關解決方案,將在本月底舉行的2021中國國際大數據產業博覽會上正式發布。
這一系列在深圳誕生的中國原創基礎軟件品牌,有望逐步破解我國數據庫系統的“卡脖子”難題。
錨定源頭創新
長期以來,我國IT領域存在“缺芯少魂”的“卡脖子”問題,在核心硬件和基礎軟件方面存在短板。
該院科研部部長桑艷博士在接受記者采訪時表示,盡管我國以大數據為代表的新興信息產業發展迅猛,但市場上廣泛使用的基礎軟件品牌缺乏“中國智造”,高度依賴國外底層技術,存在極大的安全風險。
“夯實基礎研究,開展源頭創新,是解決‘卡脖子’問題的關鍵。”桑艷介紹,深算院聚焦的研究領域,就是以大數據為代表的計算科學基礎理論研究和核心系統軟件開發,均屬于關鍵核心的“卡脖子”領域。
成立于2018年11月的深算院是由深圳市人民政府批準建設的“十大基礎研究機構”之一,由深圳市科創委主管,深圳大學舉辦,龍華區政府共同建設。
建院兩年多,深算院已組建起一支實力雄厚的系統研發團隊,192名在職員工中,既包括英國皇家學會院士、中國科學院院士、深圳市杰出人才、海外高層次人才等多位領軍人才,也有來自世界500強、擁有多年系統研發實戰經驗的資深工程師,研發人員占比約80%,從中涌現了一批代表性理論研究成果。
在數據庫系統實現重大突破
數據庫系統、數據質量和數據共享是深算院三大攻關方向。目前,深算院已率先在數據庫系統開發上實現重大突破。
深算院CoD研究室首席技術官陳志標介紹,在分析型數據庫(OLAP)方面,深算院已完成國際領先的,從理論到技術均為中國原創的國產數據庫系統——“崖山”YashanDB V1版本。
“這也是業內首次實現把大數據難解問題轉換到小數據有界計算,顛覆了傳統數據計算模式。”陳志標透露,經過實測,該系統可提高通信數據查詢速度25-10萬倍,實現數據即生產即分析。“崖山”YashanDB預計在今年下半年發布第一個版本。
在數據質量方面,深算院科研團隊也實現了突破。據深算院PoD研究室首席技術官王紹星介紹,研究人員基于奠基性數據質量自研理論開發的“采石磯”數據增強引擎,首創邏輯規則和機器學習協同的復雜規則自動發現技術,開創了在復雜大數據環境下自動化數據質量提升的先河。
此外,據深算院IoD研究室主任靳朝輝介紹,在圖數據計算方面,深算院落地了“釣魚城”圖譜因果分析引擎。“這是國際上首個把可解釋邏輯規則發現、規則應用和人工智能推薦融合一體的系統,填補了全球圖計算行業的空白,可實現千萬級別規模的高復雜度圖數據計算。”