在一些智能手機的相冊里,只需長按照片,圖中的人、物就會與背景分開,用戶可以直接保存分割出的內容,進行編輯和分享,日常生活中這樣的圖像分割技術已無處不在,它甚至可以用于醫學影像分析,如計算機斷層掃描(CT)和磁共振成像(MRI)等,來幫助醫生更好地識別病變部位和范圍,提高診斷準確率和治療效果。
圖像分割是計算機視覺領域的重要部分,它能將圖片中的每個像素按照不同的語義類別進行分類,識別分割出圖中的各個部分,例如在街景圖中使用該技術,就可以輸出一張將汽車、行人、建筑物按類別分割開的圖片。
(資料圖片)
然而,在訓練圖像分割模型時,研究人員需要人工標注好大量圖片,指明圖中物體所屬類別,供模型提取特征、自我學習,提高識別與分割的能力。這不僅費時費力,而且容易出錯,造成的錯誤標注會使模型難以達到預期的準確度。
針對以上問題,西交利物浦大學智能工程學院的研究人員開發了一種新穎的技術,讓圖像分割模型能夠從帶噪聲的標簽中繼續學習,即使標注數據有誤,依然可以輸出較為準確的結果。
該研究成果于近日收錄于計算機視覺領域頂級期刊《國際計算機視覺雜志》(International Journal of Computer Vision),它是中國計算機學會認定的四本人工智能A類期刊之一, 影響因子13.3,這也是西浦第一篇收錄于該期刊的論文。
據論文的第一作者、智能工程學院2022屆博士畢業生張冰峰介紹,這項技術的靈感來源于我們日常生活中的一些經驗,比如我們看到的景色可能會受到不同光線、天氣等因素的影響,讓我們產生不同的感受,影響我們的判斷。
研究團隊借鑒了這種經驗,引入了“雙專家結構”,該結構分別優化兩種不同的圖片特征,給出兩種圖像分割結果的預測,這兩種預測有不同的可信區域,綜合分析它們的可靠性后,就可以最終獲得一個更為精確的預測。
圖片說明:比較包含噪聲的標簽和訓練后得到的預測結果,(a)原始圖像,(b)真值,(c)帶噪音的標簽, 白框表示標簽中主要的噪聲區域,(d)通過優化交叉熵損失得到的預測結果,(e)通過優化soft Dice損失得到的預測結果;(d)和(e)是雙專家結構中使用兩種不同的優化方案后得到的圖像分割預測。
張冰峰的導師肖繼民博士指出,這項技術的應用非常廣泛,尤其是在一些對圖像分割準確度要求較高的領域,比如醫療影像、智能駕駛等。
“這項研究為我們提供了一種全新的技術手段,讓模型能夠更好地處理標注數據中的噪聲和錯誤,從錯誤中獲取有效數據繼續學習,提高圖片分割性能。相信在未來,這項技術將扮演越來越重要的角色,拉近我們與智能化生活的距離。”肖繼民博士總結道。
目前,張冰峰博士在中國石油大學擔任副教授職務。(記者:金畫恬 編輯:石露蕓)
關鍵詞: