華碩 AI 研發中心 (AICS) 顧問台大資工系特聘教授林智仁,指導智慧醫療研發團隊、AICS 博士生台大資工所陳璽安同學,開發基於多標籤文件分類 (Multi-label text classification) 深度學習的程式開源軟體工具 ASUS-AICS LibMultiLabel,已在全球最大的程式碼代管服務與社交平台 Github 上線,包含研究必備的經典參照案例與完成文字前處理的精準模板,免費提供給程式研究開發者,協助降低開發難度、減少重工,加速運用原型框架打造衍生或擴充應用。華碩也希望藉由社群用戶的使用反饋,持續改善工具質量,為相關領域的研究盡一份心力。

多標籤監督學習 (Multi-label) 運用自然語言處理與圖形辨識等 AI 演算技術,能為海量文本進行分析與分類,已廣泛應用於網路文章、法律文件、智慧醫療等領域。一篇網路文章可同時被歸類為生活、藝術與科技等多個主題標籤,不僅引導讀者延伸閱讀,亦可為創作者分析讀者閱讀喜好。在 AICS 智慧醫療服務如電子病歷編碼、醫學影像辨識與癌症預測方面,正確的模型能讓 AI 持續學習病歷描述與病人臨床表現,建議更精準地診斷處置編碼分類,為醫生提供真實可信的依據,是 AICS 研發團隊持續努力攀登的一座高峰。

林智仁教授認為,替使用者解決問題才是從事研究的根本,目前研究者面臨的痛點有二:一是重現經典研究的困難;設定研究題目時需要先蒐集經典案例,並以相同參數設定重跑一次流程,將結果作為參照對象 (Benchmark)。然而當時的程式碼可能目前已停止維護、或未曾公開在網路或公開數據庫,造成經典研究成果無法高效流傳,令研究者投入過多時間在茫茫網海搜尋、比對、選擇論文、揣摩實驗流程。二是文字前處理方式造成變異;自然語言處理應用中的文字前處理方式可能影響模型效能,如在醫學名詞中 Ca 表示化學元素鈣,而 CA 則是癌症;又如針對長篇文章與社群短句,需要採取不同斷句方式與平均句長。

ASUS-AICS LibMultiLabel 即是針對以上痛點開發的開源工具,研究者可以開箱即用經 AICS 團隊篩選的經典案例與完成文字前處理的模型,再參照使用說明了解模型架構、支援任務類型、支援文本分類等進行重現 (Reproducibility)、驗證結果,最後導入真實世界資料 (Real-world Data) 加以衍生或擴充。從建立原始文件到最終評估,都可以站在巨人的肩膀上、看得更多更遠。

AICS 是華碩內部專注開發AI雲端軟體服務 (SaaS) 的研發部門,於2019年起持續推動博士生計畫,並與 AICS 博士生、學界顧問聯手開發多項前瞻AI技術,獲得 CVPR、ICCV 等全球頂尖學術會議發表,並逐步落實於智慧工業安全與醫學影像運算等應用。ASUS-AICS LibMultiLabel 不僅是一帖分享產業經驗以回饋開發社群的解鎖秘笈,更是一張華碩廣發給天下高手的英雄帖,除了鼓勵社群協助提升Multi-label模型質量以嘉惠後人,未來也將開發更多主題的開源工具,號召有志之士創造更多頂尖研究成果,並加速於產業落實,提升台灣國際競爭力。

ASUS-AICS LibMultiLabel 開源工具請見: https://github.com/ASUS-AICS/LibMultiLabel

延伸閱讀: