華碩 AI 研發中心開發 Multi-label 程式開源工具即日起於 Github 免費開放

專欄

華碩 AI 研發中心 (AICS) 顧問台大資工系特聘教授林智仁，指導智慧醫療研發團隊、AICS 博士生台大資工所陳璽安同學，開發基於多標籤文件分類 (Multi-label text classification) 深度學習的程式開源軟體工具 ASUS-AICS LibMultiLabel，已在全球最大的程式碼代管服務與社交平台 Github 上線，包含研究必備的經典參照案例與完成文字前處理的精準模板，免費提供給程式研究開發者，協助降低開發難度、減少重工，加速運用原型框架打造衍生或擴充應用。華碩也希望藉由社群用戶的使用反饋，持續改善工具質量，為相關領域的研究盡一份心力。

多標籤監督學習 (Multi-label) 運用自然語言處理與圖形辨識等 AI 演算技術，能為海量文本進行分析與分類，已廣泛應用於網路文章、法律文件、智慧醫療等領域。一篇網路文章可同時被歸類為生活、藝術與科技等多個主題標籤，不僅引導讀者延伸閱讀，亦可為創作者分析讀者閱讀喜好。在 AICS 智慧醫療服務如電子病歷編碼、醫學影像辨識與癌症預測方面，正確的模型能讓 AI 持續學習病歷描述與病人臨床表現，建議更精準地診斷處置編碼分類，為醫生提供真實可信的依據，是 AICS 研發團隊持續努力攀登的一座高峰。

林智仁教授認為，替使用者解決問題才是從事研究的根本，目前研究者面臨的痛點有二：一是重現經典研究的困難；設定研究題目時需要先蒐集經典案例，並以相同參數設定重跑一次流程，將結果作為參照對象 (Benchmark)。然而當時的程式碼可能目前已停止維護、或未曾公開在網路或公開數據庫，造成經典研究成果無法高效流傳，令研究者投入過多時間在茫茫網海搜尋、比對、選擇論文、揣摩實驗流程。二是文字前處理方式造成變異；自然語言處理應用中的文字前處理方式可能影響模型效能，如在醫學名詞中 Ca 表示化學元素鈣，而 CA 則是癌症；又如針對長篇文章與社群短句，需要採取不同斷句方式與平均句長。

ASUS-AICS LibMultiLabel 即是針對以上痛點開發的開源工具，研究者可以開箱即用經 AICS 團隊篩選的經典案例與完成文字前處理的模型，再參照使用說明了解模型架構、支援任務類型、支援文本分類等進行重現 (Reproducibility)、驗證結果，最後導入真實世界資料 (Real-world Data) 加以衍生或擴充。從建立原始文件到最終評估，都可以站在巨人的肩膀上、看得更多更遠。

AICS 是華碩內部專注開發 AI 雲端軟體服務 (SaaS) 的研發部門，於 2019 年起持續推動博士生計畫，並與 AICS 博士生、學界顧問聯手開發多項前瞻 AI 技術，獲得 CVPR、ICCV 等全球頂尖學術會議發表，並逐步落實於智慧工業安全與醫學影像運算等應用。ASUS-AICS LibMultiLabel 不僅是一帖分享產業經驗以回饋開發社群的解鎖秘笈，更是一張華碩廣發給天下高手的英雄帖，除了鼓勵社群協助提升 Multi-label 模型質量以嘉惠後人，未來也將開發更多主題的開源工具，號召有志之士創造更多頂尖研究成果，並加速於產業落實，提升台灣國際競爭力。

ASUS-AICS LibMultiLabel 開源工具請見: https://github.com/ASUS-AICS/LibMultiLabel

華碩 AI 研發中心開發 Multi-label 程式開源工具即日起於 Github 免費開放

2021 年 5 月 3 日 | by AICS

Career at aics

華碩 AI 研發中心開發 Multi-label 程式開源工具 即日起於 Github 免費開放

2021 年 5 月 3 日 | by AICS

Career at aics

華碩 AI 研發中心開發 Multi-label 程式開源工具即日起於 Github 免費開放