開始介紹 AICS 的語音辨識之前,讓我們先來聊聊語音辨識的起始發展。語音辨識計畫最早可追溯至 1952 年,由貝爾實驗室所發明的自動數字辨識系統 Audrey,作為史上第一個語音識別產品,當時的 Audrey 僅能簡單辨識出數字 0-9 的發音。而 1962 年,IBM 的 Shoebox 機器,則進展到可理解 16 個英文單詞。直到 1980 年代,隱馬可夫模型 (Hidden Markov Model, HMM) 以統計學,取代原來僅以文字或聲音特徵推測的方式,為語音辨識研究帶來突破性的發展。

在 21 世紀的現今-Audrey 誕生後的 50 年,因為諸多科技與電腦計算能力的爆炸性發展(例如機器學習、神經網絡),促使許多科技圈的業界領導者們發展出他們自成一格的自動語音辨識 (Automatic Speech Recognition, ASR) 系統。讓語音辨識科技能持續地豐富現代的生活樣貌,也為未來開展出更多振奮人心的可能性。

AICS 語音辨識: 台灣製造的解決方案

在我們所處的時代,語音辨識技術已然落地產品化,並可以實際應用於我們的日常生活。在這個永無止盡的創新時代中,眾多科技公司無不使盡全力,爭相為客戶提供最優質的使用者體驗,然而,隨著大眾對於隱私權的審視與敏感度日漸增長,各公司亦須更致力保護個人的隱私與資訊。

AICS 於 2019 年 1 月於台灣台北成立,秉持著以人工智慧產品與服務,協助商業夥伴解決難題為使命。語音辨識是 AICS 其中一個具有差異化的關鍵技術,於創立的 9 個月內,團隊即已達成幾項傑出的里程碑。

世界級的錯字率語音辨識技術

談及語音辨識技術的錯字率 (Word Error Rate, WER) 排名,Google 常是立即躍上大家心頭排名的首位,然而,你可能會驚訝的發現,若以公開的英文資料集 LibriSpeech 來說,AICS 的語音辨識錯字率,其實是能與 Google 並駕齊驅的,並且,若以區域性資料集來說,甚至能超越 Google 的錯字率,以此對比世界級的技術解決方案,我們對於台灣所研發的語音辨識引擎深具信心。

2018 年度福爾摩沙語音辨認挑戰賽

2018 年度的福爾摩沙語音辨認挑戰賽中,主要以台灣本土語料進行競賽,最終,AICS 奪得冠軍寶座。

AICS 語音辨識技術,於業界系統中表現最優異,達到 8.1% 的字符錯誤率 (Character Error Rate, CER),並且,2019 年的科技大擂台競賽中,亦獲得第二名佳績,這些除了突顯 AICS 於引擎與品質的卓越表現外,也同時展現 AICS 技術基礎的穩固與優秀適用性。

AICS 語音辨識 API 是給眾人的工具

除了引擎性能外,AICS 語音辨識的設計,是以能廣泛提供所有人使用為基礎,API 能以優秀的性能辨識出英文、中文與雙語,除此之外,系統也特別主攻台灣口音,可以精準地符合在地使用者的需求。更進一步地,由於 AICS API 歷經不同產業語料集的淬鍊訓練,例如醫療或是金融科技,因此能在不減化強大引擎效能的狀況下,為使用者提供客製化服務。

AICS 語音辨識 API 的特色

  • 雙語功能 (中文+台灣腔調英文)
  • 控制在 200 毫秒內延遲的即時串流

AICS 非常樂意能為您加速 AI 驅動的未來,若您有下列語音辨識解決方案的需求,歡迎與我們聯繫

  • Front-end Signal processing/Enhancement/Robustness/De-noise/VAD (Voice Activity Detection)
  • Speech recognition/Acoustic & Language modeling
  • Text-to-Speech
  • Speech applications/Speaker diarization/Wake-up