Google 利用 AI 協助語言障礙人士,不用開口也能溝通

生活大多數層面都涉及與他人溝通,以及被他人理解。許多人將這視為理所當然,但如果試著想像旁人難以理解我們的說話或表達方式時,這肯定令我們極度不便和沮喪。然而,對數百萬中風、肌萎縮性脊髓側索硬化症(ALS,Amyotrophic Lateral Sclerosis)、多發性硬化、創傷性腦損傷和帕金森氏症等神經系統疾病而產生語言障礙的人士來說,這是他們每天都必須面對的情況。

為了協助克服這個問題,Google AI for Social Good 的 Project Euphonia 團隊試著透過 AI 提高電腦理解各種說話型態的能力,像是較不完整的語句。Google 與非營利組織 ALS-TDI(美國 ALS 研究機構)與 ALS Residence Initiative(ALS 住宅計劃)合作,錄下 ALS 患者的聲音;ALS 是一種神經退化疾病,會導致患者失去聲音與其他隨意肌的功能。在和這些組織密切合作的過程中,試著瞭解 ALS 患者的溝通需求,並致力於最佳化 AI 模型,以便讓手機和電腦更準確辨識與轉錄這類患者說出的語句。想了解更多關於與 ALS-TDI 的合作詳情,歡迎參考 Clinical Operations 資深總經理 Maeve McNally 與 ALS TDI 首席科學家 Fernando Vieira 分享的部落格文章


▲ 請受試者朗讀的語句範例。(Source:Google
 

為了達成這個目標,透過 Google 軟體將錄下的語音轉成聲譜圖,或以更視覺化的圖像方式來呈現聲音。接著電腦會用這些經過正確轉錄的聲譜圖拿來「訓練」系統,以更準確辨識這類非典型的語音。模型設計目前是以具典型 ALS 相關障礙的英語人士為目標對象,但相信這項研究將可應用到更大範圍的族群與不同的語言障礙。

除了提升語音辨識能力,也會訓練可偵測聲音或手勢的個人化模型,且這類模型還可採取相關行動,例如對 Google Home 下達語音指令或傳送簡訊。這類模型對患有嚴重殘疾且無法說話的人士來說特別有幫助。

以下影片主角是 Dimitri Kanevsky,年幼失聰後才開始學英文,目前是 Google 的語音研究員。Dimitri 使用的是即時轉錄應用程式,並配備自訂語音辨識模型,專門用來辨識他的聲音。另一個主角 Steve Saling 在 13 年前確診為 ALS,他在影片中不出聲即可操作 Google Home,並在運動賽事時透過臉部表情引導機器發出歡呼聲。

Google 非常期待看到這個研究帶來的影響,同時也需要大眾的協助。Google 之所以能透過 AI 工具提升語音辨識的效果,都要靠龐大的語音樣本訓練模型。如果讀者或親朋好友有上述提到因特殊疾病而說話含糊不清、或讓旁人難以理解的問題,可填寫這份簡短的表單,即可自願為 Google 講出並錄製多組詞語。除此之外,也非常歡迎讀者向 Google 在這項專案合作的非營利組織捐款或擔任志工:ALS-TDI 與 ALS residence initiative。模型聽過的語音樣本愈多,就愈有機會取得進展,並且將這些工具應用在透過各種方式溝通的使用者身上。

不需要說話或聽到聲音,也可用電話溝通

去年,Google 軟體工程師、Live Relay 開發人員 Sapir Caduri 讀到一篇以色列年輕女性在社群媒體發表的文章,是關於那位女性曾交往的聽障男友,設法修復家中網路連線的故事。即使網路服務供應商的技術支援人員知道對方是聽障人士,卻仍然無法透過文字、電子郵件或即時通訊與男友溝通。這名女性提到,這件事讓男友深切感到,能獨立自主且有足夠能力處理這些事的重要性。

這篇文章讓 Sapir Caduri 開始思考:如何協助人們在不需實際交談的情況下接聽電話?這個想法催生了研究專案:Live Relay。

Live Relay 使用裝置的語音辨識和文字轉語音功能,讓使用者能一邊輸入文字,一邊讓手機代替使用者與對方交談。藉由提供即時回覆與預測性的文字輸入建議,Smart Reply 與 Smart Compose 協助讓使用者輸入文字的速度能快到讓對話進行的速度比擬一般講電話。

Live Relay 完全在裝置執行,因此可確保通話的隱私性。由於 Live Relay 可讓使用者在電話撥出的語音通話中與另一端的通話者互動,不需行動數據,因此即使另一方以市話來電也可進行。

Live Relay 能在通話中協助無法說話或有聽力障礙的人士,並當作現有聽障人士服務方案的補充服務,特別是幫助聽障使用者。舉例來說,美國境內就為聽障人士提供無障礙和即時文字轉譯(RTT)服務。這類服務在某些情況下有優勢,Google 的目標也並非取代這些系統,而是將 Live Relay 當作額外搭配的選用方案,在適當情況下盡可能提供協助,例如接聽來電,或是當使用者因隱私考量,希望能使用全自動系統時。

Google 對 Live Relay 的長期發展十分樂觀,相信全體使用者都能因這項服務受惠。相信許多使用者都曾有需要接聽重要電話,但無法離開當下手邊進行事項的經驗。在 Live Relay 的幫助下,使用者不必實際與對方交談,也能隨時隨地透過輸入文字的方式接聽電話,甚至可整合即時翻譯功能,讓使用者能與世界各地的人通話,完全不必擔心語言隔閡。這一切可能性都源自無障礙功能的設計初衷。

Live Relay 目前仍處於研究階段,但 Google 希望這項服務有朝一日能為使用者提供更多元且優質的溝通方式,對服務資源較為不足的身心障礙人士而言更是如此。


報導截取自 TechNews :https://technews.tw/2019/05/08/how-ai-can-improve-products-for-people-with-impaired-speech/?utm_source=Facebook_PicSee