因漸凍症(ALS)等病症而無法言語或打字的人群不容忽視,他們在日常溝通交流中面臨著巨大障礙,急需有效的輔助手段來打破溝通壁壘。
儘管輔助性/替代性溝通(AAC)裝置及眼動打字技術雖能提供一定支援,但頻繁的按鍵操作極易導致眼疲勞和時間成本,嚴重阻礙了運動障礙患者進行自然流暢的對話以及充分表達自我,進而影響生活質量。
為解決這一問題,來自谷歌的研究團隊及其合作者開發了一個由大語言模型(LLM)驅動的使用者介面(UI)——SpeakFaster。
據介紹,SpeakFaster 利用經過微調的 LLM 和會話語境,能以極高的準確率將高度縮略的英文文字(僅為單詞首字母,必要時還會新增字母和單詞)擴充套件為所需的完整短語,幫助 ALS 患者眼動打字按鍵次數減少了 57%,文字輸入速度比 baseline 提高了 29-60%。
影片|SpeakFaster UI 的截圖顯示。該介面允許使用者輸入縮寫文字,並使用對話上下文以完整句子形式建議答覆。
相關研究論文以“Using large language models to accelerate communication for eye gaze typing users with ALS” 為題,已發表在 Nature 子刊 Nature Communications 上。
這些結果表明,透過大幅提高文字輸入速度並減少身體壓力,SpeakFaster 可以幫助嚴重運動障礙患者更準確、更高效地交流,使他們能夠更充分地參與對話,從而提高獨立性、社會參與度、自我表達能力和生活質量。
讓漸凍症患者更好地溝通
SpeakFaster 提供了一種基於人工智慧(AI)的方法,將 LLM 與專為縮寫文字輸入而設計的 UI 結合。
具體而言,研究團隊首先對 SpeakFaster 的 UI 進行了設計,從而確保其允許輕鬆輸入和最佳化縮寫,保證使用者始終能夠傳達他們想要的資訊,即使初始預測不是他們想要的。
他們此前證明,經過微調的 LaMDA(64B引數)可以將單詞首字母形式的縮寫(例如“ishpitb”)擴充套件為完整短語(例如“I saw him play in the bed”),在提供對話上下文(即另一位說話者的輪次)時,準確率高達 77%。無法找到精確匹配的情況往往發生在更長、更復雜的短語上。
圖|SpeakFaster UI 中縮寫文字輸入的主要互動途徑:僅首字母路徑。
雖然很有希望,但實際的解決方案需要確保使用者在初始縮寫擴充套件(AE)失敗的情況下能夠隨後輸入任何任意的短語,即使用者在 UI 中永遠不會遇到“死衚衕”。因此,他們開發了一個 UI 和兩個底層微調的 LLM,作為完整、實用的解決方案。
其中,KeywordAE 能夠擴充套件混合首字母和完整或部分拼寫單詞的縮寫。KeywordAE 模型還能夠擴充套件僅由首字母組成的縮寫,因此提供了此前他們工作功能的超集。
圖|KeywordAE UI 途徑。
FillMask 則能夠在周圍單詞的上下文中提供以給定首字母開頭的備選單詞。兩個模型均使用從四個公共英語對話資料集中合成的大約 180 萬個獨特的三元組 {上下文、縮寫、完整短語} 進行微調。
圖|FillMask UI 路徑。
為了形成通往微調 LLM 的通道,他們還設計了一個具有三個路徑的 UI,即 Initials-only AE、KeywordAE 和 FillMask,以支援完整的縮寫文字輸入體驗。
Initials-only AE 是 SpeakFaster UI 中所有短語輸入工作流程的共同起點。在三個路徑中,它涉及的按鍵和眼動點選次數最少,僅首字母路徑就足以滿足簡短和可預測的短語。當用戶輸入縮寫時,UI 在每個按鍵後自動觸發對 KeywordAE LLM 的呼叫,包括使用者鍵入的縮寫以及所有之前的對話輪次作為 LLM 的輸入。每個呼叫返回基於對話上下文和縮寫的 top-5 最有可能的選項,這些選項在 UI 中呈現給使用者瀏覽和選擇。
如果透過僅首字母路徑沒有找到預期短語,那麼 SpeakFaster UI 提供了兩種替代 UI 路徑來幫助使用者找到預期短語。
第一種替代 UI 路徑是 KeywordAE,允許使用者拼寫多個單詞。每次按鍵後都會自動觸發對 KeywordAE 的呼叫,而每次呼叫後,UI 將呈現 KeywordAE LLM 返回的最新 top-5 短語擴充套件。
第二種替代 UI 路徑是 FillMask,這是從找不到精確預期短語的失敗中恢復的另一種方法。與 KeywordAE 不同,FillMask 僅適用於擴充套件中的非常少(通常是單個單詞)單詞不正確的情況。
KeywordAE 和 FillMask 是兩種替代互動模式,用於從透過僅首字母路徑無法獲得預期短語中恢復。在當前研究中,SpeakFaster UI 允許使用者在使用 KeywordAE 模式後使用 FillMask 模式,這對於在難以預測的短語中找到正確的單詞很有用。
圖|由 KeywordAE 和 FillMask 輔助的短語輸入模擬策略。
這樣一來,當使用 SpeakFaster 時,使用者首先輸入他們想要的短語中單詞的首字母。然後,經過微調的 LLM 會預測整個短語,並根據這些首字母和對話上下文顯示最可能的短語。如果所需短語不在選項中,使用者可以透過拼出關鍵詞或選擇替代詞來最佳化預測。這種方法大大減少了所需的按鍵次數,從而加快了溝通速度。
之後,為評估 SpeakFaster UI 介面節省使用者操作動作的大致上限,研究團隊開展了模擬實驗。他們使用 Turk Dialogues 語料庫,模擬了三種不同的使用者互動策略:
策略 1:使用首字母縮寫進行 AE,如果失敗則使用 KeywordAE 進行迭代拼寫,直到找到匹配的短語。
策略 2:與 Strategy 1 相同,但每當最佳匹配短語候選詞中只剩下一個錯誤單詞時,就使用 FillMask 進行替換。
策略 2A:Strategy 2 的變體,更積極地使用 FillMask,即在最佳選項中剩下兩個或更少的錯誤單詞時立即使用。
與 Gboard 的預測 baseline 相比,SpeakFaster 在三種策略下都實現了顯著的按鍵節省。在 Strategy 2 下,使用 KeywordAE v2 模型,SpeakFaster 實現了 0.657 的按鍵節省率(KSR),比 Gboard 的 KSR(0.482) 高出 36%。這表明,利用 LLM 的上下文感知能力和 FillMask 的詞替換功能,可以在很大程度上提高文字輸入效率。
模擬結果還表明,SpeakFaster 在提供 5 個最佳短語選項的情況下表現最佳,並且對話上下文對於 LLM 的預測能力至關重要。
圖|模擬實驗結果表明,SpeakFaster UI 可大幅節省按鍵。
除了模擬實驗外,研究團隊還進行了使用者研究,從而測試 SpeakFaster 的有效性。
研究團隊測量了動作節省(與要輸入的完整字符集相比節省的按鍵次數)、實用性(每分鐘的打字速度)和 SpeakFaster UI 的可學習性(人們需要多少練習才能習慣使用該系統)這三個指標以評估 SpeakFaster 介面。
在運動節省指標方面,與傳統 baseline 相比,SpeakFaster 為 ALS 眼動使用者和非 AAC 參與者提供了大量按鍵動作節省。對於非 AAC 使用者,SpeakFaster 在指令碼場景中可實現 56% 的按鍵節省,在非指令碼場景中可實現 45% 的按鍵節省。對於 ALS 眼動使用者,SpeakFaster 還在指令碼階段顯著節省了按鍵。
圖|左圖:非 AAC 使用者的KSR。右圖:ALS 眼動使用者的 KSR。橙色和紫色條顯示使用 SpeakFaster 系統時的 KSR,藍色和綠色條顯示使用 baseline 智慧鍵盤時的 KSR。
在實用性指標方面,對於非 AAC 使用者來說,整體文字輸入速度與傳統打字速度相當。然而,在針對一位 ALS 眼動使用者的實驗室研究顯示,SpeakFaster 使指令碼階段的打字速度提高了 61.3%,非指令碼階段的打字速度提高了 46.4%。
圖|左圖:對於非 AAC 使用者,指令碼階段和非指令碼階段的整體文字輸入速度沒有出現顯著變化。右圖:對於 ALS 眼動使用者,SpeakFaster 顯著提高了指令碼階段和非指令碼階段的速度。
除了節省動作和提升打字速度外,學習曲線和所引入的認知負荷也是評估打字系統和UI的關鍵指標。雖然與非 AAC 使用者相比,ALS 眼動使用者在使用 SpeakFaster 時最初的學習曲線略慢,但只需 15 個練習對話,ALS 眼動使用者就能達到舒適的打字速度。
圖|透過為非 AAC 使用者提供 6 個練習對話和為 ALS 眼動使用者提供 15 個練習對話,參與者能夠學習 SpeakFaster 系統達到每分鐘 20-30 個單詞的舒適打字速度(顯示在 y 軸上)。
雖然各項實驗表明 SpeakFaster 幫助嚴重運動障礙患者實習高效交流方面具有獨特優勢,但目前該研究還存在有模型語言單一、短語長度受限、服務成本高昂以及研究樣本量較少等侷限。
AI 正在改善殘障人士生活
SpeakFaster 並非首個致力於改善殘障人士生活的 AI 專案。
2019 年,BrightSign 推出了一款基於 AI 的智慧手套。該手套內建預定義手語庫,能將手勢轉化為語音,結合機器學習演算法,可讓讓聽力或語言障礙者雙向交流、獨立與他人直接溝通,行動受限者如中風患者或聽力喪失老人也可使用。
2021 年,加州大學舊金山分校 Chang Lab 團隊首次用腦機介面幫助一位癱瘓超過 15 年的失語男子 BRAVO1 恢復了“說話”能力。該研究透過在被試者大腦內植入電極的深度神經讀取技術幫助被試者實現腦與裝置的資訊交換,從而恢復其與世界溝通的能力。()
2024 年,OpenAI 推出了 Voice Engine 模型的小規模預覽成果。該模型使用文字輸入和單個 15 秒音訊樣本來生成與原始說話者非常相似的自然語音,已經幫助一名因血管性腦腫瘤而失去流利語言能力的年輕患者恢復聲音。
2024 年,北卡羅來納州立大學與北卡羅來納大學教堂山分校的蘇浩教授團隊提出了一種在計算機模擬環境中透過強化學習來讓機器人學習控制策略的新方法,有望極大地提高老年人,行動障礙人士和殘疾人的生活質量。
相信在不久的將來,AI 將進一步改善殘障人士的生活。
對此,你怎麼看?歡迎在評論區留言。
作者:阮文韻
如需轉載或投稿,請直接在公眾號內留言