科技取代她失去的聲音。AI創造了她在手機中攜帶的複製品

(SeaPRwire) – 普羅維登斯,羅德島州——Alexis “Lexi” Bogan去年夏天之前擁有的聲音很熱情。

她喜歡在車裡大聲唱泰勒絲和Zach Bryan的情歌。即使在管教幼兒園的孩子或與朋友在後院的火坑邊辯論政治時,她也常常笑。在高中,她是合唱團的女高音。

然後那個聲音就消失了。

8月,醫生移除了她腦後的一個生命威脅的腫瘤。一個月後氣管管拔除時,Bogan吞嚥困難,說出「嗨」這個詞都很吃力。幾個月的康復治療有所幫助,但她的語言能力仍然受損。朋友、陌生人甚至是自己的家人都很難理解她想表達什麼。

在4月,21歲的她重新得到了她以前的聲音。不是真實的,而是由生成的聲音複製品,她可以從手機應用程序中召喚出來。這個人工智能生成但非常逼真的合成聲音是根據她高中時期為一個烹飪示範視頻錄製的15秒時間膠囊訓練的。現在,它幾乎可以說她想說的任何話。

她在手機上輸入幾個詞或句子,應用程序就會立即用她的聲音朗讀出來。

「請給我一杯大型焦糖麥片奶油搖拌咖啡,」Bogan的人工智能聲音在星巴克的驅車窗口對著手機說。

人工智能語音複製技術的進步很快,可能會促進電話詐騙,破壞和侵犯從未同意將聲音重現來說從未說過的話的活著或死去人的尊嚴。

它曾用於向新罕布夏州選民發送模仿拜登總統的語音。在馬里蘭州,一名高中體育主任使用人工智能生成校長發表種族主義言論的假音頻。

但是,羅德島州Lifespan醫院集團的醫生認為,他們找到了一種正當的用途。Bogan是第一個——也是唯一有她病情的人——能夠使用OpenAI的新語音引擎重建失去的聲音。一些其他人工智能提供商,如創業公司ElevenLabs,曾經測試過類似的技術幫助語言障礙和失語症患者——包括一名現在在法庭上使用自己聲音複製品的律師。

「我們希望Lexi成為技術發展的開拓者,」布朗大學醫學院神經外科住院醫生Rohaid Ali說。隨著技術的發展,數百萬患有嚴重中風、喉癌或神經退行性疾病的人可能受益。

「我們應該意識到風險,但我們不能忘記患者和社會效益,」另一名住院醫生Fatima Mirza說。「我們能夠幫助Lexi重新獲得真實的聲音,讓她能用最符合自己的方式說話。」

Mirza和Ali由於之前在Lifespan使用人工智能對話機器人ChatGPT簡化患者醫療同意書的研究項目,引起了ChatGPT開發商OpenAI的注意。今年早些時候,該公司正尋找新的醫療應用項目,測試其新型人工智能語音生成器。

Bogan當時仍在緩慢康復。去年夏天,頭痛、視力模糊和面部下垂嚴重地引起了普羅維登斯兒童醫院醫生的警覺。他們發現一個大小如高爾夫球的血管腫瘤壓迫在腦幹上,並纏繞在血管和腦神經中。

「控制出血和移除腫瘤是一場戰鬥,」布朗大學醫學院兒科神經外科醫生Konstantina Svokos說。

10小時長的手術加上腫瘤的位置和嚴重程度損害了Bogan的舌頭肌肉和聲帶,影響了她進食和說話的能力。

「當我失去聲音時,感覺像是我一部分的身份也被奪走了,」Bogan說。

營養管拔除後,語言治療繼續進行,使她在安靜的房間內可以清晰地說話,但沒有復原她天然聲音的完整流利程度的跡象。

「在某個時候,我開始忘記自己原來的聲音長什麼樣,」Bogan說。「我已經習慣現在的聲音了。」

每次電話響起在北史密斯菲爾德的家時,她都會把電話推給母親接。她覺得在吵雜的餐廳陪朋友很麻煩。她的爸爸聽力不好,也很難聽懂她說的話。

回到醫院,醫生正在尋找一個試驗患者,嘗試使用OpenAI的技術。

「Svokos醫生第一個想到的人就是Lexi,」Ali說。「我們聯繫Lexi,問她是否願意嘗試,當時不知道她的反應會如何。她很樂意嘗試,看看它如何工作。」

Bogan不得不回溯幾年,找到一個適合「訓練」人工智能系統的合適錄音。是一段她解釋如何做意大利麵沙拉的視頻。

她的醫生故意只給人工智能系統15秒的片段。其他部分的視頻因為烹飪聲音而不完美。15秒也已足夠——比以前的技術需要更長的樣本更好。

他們也知道,從15秒中獲取有用信息對於未來可能沒有自己聲音在網上的任何患者來說,一段留給親人的簡短語音信息可能就是全部。

第一次測試時,每個人都驚訝於聲音複製品的品質。偶爾的錯誤——發音錯誤的單詞或缺失的語調——大多無法察覺。4月,醫生為Bogan設計了一個專用的手機應用程序,只有她可以使用。

「每次聽到她的聲音,我都很感動,」Bogan的母親Pamela Bogan說,眼眶含淚。

「我覺得能再次擁有那個聲音很棒,」Lexi Bogan補充說,這有助於「在某種程度上恢復事件發生前的自信心。」

她現在每天大約使用40次,並提供反饋,希望能幫助未來的患者。她最初的實驗之一是用它對幼兒園裡的孩子說話。她輸入「哈哈哈哈」,預期會得到機械化的響應。但出乎意料的是,它聽起來像她以前的笑聲。

她在塔吉特和馬歇爾的用它詢問商品位置。它幫助她重新聯繫上父親。在快餐店下單也更方便了。

Bogan的醫生已經開始複製其他願意羅德島州患者的聲音,希望將這項技術帶到世界各地的醫院。OpenAI表示,在擴大使用語音引擎時將謹慎行事,該產品目前還未公開提供。

一些小型人工智能初創公司已經出售語音複製服務,或使其更廣泛提供。大多數語音生成商表示禁止冒充或濫用,但在執行其使用條款方面存在差異。

「我們想確保服務中使用的每個聲音都在持續同意的基礎上,」OpenAI語音產品負責人Jeff Harris說。「我們希望它不被用於政治內容。所以我們採取的方法是只將技術提供給很有限的人。」

Harris表示,OpenAI的下一步是開發一個安全的「聲音驗證」工具,以便用戶只能複製自己的聲音。他說:「對於像Lexi這樣突然失去語言能力的患者來說,這可能是限制性的。所以我們認為,尤其是與醫療機構建立高度信任的關係,才能給予一些更開放的訪問權限。」

Bogan在思考如何幫助其他類似或更嚴重語言障礙的人方面給醫生留下深刻印象。

「她在整個過程中不斷思考如何改進和調整,」Mirza說。「她一直是我們的很大啟發。」

雖然目前她必須操作手機才能發出語音,但Bogan說,只要技術繼續進步,她相信不久的將來,也許她可以用思想直接控制語音。

本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。

分類: 頭條新聞,日常新聞

SeaPRwire為公司和機構提供全球新聞稿發佈，覆蓋超過6,500個媒體庫、86,000名編輯和記者，以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。