Modulate 推出 Velma 语音转文字,重新定义成本与准确性

23 3 月, 2026

(SeaPRwire) –   麻薩諸塞州波士頓 – 2026年3月23日 – (SeaPRwire) – Modulate 推出了一款全新語音轉文字API,旨在重塑組織大規模處理與理解對話語音的方式。新推出的Velma Transcribe定位為經濟高效、高性能的轉錄解決方案,旨在滿足跨產業(從客戶服務到社交平台及人工智慧驅動應用)對即時語音資料分析日益增長的需求。

此項發布凸顯了產業更廣泛的轉型趨勢——讓語音智慧基礎設施更易於取得且經濟可行。透過大幅降低轉錄的成本門檻,Modulate的最新產品使組織得以在更廣泛的應用場景中擴展語音資料的使用,包括即時語音代理、分析管線及全球通訊平台。

Velma Transcribe 建基於Modulate的「集成聆聽模型」(Ensemble Listening Model, ELM),這是一種以研究為驅動的方法,透過協調多個專門的轉錄模型來優化效能。與傳統單一模型系統相比,這種集成架構提升了轉錄準確度、降低了延遲並增強了成本效益。該平台在Earnings-22及AMI會議語料庫等廣受認可的基準測試中表現強勁,尤其在處理複雜多說話者的對話場景時更為突出。

公司高管強調,此解決方案超越了傳統轉錄功能。許多系統僅專注於將語音轉換為文字,而Velma Transcribe則整合了更深入的上下文理解,支援更廣泛的對話洞察。同時,該API設計上仍保持對開發人員的易用性,讓需要快速、可靠轉錄且無需額外分析負擔的開發人員能夠輕鬆使用。

除了轉錄功能外,該平台還整合了一系列企業導向的功能,包括跨20多個類別的情緒檢測、涵蓋20多種變體的口音識別,以及支援超過70種語言的多語言功能。此外,還包含說話者分離、個人可識別資訊(PII)檢測與編輯,以及即時應用的串流支援等進階功能。

Velma Transcribe最值得關注的特點之一是其定價模式。轉錄成本降至每小時語音約0.03美元,相比市場現行價格大幅降低。此定價結構使企業能更經濟地處理大量語音資料,為資料驅動決策與獲利策略開闢新機會。

該系統經過優化,能在真實對話環境中可靠運作——此類環境中,重疊語音、打斷、多樣口音及背景雜音往往會對傳統轉錄工具造成挑戰。基準測試結果顯示,與多個現有解決方案相比,Velma Transcribe大幅降低了錯誤率,進一步鞏固其適用於企業級部署的特性。

為支援生產級應用,平台提供批次與即時串流轉錄端點、帶有時間戳的結構化輸出、亞秒級延遲(適用即時場景),以及旨在強化隱私與合規性的零資料保留政策。透過ISO 27001認證的安全實務為後盾,這些功能使該解決方案適用於受規範及資料敏感的環境中安全部署。

Velma Transcribe 是Modulate更廣泛的Velma 2.0語音智慧模型套件的一部分,該套件旨在為人工智慧系統提供更先進的「聆聽層」。此方法使組織能夠超越簡單轉錄,邁向更深入的對話理解,支援詐騙偵測、情緒分析、合規監控及即時營運洞察等應用場景。

此解決方案現已推出,採用基於使用量的定價模式,適用於小規模部署及高流量企業工作負載。

關於Modulate
Modulate 是一家語音智慧技術公司,專注於開發人工智慧模型與API,協助組織可擴展地理解真實世界的對話語音。其解決方案結合語音識別、聲學分析及上下文處理,為企業與開發人員提供準確、可解釋且具成本效益的語音智慧。

本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。

分類: 頭條新聞,日常新聞

SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。