• 免費註冊
  • 取得電子報 方案和定價
    Generic selectors
    Exact matches only
    Search in title
    Search in content
    Post Type Selectors
  • Categories
    • 混合辦公
    • 視訊會議
    • Cloud Calling
    • 協作裝置
    • Innovation
    • 客戶體驗 
    • 活動管理
  • 混合辦公
  • 視訊會議
  • Cloud Calling
  • 協作裝置
  • Innovation
  • 客戶體驗 
  • 活動管理
 
  • Blog home
  • >
  • 混合辦公
  • >
  • 當柴可夫斯基被辨識為「菜克服司機」:評估機器學習轉錄引擎的準確度
混合辦公

當柴可夫斯基被辨識為「菜克服司機」:評估機器學習轉錄引擎的準確度

3 月 23, 2022 — Mayada Abdelrahman

自從我們在 2020 年推出 Webex Assistant 以來,客戶最常提出的問題就是:「它是否準確?」我能理解;客戶想確保如果選用 Webex AI (人工智慧) 自動化轉錄引擎,該引擎能確實協助保存準確的會議記錄,讓會議出席者能專注於對話,而非打字記錄會議筆記,並可透過輔助功能使會議更具包容性。有太多案例顯示人工智慧過度承諾和無法履行承諾,而針對業務關鍵工作,Webex 在確保高準確度上已取得大幅進展。

隨著全球邁向混合工作模式,對於推動平等且具包容性的會議體驗來說,隱藏式輔助字幕、轉錄及擷取動作項目等功能變得比以往都重要,無論使用者的溝通語言為何,可能需要何種輔助功能,或是否選擇略過會議以應付忙碌的生活,並仰賴 Webex Assistant 來回顧會議內容。我們的目標是利用 AI 和機器學習技術,提升所有人的會議體驗。

打造最先進的 AI 轉錄引擎就是達成此目標的方法之一。 

有鑑於 Webex 對打造健全的端對端標籤、訓練及機器學習管道的投資,我們很自豪能以此為基礎,推出 Webex 會議體驗的英文轉錄引擎,與市場中某些同級最佳語音辨識引擎相比,我們的引擎具有領先業界的準確度。在我們努力拓展技術以觸及全球超過 98% 的 Webex 客戶時,我們將推出完全由內部研發的西班牙文、法文及德文 ASR (自動語音辨識引擎),這些引擎將在今年上半年免費提供給所有 Webex Assistant 使用者使用。

顯示 Webex 與替代解決方案相比具有最少錯誤的長條圖

但「準確度」的真正意義為何?

談到準確的對話轉錄文字,我們經常認為若由人類轉錄員聆聽此音訊檔案的話,轉錄文字就會正確重現語音記錄。但事實上,「CallHome」等某些熱門資料集所測得的人類錯誤率,目前為止最佳表現為 6.8%;這表示如果轉錄 100 個字,則人類轉錄員的轉錄內容大約會有 7 個錯字。此外值得一提的是,「CallHome」是以英文母語人士之間的通話內容 ( 30 分鐘無講稿) 所構成的資料集。[1] 因此我們可以預期若資料集採樣不同英文口音的談話者,其錯誤率將會更高。

更有趣的是,語言資料協會 (LDC) 制定的內部轉錄員協議,其錯誤率範圍介於 4.1% 至 9.6% 之間,視模式為謹慎的多次轉錄,或是快速轉錄而定 [2]。這表示如果您將同一個音訊檔案交給兩個人,即使在完美的環境條件下,他們仍然無法轉錄與話語內容完全相同的記錄。

隨著我們持續改善 Webex 轉錄功能,我們的目標不僅是要達到人類轉錄的準確度,而是要超越此水準,並讓我們每一種語言在各種口音、語法性別及聲音環境下達到同級最佳的準確度。

因此,若要回答「它是否準確?」這個問題,必須先定義自動語音辨識準確度的各種層面:

1. 準確度以通用指標「字詞錯誤率」(WER) 為測量標準

  • WER 會測量機器轉錄談話內容的表現程度。
  • 由機器學習 (ML) 模式轉錄的同一份音訊檔將交給人類標記員,以提供轉錄文字的基準真相。
  • 字詞錯誤率 (WER) 的計算方式是以總字數除以錯誤數量得出。若要計算 WER,必須先將一段已識別字詞出現的替換、插入及刪除數量加總計算。然後以基準真相為依據算出總字數,並將總字數除以剛剛得出的數字。最後的結果就是 WER。如果要將上述過程轉換成簡單的公式,字詞錯誤率 = (取代 + 插入 + 刪除)/口語總字數。[3]
  • 取代即替換某個字詞 (例如「Carl」被轉錄成「Car」)。
  • 插入即新增某個未說出的字詞 (例如「middleware」變成「model where」)。
  • 刪除即轉錄文字完全遺漏某個字詞 (例如「come up with」變成「come with」)。
  • WER 越低,則轉錄引擎的準確度越高;這代表引擎犯的錯誤越少。
  • 在下方的圖表中,我們以 2020 年 6 月作為 Webex Assistant AI 轉錄引擎所推出模式的基準。您可以看到我們隨著時間持續改善 WER,在 2022 年 2 月時累計改善了 36%。

一段時間內的字詞錯誤率 (WER)

2. 一切視資料集而定

  • 所有語音辨識引擎沒有一套絕對的 WER 測量方法。每個資料集都有各種屬性,例如方言、語法性別、聲音環境及區域的分佈。因此,在有聲書的資料集上執行 Webex 轉錄引擎所得出的 WER,將會不同於 Webex 會議和電話通話的 WER。此外,在英文母語口音使用者的 Webex 會議中,以及在會議出席者有不同口音的 Webex 會議中執行相同的轉錄引擎,得出的錯誤率也會不同。
  • 為了達到同級最佳準確度,我們的目標只鎖定視訊會議使用案例。人們在視訊會議說話的方式,和在電話中或對 Alexa 說話的方式有諸多不同之處。我們的語音辨識引擎會從中識別特定模式,並針對視訊會議進行最佳化。和使用第三方供應商相比,我們內部打造的 ASR 引擎可讓我們針對 Webex 會議中的特定屬性1訓練機器學習模式。

3. 隨著會議的進行提升準確度

  • 我們的自動語音辨識 (ASR) 可在會議期間建立 3 種轉錄文字:
    • 草稿/臨時話語:即時顯示的草稿話語。如果您在 Webex 會議中說話並查看隱藏式輔助字幕 [下方螢幕截圖中的黑色方塊],開始轉錄的數毫秒內便會建立轉錄草稿,也是您看見的第一版轉錄文字。我們稱之為線上/串流音訊轉錄。
    • 最終話語:數毫秒後,系統將建立另一個更準確的轉錄草稿版本。這一切會即時執行,您無法輕易以肉眼發現變化。

Machine Learning In The Webex App

請見下方範例

即時轉錄文字如何即時改善的範例。「但是」會變成「但是品質」,再變成「但是品質並不會」。

  • 以我們團隊會議中說出的話語為例:系統為這一句話建立了 13 份草稿。這一切會即時執行,讓最終語句達到最高的準確度,並提供最佳的即時使用者體驗。
  • 增強版:會議結束後,我們會以額外的轉錄引擎重新執行轉錄,進一步提升轉錄文字的準確度。無論會議長度,系統平均 10 分鐘內便能提供增強版轉錄文字。這會是最準確的會議轉錄文字版本。

Webex 轉錄介面的示意圖,顯示系統如何建立準確的轉錄內容。

 

4. 其他轉錄問題會影響我們對轉錄準確度的認知

    • 標點符號與大小寫:
        1. 即使轉錄內容可能正確,其中的文字可能未準確使用標點符號或大小寫。每一種語言都有各自的標點與大小寫規則,我們必須訓練我們的模式遵守這些規則,讓使用者可輕鬆閱讀轉錄文字。
圖片來源:The Language Nerds
    • 發言人追蹤:
      • 發言人追蹤功能可將一段文字歸納給一位發言人,並識別會議期間誰正在發言。如果一段話語歸納給錯誤的發言人,則會降低品質認知度。發言人追蹤功能可讓我們開發有趣的功能,例如針對會議出席者發言時間所進行的會議分析。
    • 處理縮寫與名稱:
      • 語音辨識引擎通常會以常見詞彙作為訓練素材。這不包含人名、公司縮寫、醫療術語等等。舉例來說,「COVID-19」這個縮寫是 2020 年才出現的新詞彙,由於它並未列在字彙庫中,我們的 ASR 因此無法識別。我們的團隊採用數種方法來準確轉錄字彙庫中未列出的字詞,例如在會議期間學習出席者姓名,或利用電腦視覺技術從會議中分享的簡報中學習縮寫。

玩具總動員的迷因上寫著「縮寫…縮寫無處不在」

    • 處理數字與特殊格式:
      • 有些數字需要以特殊格式書寫,例如電話號碼 (+1 203 456 7891)、電子郵件 ([email protected])、日期 (2021 年 4 月 15 日) 等等。以這些特殊格式訓練的機器學習模式能辨識話語並進行後處理,讓轉錄文字以正確格式顯示。這一切會即時進行。
    • 語音重疊:
      • 當多個發言人同時講話或彼此干擾時,轉錄文字 (即使正確) 可能會無法閱讀,從而影響品質認知。為解決此問題,我們正在開發可利用臉部辨識與聲紋的功能,藉此分辨不同的發言人。

我們成功了嗎?

還沒有。但改善的過程是一場馬拉松,不是賽跑。我們相信持續針對特定區域的資料進行訓練,同時致力於降低誤差並維持客戶的資料隱私與安全性,這個由我們內部為 Webex 開發的 AI 轉錄引擎終將達到人類字詞錯誤率的水準,甚至超越人類表現。

如果您想要親自體驗,請立即註冊免費試用

深入瞭解

加入 Webex 成為機器學習工程師:與 Ritvik Shrivastava 的訪談

我們對包容性音訊/視訊 AI 的追求如何促進協作發展

利用 Webex 重新構思工作型態

2022 年最佳視訊會議設備
4 月 26, 2023 — Derek Stevens

RoomOS — 支援混合工作模式的作業系統
10 月 27, 2022 — Richard Bayes

Webex 安全性新增功能:2022 年 10 月
10 月 27, 2022 — Raj Kumar

混合協作的核心是通話
10 月 26, 2022 — Amey Parandekar

重要時刻,讓 Webex Connects 創造令人滿意的體驗
10 月 26, 2022 — Lorrissa Horton

與我們聯繫
Webex logo
免費開始使用。
只需支付一個划算價格,即可享有額外的功能、儲存空間和支援服務。
免費註冊 查看方案與定價
小型企業
  • 定價
  • Webex 應用程式
  • Meetings
  • 傳訊
企業版 (Enterprise)
  • Webex 套件
  • 呼叫
  • Meetings
  • 傳訊
  • Slido
  • Events
  • Contact Center
  • Experience Management
  • imimobile
  • 安全性
  • Control Hub
各產業解決方案
  • 教育
  • 醫療保健
  • 金融服務
  • 政府
  • 新創公司
  • 體育和娛樂業
  • 混合多元工作型態
資源
  • 下載
  • 說明中心
  • 加入測試會議
  • 整合
  • 協助工具
  • 包容性
公司
  • Cisco
  • 聯絡技術支援
  • 聯絡銷售人員
  • Webex 商店
  • Webex 部落格
© Cisco 和/或其子公司。 版權所有。
  • 條款及細則
  • 隱私權聲明
  • 餅乾
  • 商標
  • 繁體中文
    • 簡體中文
    • 英語
    • 法語
    • 德語
    • 義大利語
    • 日語
    • 韓語
    • 葡萄牙語(巴西)
    • 西班牙語
  • 简体中文 (簡體中文)
  • 繁體中文
  • English (英語)
  • Français (法語)
  • Deutsch (德語)
  • Italiano (義大利語)
  • 日本語 (日語)
  • 한국어 (韓語)
  • Português (葡萄牙語(巴西))
  • Español (西班牙語)