- Blog home
- >
- Engineering
- >
- 將言語行為運用於對話型 AI
Tags: 人工智慧
本篇部落格文章可與我在 2021 年 4 月 28 日的 REWORK 會議上的演說搭配參考。 演說內容投影片可在此處取得。
自然語言理解 (NLU) 在任何對話型 AI 系統中都是重要元件。 一般而言,在工作導向的對話系統中,NLU 所包含的分類器會識別使用者的意圖及呈現的槽或實體。 對話管理員會運用這些輸出資料來選擇適當的對話狀態,並採取對應的行動來滿足使用者的請求。 某些情況下,系統可能無法清楚地定義意圖,或者雖然已知使用者在請求中呈現的意圖和實體,但卻不足以向對話管理員提供足夠的資訊,以便採取最佳動作。 以下方使用者透過機器人與零售服飾網站進行的互動為例:使用者先從打招呼開始互動,接著提出尋找特定產品的請求。 在這些情況下,經過識別的意圖和槽,可讓機器人做出智慧的回應,並順利向使用者提供相關建議。 但使用者如果憑個人對產品的印象來對建議做出回應,就會出現問題。 系統應該將這類查詢對應到什麼意圖?又該偵測到什麼實體? 通常,我們在處理這類情況時會向使用者提供一則提示,將對話重新導向到更足以轉換成行動的方向,例如「呃,我不懂你的意思。 若要查看更多選項,請說『顯示更多選項』。」 儘管這並不算是糟糕的使用者體驗,但我們可以在 NLU 系統中新增其他分類器模組來識別言語行為或對話動作,藉此提高機器人的智慧。
言語行為蘊含了使用者在對話中每次開口所表達的內容和意圖。 這些意圖和一般對話方塊的意圖相比,不同之處在於表達方式通常較為自然。 舉例來說,「這個東西多少錢?」和「今天天氣如何?」可能分別屬於「GET_COST」和「GET_WEATHER」意圖,但是它們都屬於同一種言語行為「QUESTION」,或者更精確分類的話,都屬於「WH-QUESTION」。 從文學的定義來看,這些表達方式分屬不同言語行為分類,因此我們可以採用適用於應用程式的子分類。 如果想要進一步瞭解可用的標籤有哪些,請參考 SWBD-DAMSL 分類法,當中廣泛地囊括了 42 種標籤。
在前文的使用者和機器人對話範例中,我們可以將三次使用者查詢的言語行為加上「GREETING」(或「CONVENTIONAL-OPENING」)、「QUESTION」和「OPINION-NEGATIVE」標籤。 既然我們已經知道使用者在最後一次回覆中表達了對品牌的負面觀感 (標籤屬於「類別」實體類型),對話管理員就可以篩選建議清單,將使用者不喜歡的類別從選項中排除。
我們也一直在實驗另一種言語行為的應用方式,亦即透過言語行為來擷取出會議中的要點。 為新聞文章整理出摘要是一項經過透徹研究的問題,但從會議中節錄出摘要 (亦即會議要點) 則不一樣,這是非常困難的事,因為經過註解的資料並不容易獲得。 所謂的要點,其實包含了各種主觀意識。 舉例來說,工程師可能會將重點放在會議中所討論的實作細節,但產品經理可能不需要對技術性細節斤斤計較。 這種主觀性,再加上會議資料的機密性,使得我們難以取得經過註解的資料來訓練模型。 文學研究和內部調查都顯示,如果人們對某件事有共識,則行動事項和後續追蹤事項就必然會成為會議重點摘要的一部份。 在這種傾向的驅動下,我們會將關注重點縮小到會議中可據以行動的事項。 以下範例展示了何謂可據以行動的事項。 行動事項這個詞所表達的意義似乎可分成兩大類:發言人承諾採取某個行動,以及發言人發出一項命令。 這樣的分類使得言語行動非常適合用於解決這類問題。 我們為工作事項定義出了下列言語行為分類:
有些承諾和指令未必足以成為重點,因為這些分類的行動範圍僅限在會議期間內發生。 比方說「我來分享一下我的螢幕」或「各位有看到我的 Chrome 視窗嗎?」 為了處理這些情況,我們要進一步將 COM 和 DIR 區分為會議中 (IM) 和會議後 (PM) 類別。 分類為 COM-PM 或 DIR-PM 的句子才是我們想要為使用者整理成行動事項的內容。 我們從已加上這些標籤來註解的會議中取出 50,000 個句子,用這些句子來微調事先受過訓練的 RoBERTa (轉換程式的某個版本) 模型。 這個模型接受了 3,000 個現成句子的測試,在預測正確的言語行為方面達成約 82% 的準確度。 為了評估識別會議重點摘要的最終目標,我們請兩位專業註解者對 12 場會議作註解,以二元標籤的方式將每個會議中的句子標記為是否應列入要點。 這個模型的準確度高達 88%,也就是模型從 100 項要點中正確預測到 88 項要點。 然而重新叫用時的準確度只有 42%,也就是模型錯失了超過 50% 的要點,或者這些要點並不適用於這類承諾或指令的結構描述。 雖然結果留下了相當大的進步空間,但是過程中的高準確性仍然令人相當雀躍。
我們僅僅用兩個應用範例展現了言語行為的實用性,但在現實中還有許多種其他使用案例。 言語行為有助於理解一場對話中包羅萬象的結構,對於客服中心的對話紀錄分析非常實用。 近期有一份發表的報告以自動說出有禮貌的句子為目標,並運用言語行為分類程式來識別不禮貌的句子,然後再進行必要的修正。 此外還有一些開放資料集可供探索,例如 Switchboard 文集和 ICSI Meeting Recorder 文集,當中的對話以各式各樣的言語行為標籤來加上註解。 Webex 也會在多種形式中遇到對話式言語,例如通話、傳訊和會議應用程式,以及客服中心解決方案。 我們想要以言語行為為基礎的 NLP 模型來協助客戶從自己的資料中取得深入解析,但在這項技術上,我們也才剛開始接觸到皮毛。 我們會在後續幾個月分享更多相關主題的資訊,敬請期待。
是否有興趣加入 MindMeld 團隊? 歡迎傳送電子郵件至 mindmeld-jobs@cisco.com!
Varsha Embar 是思科 MindMeld 團隊的資深機器學習工程師,她在此團隊中負責打造生產層級的對話型介面。 她鑽研核心自然語言理解平台的改良,包括採用資源需求量較低的功能和演算法,以及解決各類疑難雜症,例如在吵雜的會議轉錄文字檔案中擷取摘要與偵測行動事項。 在加入 MindMeld 之前,Varsha 在卡內基美隆大學 (Carnegie Mellon University) 取得機器學習與自然語言處理的碩士學位。 註冊 Webex 請前往我們的首頁或直接聯絡我們尋求協助。 按一下此處,深入瞭解 Webex 提供的產品優惠,並註冊免費帳戶。