従来の AI における言語行為の活用

On By Varsha Embar1 Min Read

これは、2021 年 4 月 28 日に開催された REWORK カンファレンスで私が発表した内容を補足するブログです。 発表内容のスライドは、こちらでご覧いただけます

自然言語理解(NLU)は、従来の AI システムの重要な要素です。 一般的に、タスク指向の対話システムである NLU は、ユーザーの意図とそこに含まれるスロットまたはエンティティを指定するための分類子で構成されます。 ダイアログマネージャは、このアウトプットを使用して適切なダイアログの状態を選択し、対応するアクションを実行してユーザーの要求を満たします。 場合によっては、ダイアログマネージャは意図を明確に定義できない可能性があります。また、ユーザー要求の意図とそこに含まれるエンティティを把握するだけでは、ダイアログマネージャが最適なアクションを取るための十分な情報が提供されないこともあります。 たとえば、次のような小売衣料品の Web サイトにおけるユーザーとボットのやり取りについて考えてみてください。自然言語理解(NLU)ユーザーが挨拶からやり取りを開始し、特定の製品の検索を要求します。 どちらのケースでも、指定された意図とスロットは、ボットがインテリジェントに対応してユーザーに関連する推奨品を適切に示すのに十分です。 問題は、ユーザーが商品に対する印象で推奨品に対応したときに起こります。 こうしたクエリはどのような意図にマッピングされるべきなのでしょうか。また、どのようなエンティティが検出されるべきなのでしょうか。 私たちは通常、「よくわかりませんでした」といったような、会話を次のアクションにつながるようなものに変えるためのプロンプトをユーザーに示してこうした状況に対応してきました。 他のオプションを見る場合には、ユーザーは「他のものを見せてください」と言います。 これはひどいユーザーエクスペリエンスの例ではありませんが、NLU システムに言語行為や対話行為を指定するための分類子モジュールを追加すれば、ボットをよりインテリジェントにできます。

言語行為とは

言語行為は、会話内のそれぞれの言葉におけるユーザーのコンテキストと意図を捉えるものです。 こうした意図は、本来より全般的であるという点で一般的な対話の意図とは異なります。 たとえば、「これはいくらですか」と「今日の天気はどうですか」はそれぞれ、「GET_COST」という意図と「GET_WEATHER」という意図に属しますが、言語行為は同じであり、どちらも「疑問文」、またはより細かく言うと「wh 疑問文」となります。 文献で定義されている言語行為の分類にはさまざまなものがあり、私たちは用途に合ったサブセットを使用できます。 これらのタグの意味をより深く理解するには、42 ものタグが記載された SWBD-DAMSL の分類を参照してください。

対話管理のための言語行為

前述のユーザーとボットの例では、3 つのユーザークエリに対して、「GREETING」(または「CONVENTIONAL-OPENING」)、「QUESTION」、「OPINION-NEGATIVE」という言語行為ラベルが示されています。 最後のユーザーの発言で(エンティティタイプ「カテゴリ」に属するものとしてタグ付けされた)ブランドに対する否定的な見解が示されたため、ダイアログマネージャは推奨品のリストをフィルタ処理し、ユーザーが気に入っていないカテゴリのオプションを除外できます。

会話の中でアクション可能な事項を特定するための言語行為

シスコが実験してきた言語行為のもう 1 つの興味深い用途として、ミーティングのハイライトの抽出が挙げられます。 ニュース記事や十分に検討された問題をまとめるのとは異なり、ミーティングの抽出概要(ミーティングのハイライト)は、注釈付きのデータを入手するのが難しいため、提供するのが困難です。 ハイライトを構成する要素には、多くの主観が入ります。 たとえば、エンジニアがミーティングで取り上げられた実装の詳細に重点を置く一方、製品マネージャは本質的なテクノロジの詳細を必要としない可能性があります。 このような主観性とミーティングデータの機密性により、モデルをトレーニングするための注釈付きのデータを入手するのが難しくなります。 文献研究と内部調査の結果から、人々が同意しているのであれば、アクション事項とフォローアップをミーティングの重要なポイントに含めるべきであるということがわかっています。 このような動機から、シスコではミーティングで示されたアクション可能な事項を特定することに焦点を絞り込んでいます。 以下にアクション可能な事項がどのようなものであるのかがわかる例を示します。 アクション事項の表現は、発言者がアクションを約束することと発言者が命令を出すことの 2 つに大きく分類されるように思われます。 このような考え方により、言語行為がこの問題を解決するのに最適なものになります。 発言者の問題に関する懸念シスコでは、タスクにおける言語行為の分類を次のように定義しています。

  • コメント(COM):発言者が何かを行うことを約束する。
    • 「詳細を記載したメールをお送りします」
    • 「月曜日に Merry とのミーティングをセットアップします」
  • 命令(DIR):発言者が聞き手に対応として何かを行うよう求める。
    • 「明日彼らとすり合わせしていただけますか」
    • 「このプロジェクトの見積もりについて教えていただけますか」
  • 精緻化(ELB):発言者が COM または DIR に詳細情報を追加する。
    • 「今日 Emma とのミーティングをセットアップします。 このプロジェクトについて彼女と話し合って内容を明確化するのが主な議題です」 (COM の後に ELB が続く)
    • 「ドキュメントの作成に着手してください。 そうすればプロセスを共有しやすくなります」 (DIR の後に ELB が続く)
  • 確認(ACK):発言者が何かを確認する。
    • 「それはいいですね」
    • 「それでかまいません」

いくつかのコメントと命令は、そのアクションの範囲がミーティング中に限定されるため、必ずしも重要なポイントになるとは限りません。 その例としては、「画面を共有させてください」や「Chrome のウィンドウは見えていますか」といったものがあります。 このようなケースに対応するために、シスコでは COM と DIR をさらにミーティング中(IM)とミーティング後(PM)に分類しています。 COM-PM または DIR-PM に分類された文は、ユーザーのためにアクション可能な事項として含めたいと考えている文です。 シスコでは、これらのタグが付けられたミーティングの 5 万の文で事前にトレーニングした RoBERTa(Transformer のバリアント)を微調整しています。 このモデルは、提供された 3,000 の文でテストを行った場合の適切な言語行為の予測精度が約 82% となっています。 ミーティングの重要なポイントを特定するという最終目標を評価するために、シスコでは、ミーティングの各文がハイライトであるのか、ハイライトでないのかという 2 つのラベルで 12 のミーティングに注釈を付けてもらえるようエキスパートの注釈者に依頼しました。 このモデルの精度は高く、88%(つまりモデルが予測した 100 個のハイライトのうち 88 個が適切)という結果になりました。 ただしその再現率は 42% となっており、50% を超えるハイライトがモデルによって除外されるか、このコミットメントまたは命令のスキーマに適合していません。 これに関しては改善の余地が多く残されていますが、こうした精度の高さには大きな期待が持てます。

その他の用途

言語行為が役に立つ用途に関しては 2 つしか紹介しませんでしたが、実際のユースケースは他にも数多くあります。 言語行為は、コールセンターの会話のログを分析するときに有益となる可能性がある、会話の全体的な構造を把握するのに役立ちます。 文を自動的に丁寧なものにすることを目的とした最近の発表では、言語行為の分類子を使用して失礼な文を特定してから必要な修正が加えられました。 また、会話に幅広い言語行為のタグが付けられた、 Switchboard CorpusICSI Meeting Recorder Corpus などのオープンデータセットもいくつかあります。 Webex では、通話、メッセージ、ミーティングアプリケーション、さらにはコンタクトセンターソリューションなど、複数の形式で会話が行われます。 シスコではまだ、お客様が各自のデータからインサイトを引き出すうえで、言語行為をベースとする NLP モデルがどのように役立つのかを考察し始めたばかりです。 このトピックについては、今後数ヵ月にわたって随時詳細をお伝えしていきます。

MindMeld チームへの参加にご興味がある方は、 mindmeld-jobs@cisco.com にメールでご連絡ください。

著者について

Varsha Embar は、シスコの MindMeld チームのシニア機械学習エンジニアであり、本稼働レベルの対話インターフェイスを構築しています。 Varsha は、低リソース設定の機能やアルゴリズムといった、中核となる自然言語処理プラットフォームの改善のほか、情報の多いミーティングの議事録をまとめたり、そうした議事録に含まれるアクション事項を特定したりといった、難しい問題の解決に取り組んでいます。 MindMeld チームに加わる前、Varsha はカーネギーメロン大学で機械学習と自然言語処理の修士号を取得しました。 Webex にサインアップ Webex のホームページをご覧いただくか、サポートが必要な場合は直接お問い合わせください。 Webex のサービスの詳細をご覧になりたい場合、または無料アカウントにサインアップする場合は、こちらをクリックしてください。

About The Author

Varsha Embar
Varsha Embar Cisco
Varsha Embar is a Senior Machine Learning Engineer on the MindMeld team at Cisco, where she builds production-level conversational interfaces.
Learn more

Topics


More like this