主観性は自然言語の使用において偏在しているため、自然言語処理(NLP)においても考慮すべき重要な側面です。しかし、自然言語処理における主観性は、質問応答(QA)のような主観性が浸透している多くのコンテキストでは検討されていません。本ブログでは、Megagon Labsの新しいデータ収集方法と、カスタマーレビューの文脈における主観性とQAの関係を調査するためのSubjQAと呼ばれる新しいデータセットについて説明します。
質問応答における主観性の重要な役割
主観とは、簡単に言えば、客観的に観察・検証できない内的な意見や信念を表現することです。感情分析や語義の曖昧性解消などにおいて重要な役割を担っています。近年、自然言語処理コミュニティでは、アスペクト抽出、オピニオンマイニング、コミュニティQAなどの研究分野において、主観性の探求に新たな関心が持たれています。現在の傾向を調べるとその理由は簡単にわかります。
プロダクトやサービスといった領域では、主観的な要素が強いデータが多く生成されます。最近の調査によると、このような領域におけるユーザーからの問い合わせの69%は主観的であり、その問い合わせに答えるカスタマーレビューもまた、非常に主観的になりがちであることが分かっています。また、回答が主観的であるかどうかは、ユーザーのクエリーの主観と相関があり、レビューごとに変化することも指摘されています。したがって、データセットとQAシステムは、ユーザーのクエリとレビューにおいて主観がどのように表現されているかを理解し、答えを見つける必要があります。しかし、既存のレビューベースのQAデータセットは、主観性とQAの相互作用を研究するのに十分な規模と多様性を持ち合わせていません。
質問応答データセットとアーキテクチャの現在の制約事項
事実データに基づくQAデータセットとシステムの大半は、主観性にとらわれないものです。現代のQAシステムは、Wikipediaの記事、ニュースの投稿、書籍などの大規模な事実データセットでトレーニングした表現学習アーキテクチャを使用しています。これらのアーキテクチャが、レビューで表現されるような主観的な記述を扱えるかどうかは不明です。レビューにおける主観性を扱う研究課題を包括的に調査するためには、大規模なデータセットが必要であることがすぐに明らかになりました。このようなデータセットが存在しないため、Megagon Labsは新しいチャレンジ、QAデータセットであるSubjQAを構築しました。
既存のデータ収集方法には次の2つの制約があります。
- 質問とレビューの言語的な類似性に依存しているため、データセットが簡単であること。しかし、主観的な質問は必ずしもレビューと同じ単語やフレーズが常に使用されるとは限りません。
- データセットが小さく、多様性に欠け、テキストの主観性を理解することができません。
これらの制約により、SubjQAを構築するために新しいデータ収集方法を考案することにしました。
新しいデータ収集方法でSubjQAを構築する
下図は、我々が提案するデータ収集方法の概要です。まず、対象ドメインのレビューからオピニオン抽出を行います。各オピニオン抽出は(modifier, aspect)という形式のタプルです。次に、行列因数分解を使用して、抽出間の関連をマイニングします。たとえば、「感動した、キャラが立っている」というオピニオン抽出は、「良かった、文章がうまい」というオピニオン抽出と関連していることがわかります。そして、これらの関連付けを使用してデータセットを構築します。
具体的には、ある関連性(頭部抽出、尾部抽出)が与えられたとき、頭部抽出に言及しているレビューを探し出し、尾部抽出をトピックとして質問を書くようクラウドワーカーに依頼します。そして、その質問の答えとなるレビューからテキストのスパンを選択するように依頼します。また、質問と回答の両方に主観的なラベルを付与します。 以下は、データセットからのいくつかの例です。
質問:映画のあらすじはどうでしたか?
レビュー: …単純に、たくさんのことが起こっていて、たくさんのアクションがあり、非常に多くの複雑なことがあるからです…
質問:このレストランはビーガン対応ですか?
レビュー:…メニューには多くのビーガン料理があります。ここで友人と素敵な時間を過ごしました…
質問:レストランはロマンチックな雰囲気ですか?
レビュー:ワインのセレクションが素晴らしく、デートの夜にぴったりです。
これらの例からわかるように、QAシステムは、テキストから回答スパンを見つけるために、言語的な信号だけに頼るのではなく、主観的な表現について推論する必要があります。
SubjQAの特徴
SubjQAは、ホテル、レストラン、映画、本、家電、食料品の6つの異なる領域にまたがる10,000以上の事例を収録しています。質問と回答の大部分、質問の73%、回答の74%、には主観的な表現が含まれています。下図に示すように、SubjQAは質問における主観とレビューにおける主観の相互作用がうまく分散しています。
SubjQAの質問の約65%は、ペアとなるレビューから回答ができます。SubjQAには、SQuADやAmazonQAなどの他のベンチマークQAデータセットにはない、多様な質問が含まれています。これは下図に示すように、質問の接頭辞の多様性によって描かれています。一番外側のリングはユニグラムプレフィックスを表しています。中間のリングと一番奥のリングは、それぞれバイグラムとトリグラムに対応しています。
SubjQAにおけるQAシステムのパフォーマンス
事前学習済みモデルは、人気のベンチマークデータセットであるSQuADで、92.9%という高いF1スコアを達成しました。一方、最良のモデルは、SubjQAのドメイン全体で30.5%の平均F1を達成しています。このパフォーマンスの差は、ドメインの違い(Wikipedia vs カスタマーレビュー)と、異なるドメイン間での主観表現方法の違いの両方に起因している可能性があります。各ドメインで微調整した後でも、最良のモデルは異なるドメイン間で平均74.1%のF1スコアを達成するに留まっています。これは、SQuADのF1スコアより大幅に低い。この結果は、このモデルが質問やレビューでの主観的な表現にとらわれないという事実に起因すると考えられます。
主観性がQAにおいて重要なパートを占めるかを明らかにするために、マルチタスク学習パラダイムにおける回答スパンの選択と回答の主観分類に関するQAモデルを最適化します。このモデルは平均F1スコア76.3%を達成し、主観にとらわれないモデルに比べて2ポイントの絶対的な優位性を示しました。これは、推論に主観性を組み込むための単純な手法でさえ、ドメイン全体でモデルのパフォーマンスを向上させることができることを示しています。
質問応答における主観性研究の新たな道を拓く
SubjQAを一般に公開しました。 こちらでご覧いただけます。このQAデータセットには、質問と回答の両方の主観性ラベルが含まれているだけでなく、次のことも可能になります。
- 主観的なコンテンツのためのアーキテクチャの評価と開発
- 広く多様な文脈における主観性とその相互作用の調査
NLPコミュニティが主観性とQAの関係を理解するために、まだやるべきことはたくさんあります。幸いなことに、SubjQAはこの分野で効率的かつ効果的に研究を行うためのいくつかの機会を提供しています。
[原文へ]
(筆者: Nikita Bhutani / 翻訳:Megagon Labs Tokyo)
Reference
Johannes Bjerva, Nikita Bhutani, Behzad Golshan, Wang-Chiew Tan, Isabelle Augenstein, “SubjQA: A Dataset for Subjectivity and Review Comprehension”, EMNLP 2020.