Blog

SubjQA:主観性とレビュー理解のための質問応答データセット

主観性は自然言語の使用において偏在しているため、自然言語処理(NLP)においても考慮すべき重要な側面です。しかし、自然言語処理における主観性は、質問応答(QA)のような主観性が浸透している多くのコンテキストでは検討されていません。本ブログでは、Megagon Labsの新しいデータ収集方法と、カスタマーレビューの文脈における主観性とQAの関係を調査するためのSubjQAと呼ばれる新しいデータセットについて説明します。 質問応答における主観性の重要な役割 主観とは、簡単に言えば、客観的に観察・検証できない内的な意見や信念を表現することです。感情分析や語義の曖昧性解消などにおいて重要な役割を担っています。近年、自然言語処理コミュニティでは、アスペクト抽出、オピニオンマイニング、コミュニティQAなどの研究分野において、主観性の探求に新たな関心が持たれています。現在の傾向を調べるとその理由は簡単にわかります。 プロダクトやサービスといった領域では、主観的な要素が強いデータが多く生成されます。最近の調査によると、このような領域におけるユーザーからの問い合わせの69%は主観的であり、その問い合わせに答えるカスタマーレビューもまた、非常に主観的になりがちであることが分かっています。また、回答が主観的であるかどうかは、ユーザーのクエリーの主観と相関があり、レビューごとに変化することも指摘されています。したがって、データセットとQAシステムは、ユーザーのクエリとレビューにおいて主観がどのように表現されているかを理解し、答えを見つける必要があります。しかし、既存のレビューベースのQAデータセットは、主観性とQAの相互作用を研究するのに十分な規模と多様性を持ち合わせていません。 質問応答データセットとアーキテクチャの現在の制約事項 事実データに基づくQAデータセットとシステムの大半は、主観性にとらわれないものです。現代のQAシステムは、Wikipediaの記事、ニュースの投稿、書籍などの大規模な事実データセットでトレーニングした表現学習アーキテクチャを使用しています。これらのアーキテクチャが、レビューで表現されるような主観的な記述を扱えるかどうかは不明です。レビューにおける主観性を扱う研究課題を包括的に調査するためには、大規模なデータセットが必要であることがすぐに明らかになりました。このようなデータセットが存在しないため、Megagon Labsは新しいチャレンジ、QAデータセットであるSubjQAを構築しました。 既存のデータ収集方法には次の2つの制約があります。 質問とレビューの言語的な類似性に依存しているため、データセットが簡単であること。しかし、主観的な質問は必ずしもレビューと同じ単語やフレーズが常に使用されるとは限りません。

Read More »

AutoTokenizerでCustom Tokenizerを読み込む方法

AutoTokenizerでCustom Tokenizerを読み込む方法 Megagon Labsで自然言語処理技術の開発パートナーとしてGiNZAの機能実装を担当している寺田です。 Hugging Faceのtransformersライブラリでは、使用するmodelやtokenizerのインスタンスをモデルファイルから自動で生成するAuto Classesという機能があります。 異なるモデルを統一的に扱う上でとても便利な機能なのですが、transformersライブラリ外のCustom Tokenizerを読み込むためにはひと工夫必要だったのでこちらでご紹介します。 例として、GiNZAでのCustom

Read More »

JGLUE Hands-on: 日本語言語理解ベンチマークを用いたTransformersモデルの性能評価

JGLUE fine-tuning 自然言語処理技術の標準的な評価用データセットである GLUE に相当する日本語の評価用データセットである JGLUE が、2022年6月にGiHubリポジトリから公開されました。 本稿では、JGLUEを用いたhuggingface/transformers系のモデルの評価方法について解説し、最後にGiNZA*で使用しているELECTRAモデルのJGLUEによる評価を行います。 *GiNZAはオープンソースの日本語自然言語処理ライブラリです。ワンステップでの導入、高速かつ高精度な日本語の解析処理、依存構造(係り受け)解析や固有表現抽出などの高度なNLP技術を国際化されたフレームワーク上で利用可能などの特徴を備えています。詳細はGiNZAページをご覧ください。 JGLUE JGLUEは2022年7月現在、以下の5つのデータセットで構成されています。 文書分類 MARC-ja (JCoLA,

Read More »

ExplainIt: オピニオングラフ構築によるレビュー要約の効率化

レビューは、顧客の購買意思決定に大きな影響を与えます。しかし、膨大な数のレビューが存在するため、プロダクトやサービスに対する一般的な世論を掴むことは困難です。残念ながら、既存のオピニオンマイニングやレビュー要約の技術には多くの制約があります。特に、重複の課題や、意見間の関係が無視される課題が今なお残っています。そこで、Megagon Labsは、オピニオンを抽出し、オピニオングラフに整理するレビュー要約システム、ExplainItを開発しました。このブログ記事では、レビューから主観的な情報をオピニオングラフで表現する方法について説明します。また、ExplainItの新しいパイプラインがどのようにレビューからのオピニオングラフの構築を促進するのかについても説明します。私たちの知る限り、ExplainItはレビューからオピニオンとその説明関係の両方を抽出し整理することができる最初のパイプラインです。 客観データ vs. 主観データ インターネットは事実情報と主観情報の宝庫です。ウィキペディア(図1a)などは、膨大な量の事実あるいは客観的な情報を含んでいます。一方、TripAdvisor、Amazon、Indeedなどのオンラインサービスプロバイダー(図1b)はカスタマーレビューから大規模な主観的な情報を保持しています。 図1:客観的情報と主観的情報の例 主語-述語-目的語のトリプルで事実を抽出し(例:Mars, member of,

Read More »

OpinionDigestで要約を制御および解釈する

プレゼントの購入、旅行や外食の計画を立てるとき、あなたは溢れるほどの選択肢の中からどう選びますか?インターネットの普及により、あらゆる商品・サービスのカスタマーレビューが広く公開され、購入の判断材料として活用されています。しかし、膨大な数のレビューに目を通すのは面倒で 時間のかかる作業です。仮にボタンを押すだけですべてのレビューを要約することができたら、あるいはレビューの中から要約する内容をさらに選択することができたら、出来上がった要約について説明を求めることができたら非常に便利だと思いませんか? 今回は、Megagon Labsで最近開発したOpinionDigestについて説明します。OpinionDigestは多くのレビューの中から選択的に意見を要約し、さらにその要約を説明することができます。以前のブログでは、カスタマイズ可能で説明可能なレビュー要約のための対話型エクスプローラである ExtremeReader の開発における取り組みを紹介しました。ExtremeReader はテキスト要約の生成コンポーネントとして OpinionDigest を使用していますが、その詳細については触れてきませんでした。本記事では、 OpinionDigest

Read More »

Leam: 統合インタラクティブテキストデータ解析

インターネット上のデジタルテキストの規模と可用性は過去10年間で劇的に増加しました。オンライン企業はこのような情報を理解し、サービスや製品を改善するためにテキストデータ分析を適用することがよくあります。 テキストデータ解析は、データ準備、特徴抽出、可視化、モデル構築など、多くのステップを含む反復的で非線形なプロセスを踏む必要があり、負荷の高い業務です。このステップを効率化するために、Megagon Labsはノートブック、スプレッドシート、可視化ツールの利点を組み合わせてテキスト分析を一つの連続体として扱うシステム、 Leam を構築しています。 Leamはインタラクティブなワークフローとビジュアライゼーションを通じて、アクセスしやすく、迅速なテキストデータ解析を促進する統合的な体験を提供します。Leam開発に込めた私たちのビジョンは、CIDR (Conference on Innovative Data

Read More »