Blog

日本語指示データ・日本語擬似レビューの公開

このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日本語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日本語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました.

Read More »

SubjQA:主観性とレビュー理解のための質問応答データセット

主観性は自然言語の使用において偏在しているため、自然言語処理(NLP)においても考慮すべき重要な側面です。しかし、自然言語処理における主観性は、質問応答(QA)のような主観性が浸透している多くのコンテキストでは検討されていません。本ブログでは、Megagon Labsの新しいデータ収集方法と、カスタマーレビューの文脈における主観性とQAの関係を調査するためのSubjQAと呼ばれる新しいデータセットについて説明します。 質問応答における主観性の重要な役割 主観とは、簡単に言えば、客観的に観察・検証できない内的な意見や信念を表現することです。感情分析や語義の曖昧性解消などにおいて重要な役割を担っています。近年、自然言語処理コミュニティでは、アスペクト抽出、オピニオンマイニング、コミュニティQAなどの研究分野において、主観性の探求に新たな関心が持たれています。現在の傾向を調べるとその理由は簡単にわかります。 プロダクトやサービスといった領域では、主観的な要素が強いデータが多く生成されます。最近の調査によると、このような領域におけるユーザーからの問い合わせの69%は主観的であり、その問い合わせに答えるカスタマーレビューもまた、非常に主観的になりがちであることが分かっています。また、回答が主観的であるかどうかは、ユーザーのクエリーの主観と相関があり、レビューごとに変化することも指摘されています。したがって、データセットとQAシステムは、ユーザーのクエリとレビューにおいて主観がどのように表現されているかを理解し、答えを見つける必要があります。しかし、既存のレビューベースのQAデータセットは、主観性とQAの相互作用を研究するのに十分な規模と多様性を持ち合わせていません。 質問応答データセットとアーキテクチャの現在の制約事項 事実データに基づくQAデータセットとシステムの大半は、主観性にとらわれないものです。現代のQAシステムは、Wikipediaの記事、ニュースの投稿、書籍などの大規模な事実データセットでトレーニングした表現学習アーキテクチャを使用しています。これらのアーキテクチャが、レビューで表現されるような主観的な記述を扱えるかどうかは不明です。レビューにおける主観性を扱う研究課題を包括的に調査するためには、大規模なデータセットが必要であることがすぐに明らかになりました。このようなデータセットが存在しないため、Megagon Labsは新しいチャレンジ、QAデータセットであるSubjQAを構築しました。 既存のデータ収集方法には次の2つの制約があります。 質問とレビューの言語的な類似性に依存しているため、データセットが簡単であること。しかし、主観的な質問は必ずしもレビューと同じ単語やフレーズが常に使用されるとは限りません。

Read More »

AutoTokenizerでCustom Tokenizerを読み込む方法

AutoTokenizerでCustom Tokenizerを読み込む方法 Megagon Labsで自然言語処理技術の開発パートナーとしてGiNZAの機能実装を担当している寺田です。 Hugging Faceのtransformersライブラリでは、使用するモデルやtokenizerのインスタンスをモデルファイルから自動で生成するAuto Classesという機能があります。例として、GiNZA での Custom Tokenizer

Read More »

JGLUE Hands-on: 日本語言語理解ベンチマークを用いたTransformersモデルの性能評価

JGLUE fine-tuning ​ 自然言語処理技術の標準的な評価用データセットである GLUE に相当する日本語の評価用データセットである JGLUE が、2022年6月にGiHubリポジトリから公開されました。 本稿では、JGLUEを用いたhuggingface/transformers系のモデルの評価方法について解説し、最後にGiNZA*で使用しているELECTRAモデルのJGLUEによる評価を行います。 ​ *GiNZAはオープンソースの日本語自然言語処理ライブラリです。ワンステップでの導入、高速かつ高精度な日本語の解析処理、依存構造(係り受け)解析や固有表現抽出などの高度なNLP技術を国際化されたフレームワーク上で利用可能などの特徴を備えています。詳細はGiNZAページをご覧ください。 ​ JGLUE ​

Read More »

ExplainIt: オピニオングラフ構築によるレビュー要約の効率化

レビューは、顧客の購買意思決定に大きな影響を与えます。しかし、膨大な数のレビューが存在するため、プロダクトやサービスに対する一般的な世論を掴むことは困難です。残念ながら、既存のオピニオンマイニングやレビュー要約の技術には多くの制約があります。特に、重複の課題や、意見間の関係が無視される課題が今なお残っています。そこで、Megagon Labsは、オピニオンを抽出し、オピニオングラフに整理するレビュー要約システム、ExplainItを開発しました。このブログ記事では、レビューから主観的な情報をオピニオングラフで表現する方法について説明します。また、ExplainItの新しいパイプラインがどのようにレビューからのオピニオングラフの構築を促進するのかについても説明します。私たちの知る限り、ExplainItはレビューからオピニオンとその説明関係の両方を抽出し整理することができる最初のパイプラインです。 客観データ vs. 主観データ インターネットは事実情報と主観情報の宝庫です。ウィキペディア(図1a)などは、膨大な量の事実あるいは客観的な情報を含んでいます。一方、TripAdvisor、Amazon、Indeedなどのオンラインサービスプロバイダー(図1b)はカスタマーレビューから大規模な主観的な情報を保持しています。 図1:客観的情報と主観的情報の例 主語-述語-目的語のトリプルで事実を抽出し(例:Mars, member of,

Read More »