Blog

テンプレート埋め込みによるゼロショットトリプレット抽出

非構造化テキストからエンティティや関係などの構造化された知識を抽出することは、自然言語処理における基本的な課題です。トリプレット抽出は、生のテキストから直接トリプレットを導き出すことが目的である情報抽出において特に困難なタスクです。たとえば、「Hayao Miyazaki was born in Tokyo」という文からトリプレット(Hayao Miyazaki, born_in, Tokyo)を抽出します。 ほとんどのトリプレット抽出モデルには、抽出すべき対象関係を網羅した学習データが必要です。しかし、実際のアプリケーションでは、学習例がないテスト時に新しい未知の関係を抽出したいことがよくあります。これは、ゼロショットトリプレット抽出として知られています。未知の関係の処理は、新しいエンティティタイプや関係が時間の経過とともに絶えず出現する、知識ベースの構築のようなタスクにとって極めて重要です。しかし、未知の関係に対する信頼性の高い学習データを作成することは、非常に非常に難しいことで知られています。通常、共起に基づいてエンティティを関連付けるためにヒューリスティックに依存する遠隔監視などのノイズの多い方法を介して合成例を作成する必要があります。しかしこの方法では、誤った例が学習データに混入する可能性があります。T5

Read More »

日本語指示データ・日本語擬似レビューの公開

このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日本語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日本語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました.

Read More »

SubjQA:主観性とレビュー理解のための質問応答データセット

主観性は自然言語の使用において偏在しているため、自然言語処理(NLP)においても考慮すべき重要な側面です。しかし、自然言語処理における主観性は、質問応答(QA)のような主観性が浸透している多くのコンテキストでは検討されていません。本ブログでは、Megagon Labsの新しいデータ収集方法と、カスタマーレビューの文脈における主観性とQAの関係を調査するためのSubjQAと呼ばれる新しいデータセットについて説明します。 質問応答における主観性の重要な役割 主観とは、簡単に言えば、客観的に観察・検証できない内的な意見や信念を表現することです。感情分析や語義の曖昧性解消などにおいて重要な役割を担っています。近年、自然言語処理コミュニティでは、アスペクト抽出、オピニオンマイニング、コミュニティQAなどの研究分野において、主観性の探求に新たな関心が持たれています。現在の傾向を調べるとその理由は簡単にわかります。 プロダクトやサービスといった領域では、主観的な要素が強いデータが多く生成されます。最近の調査によると、このような領域におけるユーザーからの問い合わせの69%は主観的であり、その問い合わせに答えるカスタマーレビューもまた、非常に主観的になりがちであることが分かっています。また、回答が主観的であるかどうかは、ユーザーのクエリーの主観と相関があり、レビューごとに変化することも指摘されています。したがって、データセットとQAシステムは、ユーザーのクエリとレビューにおいて主観がどのように表現されているかを理解し、答えを見つける必要があります。しかし、既存のレビューベースのQAデータセットは、主観性とQAの相互作用を研究するのに十分な規模と多様性を持ち合わせていません。 質問応答データセットとアーキテクチャの現在の制約事項 事実データに基づくQAデータセットとシステムの大半は、主観性にとらわれないものです。現代のQAシステムは、Wikipediaの記事、ニュースの投稿、書籍などの大規模な事実データセットでトレーニングした表現学習アーキテクチャを使用しています。これらのアーキテクチャが、レビューで表現されるような主観的な記述を扱えるかどうかは不明です。レビューにおける主観性を扱う研究課題を包括的に調査するためには、大規模なデータセットが必要であることがすぐに明らかになりました。このようなデータセットが存在しないため、Megagon Labsは新しいチャレンジ、QAデータセットであるSubjQAを構築しました。 既存のデータ収集方法には次の2つの制約があります。 質問とレビューの言語的な類似性に依存しているため、データセットが簡単であること。しかし、主観的な質問は必ずしもレビューと同じ単語やフレーズが常に使用されるとは限りません。

Read More »

AutoTokenizerでCustom Tokenizerを読み込む方法

AutoTokenizerでCustom Tokenizerを読み込む方法 Megagon Labsで自然言語処理技術の開発パートナーとしてGiNZAの機能実装を担当している寺田です。 Hugging Faceのtransformersライブラリでは、使用するmodelやtokenizerのインスタンスをモデルファイルから自動で生成するAuto Classesという機能があります。 異なるモデルを統一的に扱う上でとても便利な機能なのですがで、transformersライブラリ外のCustom Tokenizerを読み込むためにはひと工夫必要だったのでこちらでご紹介します。 例として、GiNZAでのCustom

Read More »

JGLUE Hands-on: 日本語言語理解ベンチマークを用いたTransformersモデルの性能評価

JGLUE fine-tuning 自然言語処理技術の標準的な評価用データセットである GLUE に相当する日本語の評価用データセットである JGLUE が、2022年6月にGiHubリポジトリから公開されました。 本稿では、JGLUEを用いたhuggingface/transformers系のモデルの評価方法について解説し、最後にGiNZA*で使用しているELECTRAモデルのJGLUEによる評価を行います。 *GiNZAはオープンソースの日本語自然言語処理ライブラリです。ワンステップでの導入、高速かつ高精度な日本語の解析処理、依存構造(係り受け)解析や固有表現抽出などの高度なNLP技術を国際化されたフレームワーク上で利用可能などの特徴を備えています。詳細はGiNZAページをご覧ください。 JGLUE

Read More »