Emu: 意味的類似度による多言語文埋め込みの強化

言語はおそらく人類にとって最大の発明です。言語によって私たちは情報を伝達し、アイデアを発信し、より良い未来を築くために協力し合うことができます。しかし、AI(人工知能)や機械学習などの新しいテクノロジーの場合、言語間の意味の違いが大きな障壁となり、革新的なアプリケーションの可能性が制限されることもあります。この問題を解決するために、Megagon Labsでは意味的類似度を用いることで、より精緻な多言語文埋め込みを学習するフレームワークを開発しました。

我々のEmuに関する研究論文がAssociation for the Advancement of Artificial Intelligence (AAAI)に採択され、2020年2月9日にニューヨークで開催される’世界で最も権威のあるAIの学術会議の1つ’とされる AAAI-20 にて研究を発表する素晴らしい機会をいただきました。今回のブログでは、機械学習アプリケーションの多言語サポートにおける現在の制約課題と、それらの課題に対するEmuの対処方法について詳しく説明します。

多言語文埋め込み ( Multilingual Sentence Embedding ) とは何か?また、なぜ重要なのか?

現在、世界にはおよそ6,500の言語が存在しています。オンラインサービスの多くはさまざまなコミュニケーション手段に対応するため、複数の言語をサポートしています。機械学習はこれらのグローバルサービスがサービスを展開するのに非常に重要な役割を担っていますが、別の見方をすると、インターネット検索エンジンを根本から改善し、AIアシスタントや自動翻訳などの技術を実現可能にしたのは、このAIの中核の一部である機械学習とも言えます。

機械学習アプリケーションにとって多言語サポートは以前から定義が難しく、大きな障壁となっていました。たとえば、英語で書かれたデータを使用してチャットボットを訓練したとしても、スペイン語やドイツ語などの他の言語の質問に応答することはできません。多言語での応答を実現するためには、希望する言語ごとにデータを収集し、その学習用データを使ってチャットボットを訓練しなければ機能しないのです(言語ごとの対応は不可能ではないにしても、膨大な作業量になります)。

このボトルネックを解消するために、AIの研究者たちは多言語文埋め込みモデル ( multilingual sentence embedding models) を作成しました。これらのモデルでは、さまざまな言語の文章をベクトルとして、言語にとらわれず、共通の高次元な意味空間に挿入することが実現できます。多言語文埋め込みとして知られるこれらのベクトルを使用すると、異なる言語の2つの文章の類似性を評価することが可能になるのです…

 

 

いかがでしたか? Emu: Enhancing Multilingual Sentence Embeddings with Semantic Similarity のサマリーを日本語でお届けしました。続きはMegagon Labs 英語ブログでお楽しみください!

 もっと読む (英語)  >>

(翻訳:Megagon Labs Tokyo

 

Share:

Share on facebook
Share on twitter
Share on linkedin
Share on reddit
Share on email

More Blog Posts: