Blog

Emu: 意味的類似度による多言語文埋め込みの強化

言語はおそらく人類にとって最大の発明です。言語によって私たちは情報を伝達し、アイデアを発信し、より良い未来を築くために協力し合うことができます。しかし、AI(人工知能)や機械学習などの新しいテクノロジーの場合、言語間の意味の違いが大きな障壁となり、革新的なアプリケーションの可能性が制限されることもあります。この問題を解決するために、Megagon Labsでは意味的類似度を用いることで、より精緻な多言語文埋め込みを学習するフレームワークを開発しました。 我々のEmuに関する研究論文がAssociation for the Advancement of Artificial Intelligence

Read More »

GiNZA version 4.0: 多言語依存構造解析技術への文節APIの統合

Universal Dependenciesのもとで日本語文法に根ざした直感的な統語解析を可能にしたい。GiNZAが目指してきた自然言語処理のゴールにまた一歩近づきました。2020年8月16日にリリースした「GiNZA version 4.0」ですが、日本語の公式サポートが始まったspaCy version 2.3を土台とし、機能と性能を隅々までブラッシュアップしています。これまで以上に日本語の分析が容易になったGiNZA v4の文節APIについて詳しく解説します。 GiNZAでできること NLP(自然言語処理)技術は人が日常的に使う言葉を機械的に分析するための一連の解析処理に用いる技術の総称です。この「一連の解析処理」という部分が非常に重要で、例えば日本語の書き言葉の文であれば、最初に単語を区切ってからそれらを文節にまとめて係り受け関係を解釈する、という流れになります。英語の文の場合、単語はほぼスペースで区切られていますが、”New

Read More »