短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習

松田 寛, 大村 舞 (NINJAL), 浅原 正幸(NINJAL)
言語処理学会(NLP)| 2019年3月

近年、オープンソース・ソフトウェア(以下 OSS) としてStanford Core-NLP1やspaCy2のような高機能なNLPフレームワークが利用可能となっている。 これらは商用利用も可能なライセンス形態で供与されている。特に商用アプリケーションではi18n対応コ ストが重視されることが多く、NLPフレームワークには(プログラムを書き換えることなく)リソース切り替えのみで様々な言語に対応可能であることが要請される。Stanford Core-NLPやspaCyでは英語以外の多くの言語リソースが提供されているが、日本語には未対応の状況が⾧く続いており、日本国内でのNLPフ レームワーク普及促進を妨げる要因となるばかりでなく、データサイエンス領域における日本語のプレゼンス低下に繋がることが懸念される。 

本稿では Universal Dependencies (UD)に基づいて設計されたspaCyをNLP フレームワークとして採用し、その日本語版リソースの実現に不可欠な学習系・解析系の機能実装と精度評価を行う。 UDに基づく正解コーパスには現代日本語書き言葉均衡コーパスBCCWJをUD化した「UDJapanese BCCWJ」を用いる。 日本語の平文をUDに基づいてトークン化するには形態素解析器が必要となる。spaCyは Pythonライブラリとして提供されるため、本稿では形態素解析器SudachiのPythonクローンであるSudachiPy4を使用することで言語リソースのPure Python化を実現する。Sudachiの辞書はUniDic短単位品詞体系をベースとするため、UniDic 体系に基づいて設計されたUD-Japanese BCCWJとの親和性は高い。ただし、UD-Japanese BCCWJの構築には後述のようにUniDic ⾧単位品詞の参照が必要となるため、UniDic 短単位品詞体系に含まれる可能性に基づく品詞の解決(短単位品詞の用法曖昧性解決)が必要となる。本稿では依存関係ラベルに正解品詞を埋め込むことで、短単位品詞の用法曖昧性解決と依存構造解析を同時学習する方式を提案・評価する。

NLP 2019 Presentation

グループ

自然言語処理

リサーチエリア

形態素・構文解析

リサーチ拠点