UD Japanese GSD の再整備と固有表現情報付与

松田寛, 若狭絢 (NINJAL), 山下華代 (フリー), 大村舞 (NINJAL), 浅原正幸 (NINJAL)
言語処理学会 (NLP) | 2020年3月

日本語Universal Dependenciesリソースの一つであるUD Japanese GSDについて、ライセンスとテキスト欠損の問題を解決し、さらに固有表現情報を追加するための再整備を進めている。ライセンスはwikipediaの利用許諾に従い商用利用可能なCC BY-SAに変更した。テキストは過去に欠損していた部分の復元を行った。固有表現情報の付与では関根の拡張固有表現階層のラベル定義・付与基準をもとにOntoNotes5固有表現ラベル体系を日本語向けに定義して用いた。これらの成果を用いてspaCy標準日本語モデルへの依存構造解析・固有表現抽出モデルの搭載を目指す。

– NLP 2020 Poster

グループ

自然言語処理

リサーチエリア

言語資源・アノテーション
固有表現

リサーチ拠点