Blog

KDD2020 ハイライト

KDD (Knowledge Discovery and Data Mining) は、世界で最も歴史があり、間違いなくトップレベルのデータマイニングの国際会議です。サンディエゴで開催される予定だった今年のカンファレンスは、新型コロナウイルス流行の影響で完全オンラインでの開催となりました。私はKDDで古くからの友人と会ったり、新しい友人を作ったりすることをもちろん楽しみにしていました。Zoomやメッセージングアプリは便利ですが、実際に会って交流することには敵いません。誰もがサンディエゴの輝く太陽とビーチを満喫することはできなかったわけですが、それでも組織化されたKDDにはこれまで以上の参加者が集いました。約 210本の研究論文が採択され、32件のワークショップ、40本以上のチュートリアルが行われました。その中には、私たちの素晴らしい同僚である Estevam Hruschka による「Data-Driven Never-Ending

Read More »

じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例

より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment Corpus (以下JRTEコーパス)を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。   オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるようになります。クチコミには様々な感想・意見・要望が含まれていますが、残念ながら大量のクチコミから欲しい情報を素早く得ることは未だに簡単ではありません。この問題を解決していくために知識の自動抽出・整理に役立つコーパスを作ることにしました。

Read More »

大規模コーパスからセマンティックタイプを検出するための学習

データクリーニング、スキーマ マッチング、データディスカバリー、セマンティック サーチ、データビジュアライゼーションなど、多くのデータ前処理や情報検索タスクではリレーショナルテーブルにおけるデータカラムのセマンティックタイプを検出することで利点が得ることができます。 国際学会 VLDB2020 で発表したMegagon Labsの最新論文では、テーブルのコンテキストを取り入れることにより、表形式のカラムタイプを予測の現状を改善する新たな学習済みモデル、 Sato を紹介しました。 データシステムは、文字列

Read More »

NeurON:QAペアからの情報抽出 (Open-IE)

Open Information Extraction ( Open-IE ) はQAシステムを動かすナレッジベースを構築するための主要な処理の1つです。 しかし、この分野の研究は専らテキスト内の個々のセンテンスから情報 ( 例えば、arg1-rel-arg2

Read More »

言語処理学会第27回年次大会 (NLP2021) 研究発表

言語処理学会第27回年次大会 (NLP2021)において、Megagon Labsは3件の発表を行ないました。言語処理学会第27回年次大会のプログラムはこちらから参照いただけます。 言語処理学会での発表予定 P2 : 言語資源・アノテーション(2) / 知識獲得・情報抽出(1) [P2-5]

Read More »

Teddyで実現するユーザーレビュー探索パイプライン

Teddy を用いたユーザーインタラクション ユーザーレビューには、オンラインショッピングサービスのユーザー体験を向上させるのに役立つデータが豊富に含まれています。 しかし、レビューからカスタマーインサイトを引き出すのは容易ではありません。 Megagon Labs による最新の CHI’20の論文 では、レビューマイニングを簡単に実現することを目的としたインタラクティブなシステム Teddy を紹介しました。Teddy を使用することで、データサイエンティストが大規模なカスタマーレビューを探索し、オピニオンマイニングのパイプラインの抽出スキーマを反復的に改良し、迅速にインサイトを得ることが可能になります。Teddy は、レビュー分析のワークフローと課題を理解するために行ったデータサイエンティストとのインタビューから得た知見をもとに設計されました。この研究の結果はTeddyだけではなく、テキストマイニングにおける共通のプラクティスと問題について有用な情報を提供し、ユーザーレビューや一般的なテキスト分析における今後のシステム開発全体に役に立つ情報にも触れていきます。  eコマースの市場規模は米国(左)と世界(右)において急激に拡大している

Read More »