Blog
KDD2020 ハイライト
KDD (Knowledge Discovery and Data Mining) は、世界で最も歴史があり、間違いなくトップレベルのデータマイニングの国際会議です。サンディエゴで開催される予定だった今年のカンファレンスは、新型コロナウイルス流行の影響で完全オンラインでの開催となりました。私はKDDで古くからの友人と会ったり、新しい友人を作ったりすることをもちろん楽しみにしていました。Zoomやメッセージングアプリは便利ですが、実際に会って交流することには敵いません。誰もがサンディエゴの輝く太陽とビーチを満喫することはできなかったわけですが、それでも組織化されたKDDにはこれまで以上の参加者が集いました。約 210本の研究論文が採択され、32件のワークショップ、40本以上のチュートリアルが行われました。その中には、私たちの素晴らしい同僚である Estevam Hruschka による「Data-Driven Never-Ending
じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例
より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment Corpus (以下JRTEコーパス)を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。 オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるようになります。クチコミには様々な感想・意見・要望が含まれていますが、残念ながら大量のクチコミから欲しい情報を素早く得ることは未だに簡単ではありません。この問題を解決していくために知識の自動抽出・整理に役立つコーパスを作ることにしました。
大規模コーパスからセマンティックタイプを検出するための学習
データクリーニング、スキーマ マッチング、データディスカバリー、セマンティック サーチ、データビジュアライゼーションなど、多くのデータ前処理や情報検索タスクではリレーショナルテーブルにおけるデータカラムのセマンティックタイプを検出することで利点が得ることができます。 国際学会 VLDB2020 で発表したMegagon Labsの最新論文では、テーブルのコンテキストを取り入れることにより、表形式のカラムタイプを予測の現状を改善する新たな学習済みモデル、 Sato を紹介しました。 データシステムは、文字列
NeurON:QAペアからの情報抽出 (Open-IE)
Open Information Extraction ( Open-IE ) はQAシステムを動かすナレッジベースを構築するための主要な処理の1つです。 しかし、この分野の研究は専らテキスト内の個々のセンテンスから情報 ( 例えば、arg1-rel-arg2
Megagon Team Profile : 田中 郁リサーチエンジニア
Megagon Labs Tokyoのメンバーズ・ボイスへようこそ! 連載3 回目となる今回は、東京オフィスで画像認識技術を担当するリサーチエンジニアの 田中 郁 さんがMegagon Labsに至るまでのバックグラウンド、興味・関心や現在取り組まれているプロジェクト、そしてリサーチエンジニアとして走り続ける秘訣に迫ります。 これまでの経歴と、Megagon Labsにジョインした理由を教えてください
言語処理学会第27回年次大会 (NLP2021) 研究発表
言語処理学会第27回年次大会 (NLP2021)において、Megagon Labsは3件の発表を行ないました。言語処理学会第27回年次大会のプログラムはこちらから参照いただけます。 言語処理学会での発表予定 P2 : 言語資源・アノテーション(2) / 知識獲得・情報抽出(1) [P2-5]