Blog

Essentia: Word-Alignment Graphsでドメイン固有のパラフレーズをマイニングする

パラフレーズは幅広い自然言語処理 (NLP) アプリケーションにとって重要なリソースです。そのため、様々なパラフレーズ・マイニング技術が開発されてきました。これらのマイニング技術は一般的なパラフレーズを発見することには成功していますが、多くの場合、ドメイン固有の言い換えを特定できません。この問題を解決するために、Megagon Labsは Essentia を開発しました。この優れたシステムは、Word-Alignment Graphsを用いることで入力セットに一握りの文章しか含まれていなくとも、そのセットからドメイン固有の言い換えを抽出します。

Read More »

KDD2020 ハイライト

KDD (Knowledge Discovery and Data Mining) は、世界で最も歴史があり、間違いなくトップレベルのデータマイニングの国際会議です。サンディエゴで開催される予定だった今年のカンファレンスは、新型コロナウイルス流行の影響で完全オンラインでの開催となりました。私はKDDで古くからの友人と会ったり、新しい友人を作ったりすることをもちろん楽しみにしていました。Zoomやメッセージングアプリは便利ですが、実際に会って交流することには敵いません。誰もがサンディエゴの輝く太陽とビーチを満喫することはできなかったわけですが、それでも組織化されたKDDにはこれまで以上の参加者が集いました。約

Read More »

じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例

より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment

Read More »

大規模コーパスからセマンティックタイプを検出するための学習

データクリーニング、スキーマ マッチング、データディスカバリー、セマンティック サーチ、データビジュアライゼーションなど、多くのデータ前処理や情報検索タスクではリレーショナルテーブルにおけるデータカラムのセマンティックタイプを検出することで利点が得ることができます。 国際学会 VLDB2020 で発表したMegagon Labsの最新論文では、テーブルのコンテキストを取り入れることにより、表形式のカラムタイプを予測の現状を改善する新たな学習済みモデル、

Read More »

言語処理学会第27回年次大会 (NLP2021) 研究発表

言語処理学会第27回年次大会 (NLP2021)において、Megagon Labsは3件の発表を行ないました。言語処理学会第27回年次大会のプログラムはこちらから参照いただけます。 言語処理学会での発表予定 P2 : 言語資源・アノテーション(2)

Read More »

Teddyで実現するユーザーレビュー探索パイプライン

Teddy を用いたユーザーインタラクション ユーザーレビューには、オンラインショッピングサービスのユーザー体験を向上させるのに役立つデータが豊富に含まれています。 しかし、レビューからカスタマーインサイトを引き出すのは容易ではありません。 Megagon Labs による最新の CHI’20の論文 では、レビューマイニングを簡単に実現することを目的としたインタラクティブなシステム Teddy を紹介しました。Teddy

Read More »

Snippext:少量データで実現するオピニオンマイニング・パイプライン

世論を理解することで、 あらゆるビジネスにおいてこれまでにない洞察力を引き出すことができます。 その結果、 テキストの内容を分析し、これが否定的または肯定的な感情であるかを理解する要因を抽出するプロセスである オピニオンマイニング が急速に人気が高まっています。 事前に学習した言語モデルをファインチューニングすることで、ユーザーレビューから高品質の抽出をおこなうことができますが、すべての組織がそのための十分な量の学習データにアクセスできるわけではありません。  この問題を解決するため、

Read More »

Megagon Team Profile : 林部 祐太 リサーチサイエンティスト

Megagon Labs Tokyoのメンバーズ・ボイスへようこそ! 連載 1 回目となる今回は、東京オフィスで日本語自然言語処理技術の研究を主導し、国内学会をはじめ国際学会でも着々と成果を創出している 林部 祐太 さんがMegagon Labsに至るまでのバックグラウンド、興味・関心や現在取り組まれている研究、そしてトップ研究者として走り続ける秘訣に迫ります。 

Read More »

Semantic Type Detection:セマンティック型の検出はなぜ重要なのか?現在のアプローチと改善方法について

セマンティック型の検出は、表のカラムなどのデータソースのリアルワールドデータ ( real-world references ) を識別することを目的としています。実世界の概念との対応関係を確立することで、セマンティック型はきめ細かいデータ記述を提供し、データクリーニング、 スキーママッチング、

Read More »

ConciergeBotの導入事例:ホテル業界に特化したQ&Aチャットボットの構築

過去10年間、文明から離れた暮らしを送っていない限り、チャットボットを使用したことがある、また、チャットボットと対話したことがある方は多いでしょう。 チャットボットは会話に対応することが可能で、音声またはテキストを使用して人々を支援します。 しかし、ホテルをはじめとする様々な分野のビジネスをサポートする場合、チャットボットの性能は限定的とも言えます。 これに対処するために、Megagon Labsではホスピタリティ業界向けのQ&Aチャットボット、ConciergeBotを構築しました。  インテント(意図)に関する課題 「Hey

Read More »

主観的データと体験検索でユーザーレビューから真の価値を引き出す Part 2

主観的データと体験検索がユーザーレビューから価値を多く引き出す方法に関するシリーズの第2回目です。 第1章では、通常の 検索エンジン と レビュープラットフォーム がどのようにして期待と実体験間のズレを引き起こすのかを検証してきました。 また、体験情報検索の需要と今まで大きく取り上げられなかった理由ついても解き明かしてきました。

Read More »

主観的データと体験検索でユーザーレビューから真の価値を引き出す Part 1

カスタマーレビューは今や世界のビジネスを動かす原動力となり、 販売、採用、ホテル運営などの活動において、レビューにおける評価はビジネスの成否を分ける存在です。 その運命を決定づけるのはレビューの質だけではなく、商品やサービスを通して提供される顧客体験が利用者の期待値とどの程度調和しているか、これが非常に重要です。 2つの要因 < 期待と実体験 >

Read More »

Emu: 意味的類似度による多言語文埋め込みの強化

言語はおそらく人類にとって最大の発明です。言語によって私たちは情報を伝達し、アイデアを発信し、より良い未来を築くために協力し合うことができます。しかし、AI(人工知能)や機械学習などの新しいテクノロジーの場合、言語間の意味の違いが大きな障壁となり、革新的なアプリケーションの可能性が制限されることもあります。この問題を解決するために、Megagon Labsでは意味的類似度を用いることで、より精緻な多言語文埋め込みを学習するフレームワークを開発しました。 我々のEmuに関する研究論文がAssociation for the Advancement of

Read More »

GiNZA version 4.0: 多言語依存構造解析技術への文節APIの統合

Universal Dependenciesのもとで日本語文法に根ざした直感的な統語解析を可能にしたい。GiNZAが目指してきた自然言語処理のゴールにまた一歩近づきました。2020年8月16日にリリースした「GiNZA version 4.0」ですが、日本語の公式サポートが始まったspaCy version 2.3を土台とし、機能と性能を隅々までブラッシュアップしています。これまで以上に日本語の分析が容易になったGiNZA v4の文節APIについて詳しく解説します。

Read More »