Blog

ExplainIt: オピニオングラフ構築によるレビュー要約の効率化

レビューは、顧客の購買意思決定に大きな影響を与えます。しかし、膨大な数のレビューが存在するため、プロダクトやサービスに対する一般的な世論を掴むことは困難です。残念ながら、既存のオピニオンマイニングやレビュー要約の技術には多くの制約があります。特に、重複の課題や、意見間の関係が無視される課題が今なお残っています。そこで、Megagon Labsは、オピニオンを抽出し、オピニオングラフに整理するレビュー要約システム、ExplainItを開発しました。このブログ記事では、レビューから主観的な情報をオピニオングラフで表現する方法について説明します。また、ExplainItの新しいパイプラインがどのようにレビューからのオピニオングラフの構築を促進するのかについても説明します。私たちの知る限り、ExplainItはレビューからオピニオンとその説明関係の両方を抽出し整理することができる最初のパイプラインです。 客観データ vs. 主観データ インターネットは事実情報と主観情報の宝庫です。ウィキペディア(図1a)などは、膨大な量の事実あるいは客観的な情報を含んでいます。一方、TripAdvisor、Amazon、Indeedなどのオンラインサービスプロバイダー(図1b)はカスタマーレビューから大規模な主観的な情報を保持しています。 図1:客観的情報と主観的情報の例 主語-述語-目的語のトリプルで事実を抽出し(例:Mars, member of,

Read More »

OpinionDigestで要約を制御および解釈する

プレゼントの購入、旅行や外食の計画を立てるとき、あなたは溢れるほどの選択肢の中からどう選びますか?インターネットの普及により、あらゆる商品・サービスのカスタマーレビューが広く公開され、購入の判断材料として活用されています。しかし、膨大な数のレビューに目を通すのは面倒で 時間のかかる作業です。仮にボタンを押すだけですべてのレビューを要約することができたら、あるいはレビューの中から要約する内容をさらに選択することができたら、出来上がった要約について説明を求めることができたら非常に便利だと思いませんか? 今回は、Megagon Labsで最近開発したOpinionDigestについて説明します。OpinionDigestは多くのレビューの中から選択的に意見を要約し、さらにその要約を説明することができます。以前のブログでは、カスタマイズ可能で説明可能なレビュー要約のための対話型エクスプローラである ExtremeReader の開発における取り組みを紹介しました。ExtremeReader はテキスト要約の生成コンポーネントとして OpinionDigest を使用していますが、その詳細については触れてきませんでした。本記事では、 OpinionDigest

Read More »

Leam: 統合インタラクティブテキストデータ解析

インターネット上のデジタルテキストの規模と可用性は過去10年間で劇的に増加しました。オンライン企業はこのような情報を理解し、サービスや製品を改善するためにテキストデータ分析を適用することがよくあります。 テキストデータ解析は、データ準備、特徴抽出、可視化、モデル構築など、多くのステップを含む反復的で非線形なプロセスを踏む必要があり、負荷の高い業務です。このステップを効率化するために、Megagon Labsはノートブック、スプレッドシート、可視化ツールの利点を組み合わせてテキスト分析を一つの連続体として扱うシステム、 Leam を構築しています。 Leamはインタラクティブなワークフローとビジュアライゼーションを通じて、アクセスしやすく、迅速なテキストデータ解析を促進する統合的な体験を提供します。Leam開発に込めた私たちのビジョンは、CIDR (Conference on Innovative Data

Read More »

Semantic Tagging: データインサイト管理に欠かせない信頼性の高い手法

セマンティックタギングは大企業から中小企業に至るまで、データに関する比類ない洞察を解明することができます。 そして、この情報はさまざまな業界の積年の問題を解決する ”きっかけ” となります。しかし、セマンティックなタグ付けのユースケースと利点は一般的にはあまり理解されていません。本ブログでは、昨今のセマンティックタグ付けに関連の高いアプリケーションのいくつかの事例を掘り下げていきます。また、パイプライン上で セマンティックタギング分類モデル を選択する際に、組織が直面する課題についても紹介します。 セマンティックタギングとは? セマンティックタギングを定義する前にテキストマイニングとは何かを理解する必要があります。テキストマイニングとは、人工知能(AI)と自然言語処理(NLP)技術を活用して、非構造化テキストを正規化し、分析に適した構造化データに変換するプロセスです。このテキストが整理された後、セマンティックタギングがプロセスの中で重要な役割を果たすことになります。 セマンティックタギングはオントロジーの要素をデータベースまたはドキュメント(Webサイトやコンピューターファイルなど)に接続するプロセスです。この形式のテキストアノテーションを使用すると、データ構造の主要なコンポーネントを効率的に記述することになり、後で検索しやすくしたり、同じオントロジー内の他のリソースとの関連性を理解したりすることができます。セマンティックタギングはテキストの一部と事前定義されたタグを入力として、そのテキストがタグのセマンティクスを伝えているかどうかを予測し出力するものです。 図1:セマンティックタグ付けの一例

Read More »

Ruler:Data Programming by Demonstration(DPBD)でラベリング関数を作成する

テキスト分類は私たちが日々利用している多くの技術の基盤となっています。電子メールのルーティング、ニュースの分類、ソーシャルメディアの意図の識別はこうした技術のほんの一部の例にすぎません。テキスト分類に不可欠な要素であるラベリングは非常に手間と時間のかかるプロセスです。そこで、Megagon Labsはこのラベリング処理を容易にするために Ruler というインタラクティブシステムを開発しました。RulerはDPBD (Data Programming by Demonstration) と呼ばれる新しいフレームワークを用いてラベリング関数をシームレスに合成することができます。 Rulerは技術的な参入障壁を下げることで、各領域の専門家がデータプログラミングを活用できるようにします。Rulerを使えばテキスト分類に使う大量の学習データを素早く簡単に生成できるようになり、しかもプログラミングは不要です。

Read More »

Essentia: Word-Alignment Graphsでドメイン固有のパラフレーズをマイニングする

パラフレーズは幅広い自然言語処理 (NLP) アプリケーションにとって重要なリソースです。そのため、様々なパラフレーズ・マイニング技術が開発されてきました。これらのマイニング技術は一般的なパラフレーズを発見することには成功していますが、多くの場合、ドメイン固有の言い換えを特定できません。この問題を解決するために、Megagon Labsは Essentia を開発しました。この優れたシステムは、Word-Alignment Graphsを用いることで入力セットに一握りの文章しか含まれていなくとも、そのセットからドメイン固有の言い換えを抽出します。 現在のパラフレーズ・マイニング技術の問題点 パラフレーズはテキストからテキストへの生成、機械翻訳、テキストの含意認識など、多くのNLPタスクにおいて重要な役割を果たしています。最初の2つの分野においては、有機的で多様な出力テキストを作成するために不可欠な存在です。 想像してしてみてください。あるチャットボットの挨拶が

Read More »