Semantic Tagging: データインサイト管理に欠かせない信頼性の高い手法

セマンティックタギングは大企業から中小企業に至るまで、データに関する比類ない洞察を解明することができます。 そして、この情報はさまざまな業界の積年の問題を解決する ”きっかけ” となります。しかし、セマンティックなタグ付けのユースケースと利点は一般的にはあまり理解されていません。本ブログでは、昨今のセマンティックタグ付けに関連の高いアプリケーションのいくつかの事例を掘り下げていきます。また、パイプライン上で セマンティックタギング分類モデル を選択する際に、組織が直面する課題についても紹介します。

セマンティックタギングとは?

セマンティックタギングを定義する前にテキストマイニングとは何かを理解する必要があります。テキストマイニングとは、人工知能(AI)と自然言語処理(NLP)技術を活用して、非構造化テキストを正規化し、分析に適した構造化データに変換するプロセスです。このテキストが整理された後、セマンティックタギングがプロセスの中で重要な役割を果たすことになります。

セマンティックタギングはオントロジーの要素をデータベースまたはドキュメント(Webサイトやコンピューターファイルなど)に接続するプロセスです。この形式のテキストアノテーションを使用すると、データ構造の主要なコンポーネントを効率的に記述することになり、後で検索しやすくしたり、同じオントロジー内の他のリソースとの関連性を理解したりすることができます。セマンティックタギングはテキストの一部と事前定義されたタグを入力として、そのテキストがタグのセマンティクスを伝えているかどうかを予測し出力するものです。

図1:セマンティックタグ付けの一例

インターネットは構造化されていないテキストで埋め尽くされているため、テキストマイニングとセマンティックタギングは、これらすべての情報の意味を理解する上で非常に重要です。セマンティックタギングは、AmazonやeBayといった大手eコマース企業のいくつかの商用アプリケーションの中核をなしています。セマンティックタギングの最も有名なユースケースの1つは、感情分析です。カスタマーが作成したテキスト(レビューなど)の意見を集約し、各テキストが肯定的または否定的なセンチメントを持っているかどうかを明示します。この感情タグはダウンストリームアプリケーションにおいて適切なアクションの決定を支援するために利用することができます。

セマンティックタグの活用例

感情分析はセマンティックタグ付けの可能性のほんの一面に過ぎません。ここでは、セマンティックタギングの最も適切な使用事例をいくつか紹介します。

 

1. サジェスチョン・マイニング

サジェスチョンマイニングはセマンティックタギングの最も一般的なアプリケーションの1つです。サジェスト(提案)とは、短いけれども実用的なテキストで、実用的な推奨事項を伝えるものです。TripAdvisorやYelpのような体験共有サービスにはユーザーが作成したテキストに多くの提案が含まれています。以下の図2にいくつかの例を示します。

図2:トリップアドバイザーの都市ガイドの提案

提案には、将来のお客様の体験を向上させるのに役立つ十分な情報が含まれていますが、多くの場合、読むのに手間と時間がかかる長いレビューに埋もれてしまいます。 これに加えて、モバイル端末では画面の面積が限られているため長いレビューは敬遠される傾向にあります。これらの問題により、ユーザーは気後れし、重要なポイントを見逃してしまうことがよくあります。

この問題に対処するため、Yelp [1]では、ユーザーがレビュー以外のヒントを書くことを奨励し、モバイルアプリのインターフェイス上で、レストランのページのトップ近くに最も人気のあるメイン料理を特定して提案するようにしました。

同様に、Yahoo Searchは、”how to zest a lime without zester “のようなハウツー的な意図を含む検索が相当量あることに気づきました。このような検索を行うユーザーに対して適切なソリューションを提供するため、Yahoo Answersのデータベースから評価の高い提案を抽出し、タグ付けして、ハウツーを含む検索ページの上部に表示するようにしました。

サジェストマイニングを使用すると、ユーザーが処理する必要のある情報の量を減らしながら、最も優れた洞察を保持することで、ユーザーが実用的な答えを素早く見つけることを可能にします。

 

2. 商品説明文の生成

AmazonやeBayなどのEコマースサイトには毎日無数のカスタマーレビューが集まっています。その中で最も参考になるのは商品説明文でしょう。カスタマーレビューの商品説明には、公式の商品説明にはない重要な情報が含まれていることがよくあります。

eBayの調査[2]によると、新旧両方の製品において、公式の説明文には詳細が欠けていることが判明しました。調査の著者はセマンティックタグを使って顧客が作成した商品説明を特定し、それらがこの問題を解決するためにより有用な情報を提供しているかどうかを評価しました。調査参加者は、これらの説明文が有益で客観的な洞察をもたらしたため潜在的な顧客の購入決定を大幅に簡素化したことを発見しました。以下の図3は、タグ付けされた商品説明から得られる潜在的なインサイトの一部を示しています。

図3: ユーザーが作成した商品説明文

ユーザーレビューの内容を集約して追加の商品説明を作成することで、ECプラットフォームは商品に関する補完的、補足的、さらには矛盾する情報にも光を当てることができます。これらの商品説明は他の顧客から直接寄せられたものであるため、消費者は多くの理由から魅力的に感じるのです。

  1. 商品説明文は販売者と個人的な繋がりのない独立したユーザーによって書かれたものです
  2. 実際のユーザー体験に関わる重要な要素について言及しています
  3. 該当する商品がない場合に不要な注文を避けるよう、例外を紹介しています

 

たとえば、カメラのタグ付き商品説明では、そのカメラを数週間使用した後の実際のユーザー体験が書かれています。また、カスタマーサポートや返品ポリシーなどのアフターサービスについても説明することができます。これにより購入希望者はより多くの情報を得た上で購入決定をするのに非常に役立ちます。

3. ユーモア

オンライン・ユーザー・レビューを読むのは有益ではあるものの、面倒で不快な面もあります。しかし、そこにユーモアが加われば、読者に幸福感を与え、より多くの読者の注目を集めることができるのです。Yelp [3]はこのことに気づき、レビューが面白いかどうかをラベル付けする機能をユーザーに提供し始めました。下の図4はそのようなレビューの例を示しています。

図4:ユーモア溢れるユーザーレビュー

ユーモアはユーザーレビューを読み取る作業を和らげることができるため、自然言語処理研究コミュニティで注目を集めています。ユーモラスで有用なカスタマーレビューにセマンティックタグを付けると、潜在的な顧客にとって製品に関する洞察を得る作業が簡素化・迅速化されるだけでなく、テーブルにユーモアをもたらすことでプロセスをより楽しくします。

4. 論証

「部屋が落ち着かない(the room is uncomfortable)」という感傷的な意見に対して、「部屋がカビ臭い(the room has a smell of mold)」という事実的な根拠を示し、意見を支持または反対するのが論証です。論証は一般に同じ命題に対する異なる意見であるため、説明に役立つ様々な視点からの情報が含まれていることがよくあります。

図5:論証文と非論証文

上の図5は、「原子力は良い」という命題に対する論証文と非論証文です。一目見ただけでも、論証文の方が、グリーンエネルギーの有効性に関する修辞的な質問である2番目の文よりも、命題に関する説明情報がより多いことが容易にわかります。

論証マイニングは、セマンティックタギングと相まって、対象となるサービス、製品、あるいは論争中のトピックの長所と短所を効果的に描き出すことができるため、多くの研究者の注目を集めてきました。eコマースの分野では、潜在的な顧客に反対の立場からの知識を提供することができます。その結果、ユーザーはより現実的で客観的な見立てをつけることができます。

5. ネタバレ

ネタバレが好きな人はいないでしょう。しかし、テレビシリーズや本などのメディア作品のレビューには普通に存在します。著者が悪いわけではありません。時には、具体的なプロットのポイントを詳しく説明することが内容評価を裏付ける唯一の方法であることもあります。とはいえ、この種のネタバレは未来の観客の期待や楽しみを台無しにしかねません。

メディア作品のレビューを閲覧する前に、読者に警告するためのネタバレ警告が必要になってきているのです。たとえば、オンライン映画データベースIMDB [4]では、以下の図6のようなネタバレが含まれる場合、レビュアーが読者に向けた警告メッセージを追加表示することを要求しています。

図6:ネタバレの例

手動でのネタバレ警告が必ずしも適切に配置されるとは限らないため、自動でのネタバレ検出が望まれるようになってきました。現在のところ、ネタバレ検出のためのオープンソースのデータセットはほとんどありません。しかし、それらはレビューにおけるネタバレの性質についてより詳しく解明したため、すでにニュースなどで評価されています。たとえば、そのようなデータセットの作成者はネタバレはレビューの後半に発生する傾向があることを特定しました。

セマンティックタギングには、自動ネタバレ検出を加速させる大きな可能性があります。近い将来、IMDBやRotten Tomatoesのようなメディアレビューサイトでこの機能を可能にし、向上させるために、このプロセスが不可欠な役割を果たすと信じて疑いません。

いかがでしたか? Semantic Tagging: The Swiss Army Knife for Managing Data Insightsのサマリーを日本語でお届けしました。セマンティックタギングの課題やMegagon Labsが提案する手法はMegagon Labs 英語ブログでお楽しみください!

(翻訳:Megagon Labs Tokyo

References

[1] Yelp. What are Tips? https://www.yelp-support.com/article/What-are-tips?l=en_US. 2020.

[2] S. Novgorodov, G. Elad, I. Guy, and K. Radinsky. Generating product descriptions from user reviews. In WWW, pages 1354–1364, 2019.

[3] Yelp Dataset Challenge. https://www.yelp.com/dataset/documentation/main. 2020. 

[4] IMDB. User Review Guidelines. https://help.imdb.com/article/contribution/contribution-information/user-review-guidelines/GABTWSNLDNFLPRRH#. 2020.

Share:

Share on facebook
Share on twitter
Share on linkedin
Share on reddit
Share on email

More Blog Posts: