主観的データと体験検索がユーザーレビューから価値を多く引き出す方法に関するシリーズの第2回目です。 第1章では、通常の 検索エンジン と レビュープラットフォーム がどのようにして期待と実体験間のズレを引き起こすのかを検証してきました。 また、体験情報検索の需要と今まで大きく取り上げられなかった理由ついても解き明かしてきました。 前回の記事を見逃した方はこちらからご覧ください。
このシリーズの最終章となる第2章では、主観的データシステムのOpineDBが、最も一般的な体験情報検索の課題をどのように解決するかについて、実験結果と合わせて見ていきたいと思います。 また、OpineDBのパフォーマンスが、昨今人気のある2つの検索プロトコルに匹敵している点についても解説します。
体験情報検索における最大の課題を解決する
前回のブログでも触れましたが、体験情報検索には妨げとなる3つの重要な問題があります。
- ユーザーレビューは効率的かつ効果的に検索ができるように集約する必要がある
- 体験型検索エンジンは複雑さに関わらず体系的に検索要求に応えることが必要である
- 体験型検索エンジンは主観データベースのスキーマに上手く収まらない表現であっても、巧みに処理する必要がある
3つの課題を例証するために、OpineDBがホテル検索の文脈でどのように解決しているかを見てきましょう。
複雑な(しかし現実的な)検索
あるユーザーが「ロンドンで1泊180ポンド以下で、部屋はとても清潔で、ロマンチックな休暇を過ごせるホテル(a hotel in London that costs less than 180 pounds per night, has really clean rooms, and is a romantic getaway)」を探していることを思い浮かべてください。最初の(述語理論上の)述語は客観的で簡単に扱うことができますが、2番目と3番目の述語は主観的でより微妙なニュアンスが内包されています。
このクエリを読み解くために、OpineDBは感情分析、オピニオンマイニング、BERT(Googleが発表したニューラルネットワークをベースにした自然言語処理の汎用言語表現モデル)を利用し、多数のユーザーレビューから重要な体験情報を抽出します。OpineDBは、レビューとマーカーのキーフレーズにも依存しています。これはアプリケーション設計者が重要だと考える意味領域に関する特徴のことを指します。
アプリケーション設計者は、レビューデータマイニングと特定のアプリケーションの要件に基づき、マーカー(または代表的なフレーズ)を選択することができます。例えば、部屋の清潔さを {clean, dirty} でモデル化するか、または浴室のスタイルを {old, standard, modern, luxurious} でモデル化するかを決めることができます。これらの選定は検索結果の品質に大きな影響を与える因子となります。
OpineDBがユーザに最適のホテルを見つける方法
OpineDBはユーザーレビューから多数の言語学的フレーズを抽出し、スキーマに編成します。スキーマとは、マーカー(つまり、代表的なフレーズ)が付いた属性のセットとなります。「部屋の清潔さ」に関する全ての言語的フレーズは ‘ 部屋の清潔さ ‘ の属性と、 ‘ きれい ‘ や ‘ 汚い ‘ といったマーカーに厳密にマッピングされます。別の例で、「浴室のスタイル」に関するすべてのフレーズは、 ‘ 浴室スタイル ‘ の属性と、 ‘ 古い/普通/モダン/高級感がある ‘ といったマーカーに対応付けされます。
ユーザーの検索要求にもよりますが、このタスクは非常に困難を極める場合があります。例えば、ユーザがロマンチックな休暇を求めているとしましょう。ユーザは、どのホテルがロマンチックな休暇に適しているかを、どのように見極めているでしょうか?「ロマンチックな」という言葉は、おそらくホテルを意味する領域のスキーマには含まれていません。OpineDBは、ロマンチックな部屋に関するクエリを、スキーマに存在する属性の組み合わせに再形成することにより、この問題を克服しています。
結婚記念日や新婚旅行などのロマンチックなイベントのレビューでは、優秀なスタッフや豪華な浴室など、ユーザーが他の属性に言及する傾向が頻繁に見られます。事前処理により、これらの主観的な属性はスキーマに含まれているため、OpineDBはこれらの属性を使い最もロマンチックなホテルをランク付けすることができます。逆に、主観的なデータベースのスキーマに存在する、いずれの情報にも無関係のクエリをユーザーが実行した場合、OpineDBはテキストレビューを検索し、その特性について言及されていないかを確認します。
上記のクエリに対する処理の後、OpineDBは客観的な述語と2つの主観的な述語の組み合わせに従い、検索結果をランキングし、出力します。また、ユーザーの検索条件を深く掘り下げるケースを想定し、検索された表現の詳細を推敲してるレビューから抽出した関連スニペットの結果も取り込みます。
主観的検索は期待値と実体験のギャップを埋めることができる
OpineDBの効率性と有効性を検証するために、OpineDBと情報検索ベースの検索エンジン(an information retrieval-based search engine。以下、IRと呼びます)および属性ベースのクエリエンジン(an attribute-based query engine。以下、ABと呼びます)を対照しました。この実験では検証用データとして、Booking.comとYelpに投稿された実際の主観データを使用しました。
IRの代表的な例として、GoogleやBingなどの人気のあるインターネット検索エンジンが挙げられます。この実験で使用したIRのベースラインは、特定の検索クエリに対する文書の関連性を推定する検索モデル、Okapi BM25を実装しました。今回はこのモデルが受け取った意見に基づいてエンティティをランク付けするために使用しています。
ABのベースラインはBooking.comやYelpなどのオンラインサービスで、ユーザーが一般的に目にするものです。ユーザーはきめ細かな結果を得るために、検索可能な属性を様々な組み合わせで自由に試すことができるのため、OpineDBを比較する際の強力なベースラインとして使用しています。
実験設定
OpineDBの検索品質をベースラインであるIRおよびABと正確に比較するため、実世界のデータセットを使ったホテルとレストランの主観データベースを構築しました。1,493軒のホテルに対する515,739件のユーザーレビュー、860軒のレストランに対する176,302件のユーザーレビューを検証用データとして用意しました。
さらに、ホテルに対する主観的なクエリの述語を190語、レストランに対する主観的なクエリの述語を185語収集し、それらのクエリ論理積を生成しました。その中から、主観的な検索要求を簡単(2語の複合クエリ)、普通(4語の複合クエリ)、難しい(7語の複合クエリ)の3つのカテゴリに分類しました。各カテゴリには100件の主観的なクエリを包含しました。
検索結果が主観的なクエリの述語をどれだけ扱えたかを判定するために、ランキング学習の評価指標 Normalized Discounted Cumulative Gain(NDCG) に基づく測定基準を採用しました。基本的には、扱うことができたクエリの述語総数と、これらの述語に対する上位の検索結果の関連性によって検索結果の品質を測定し、検索結果の上位に近い無関係のエンティティはスコアに対するペナルティとしてカウントしています。
結果の完全性を検証するために、10種類の異なるサンプルクエリセット(設定ごとに合計で1,000件のクエリ)で、この実験を繰り返しました。
結果
控えめに評価しても、OpineDB は IRとABのベースラインを凌ぎ、ホテルのクエリでは最大15%の向上、レストランのクエリでは最大10%の向上という良好な結果を示しました。OpineDBは、クエリの述語を主観的な属性に正確にマッピングできるため、クエリの述語を追加することで、より良い性能を発揮できたと評価しています。
この実験の結果はレビュー数の増加に比例し、OpineDBがアプリケーションに一層の付加価値をもたらすことも現しています。ホテル関連の意味領域における結果はレストラン領域に比べて際立って高い品質を示しました。ホテルに関するレビューがレストランよりも数多く含まれていたことが要因でしょう。このような情報の増幅により、OpineDBのヒストグラムサマリーをより代表的で統計的に有意なものに改良することができます。
OpineDBはスピード面でも優れていました。マーカーを使用することにより、主観的データシステムは品質を損なうことなく、処理要求を最大で660%も高速化することができました。OpineDBがどのように機能するのか、また本結果についてより詳しく知りたい方は研究論文をご覧ください。
あらゆる製品とサービスの未来は体験検索にある
閑静な住宅街の新築アパート、賑やかなダイニングバー、社会貢献に焦点を当てた新しい仕事。どれを求める場合でも、ユーザーは自分の期待に叶う完璧な製品やサービスを探し出すために非常に多くの時間を費やしています。逆に、世界中の企業は自社の製品やサービスを最も必要としている潜在的な利用者を見つけようと競い合っています。
OpineDBは人々が長らく感じていた期待値と実体験の間のギャップを埋める一助となると確信しています。Megagon Labsの主観データシステムは、利用者と企業の双方に対してプラスとなる方法で検索を平易化するでしょう。
膨大な時間とエネルギーを費やした挙げ句、結果に失望する時代は終わりを迎えようとしています。OpineDBを使えば、ロマンチックな景色が楽しめるレストランを予約することができます。信頼できる高速なWi-Fiを備えたホテルを見つけることもできます。期待を超える体験を、毎回、確実なものにすることができるのです。
ユーザーと繋がるためのより良い方法をお探しですか?OpineDBは、あらゆる業界で製品やサービスと潜在顧客とを引き合わせる方法を提供しています。ユーザーは”ただ体験を検索するだけ”でいいのです。
いかがでしたか? Unlocking Real Value from User Reviews With Subjective Data and Experiential Search — Part 2 を日本語でお届けしました。Opine DBについて詳しく知りたい方はMegagon Labsまでご連絡ください!
[原文へ]
(筆者: Yuliang Li / 翻訳:Megagon Labs Tokyo)
Tag: Subjective Data, Experiential Search, Opine DB
References
Yuliang Li, Aaron Feng, Jinfeng Li, Saran Mumick, Alon Halevy, Vivian Li, Wang-Chiew Tan, “Subjective databases,” VLDB, July 2019.