Leam: 統合インタラクティブテキストデータ解析

インターネット上のデジタルテキストの規模と可用性は過去10年間で劇的に増加しました。オンライン企業はこのような情報を理解し、サービスや製品を改善するためにテキストデータ分析を適用することがよくあります。 テキストデータ解析は、データ準備、特徴抽出、可視化、モデル構築など、多くのステップを含む反復的で非線形なプロセスを踏む必要があり、負荷の高い業務です。このステップを効率化するために、Megagon Labsはノートブック、スプレッドシート、可視化ツールの利点を組み合わせてテキスト分析を一つの連続体として扱うシステム、 Leam を構築しています。

Leamはインタラクティブなワークフローとビジュアライゼーションを通じて、アクセスしやすく、迅速なテキストデータ解析を促進する統合的な体験を提供します。Leam開発に込めた私たちのビジョンは、CIDR (Conference on Innovative Data Systems Research) 2021で発表しました。本ブログでは、テキスト分析が直面している現在の課題、Leamの仕組み、そしてこのシステムの潜在的な拡張機能について説明します。下図はLeamのユーザーインタラクションの例を示しています。

図1:Leamのインターフェースにおけるデータテーブル(右)、可視化ペイン(上)、ノートブック(左)のユーザーインタラクションの例。ユーザーはコードを記述することでプログラムによるデータ連携や視覚的な関係性の探索を行う

動機と使用例

ここ数年のeコマースの急速な普及により、インターネットはショッピング、出会い、旅行予約、就職活動など、日常生活に欠かせないプラットフォームとなりました。そして、この指数関数的な成長はとどまるところを知りません。2023年には世界の電子商取引の売上高は6兆ドルに達すると予測されており、これは現在の市場価値をほぼ50%上回っています。

このデジタルトランスフォーメーションはユーザーの貴重なインサイトが含まれたテキスト(レビュー、Q&A、ディスカッションなど)の増加を一層加速させています。Megagon Labsは、質問の理解、テキストの要約、意見マイニングなどのテキスト分析の問題を調査し、このような非構造化テキストから価値を引き出せるよう支援しています。私たちのビジョンは、これらの問題を解決するためのワークフローを容易にし、分析者にシームレスなテキスト分析体験を提供するシステムを開発することです。

テキストデータの解析には複数のステップが必要です。分析者は生データを準備し(direct manipulation)、ワークフローを実装をしなければなりません(writing code)。また、結果として得られた情報や特徴を探索し、分析する必要があります(visualization)。そこで、テキストデータ解析のプロセスを正式にはVITA(Visual Interactive Text Analysis)と呼びます。次の利用シナリオは、典型的なVITAのワークフローを捉えたものです。

図2:VITAワークフローの一例

ある小売企業のeコマース部門のデータサイエンティストであるCathyが、自社サイトの商品レビューを分析する仕事を任されたとします。Cathyはトピックモデリングとクラスタリングを行い、レビューコーパスをより適切に特徴付けることで、本質的なトピックを把握したいと考えています。図2はこのユースケースを捉えたもので、データの前処理(clean)、テキストレビューからの特徴ベクトルの作成(featureize)、コーパスからのトピックベクトルの作成(topic modeling)、レビューをトピックに分類(cluster assignment)、最後にPCAなどの特徴変換手法を使用してトピックベクトルを低次元(2D)に投影し、クラスタを可視化(isualize)するものです。以降の説明では、この例を引用します。

 

テキストデータ解析の現在の課題

先に述べたシナリオを踏まえて、ビジュアル・インタラクティブテキスト解析の課題について説明します。具体的には、実行者はVITAワークフローを実装する際に以下の一般的な課題に直面します。

ツール間の断絶

VITAのワークフローでは、多くの場合、表計算ソフト、ノートブック、スクリプト、BIツールや可視化ライブラリなどの多くのツールを使用する必要があります[1, 2]。たとえば、既述のシナリオが示すように、Cathyは、(a)スプレッドシートでデータを視覚的に検査し、(b)ノートブックでテキストレビューをクリーニングしてフィーチャー化し、(c)可視化ライブラリを使って上位にランクされた単語を棒グラフとして視覚化することによって、フィーチャー化の品質を評価することができます。Cathyがクリーニングや特徴づけのステップを修正したい場合はもう一度同じプロセスを繰り返す必要があります。このように様々なワークフローのステップを繰り返しながら異なるツールの間を行き来することは、実務者にとって非常に大きな認知的な過大負荷を感じさせます。さらに、異なるツール間のデータの非互換性やユーザーインターフェースとユーザーアクションのバリエーションなどに関する他の課題もあります。コンテキストの切り替えは面倒なだけでなく、不必要に負担がかかるのです。

双方向性の欠如

VITAツール間の断絶は、VITAワークフローの3つの重要な側面であるデータ、コード、ビジュアライゼーション間の連携不足も生み出します。たとえば、高次元のテキストデータの解釈を容易にするために、ユーザーはこの情報の異なる面をビジュアライゼーションにマッピングすることがしばしば発生します(例えば、Cathyはレビューコーパスのトップランクの単語を棒グラフとして表示します)。ただし、スクリプトやノートブックで生成された可視化は静的であり、直接操作して生データにマッピングすることはできません。これは、インタラクティブ性が欠如しているために同じエンティティの要因間の関係をオンデマンドで理解することが困難であることを示す一例にすぎません。

限定的なオペレータの再利用性への支援

VITAのワークフローでは、クリーニング、フィーチャー化、可視化、分類など、さまざまなカスタムビルドの操作が行われます。例えば、Cathyが使用しているクリーニングとフィーチャライズの操作は、会社のデータではうまく機能しており、彼女は別のプロジェクトで同様の分析を行うためにこれらの操作を使用したいと考えています。しかし、これらの操作をプロジェクト間で共有し再利用することは、ゼロから作成するか、以前のプロジェクトからコピーする必要があるため困難です。

Leam: VITAエクスペリエンスを向上させる統合システム

Megagon Labsは、上記のような課題を解決するためにLeamを開発しました。ビジュアル・インタラクティブ・テキスト解析のためのワンストップ・ソリューションとして設計されたLeamは、理想的なVITAワークフローの要件と企業研究所の環境における私たちの経験から案出したいくつかの設計上の考慮事項を活用しています。

Leamは、3つのパラダイム(表計算ソフト、ノートブック、可視化ツール)を1つのシステムに統合しています。この統合により、GUIベースのインタラクションやコードを介してデータと視覚的表現の両方を操作するVITAワークフローが容易になります。Leamはまた、ビジュアルテキスト代数(VTA)を用いて定式化された演算子群を実装しています。VTAを使用すると、実行と再利用が容易になり、VITAの操作とワークフローを最適化できる可能性があります。VTAオペレータは、データクリーニング、フィーチャー化、インタラクティブな可視化など、VITAワークフローのさまざまなステージに対応することができます。

 

Share:

Share on facebook
Share on twitter
Share on linkedin
Share on reddit
Share on email

More Blog Posts: