Blog

Semantic Tagging: データインサイト管理に欠かせない信頼性の高い手法

セマンティックタギングは大企業から中小企業に至るまで、データに関する比類ない洞察を解明することができます。 そして、この情報はさまざまな業界の積年の問題を解決する ”きっかけ” となります。しかし、セマンティックなタグ付けのユースケースと利点は一般的にはあまり理解されていません。本ブログでは、昨今のセマンティックタグ付けに関連の高いアプリケーションのいくつかの事例を掘り下げていきます。また、パイプライン上で セマンティックタギング分類モデル を選択する際に、組織が直面する課題についても紹介します。 セマンティックタギングとは? セマンティックタギングを定義する前にテキストマイニングとは何かを理解する必要があります。テキストマイニングとは、人工知能(AI)と自然言語処理(NLP)技術を活用して、非構造化テキストを正規化し、分析に適した構造化データに変換するプロセスです。このテキストが整理された後、セマンティックタギングがプロセスの中で重要な役割を果たすことになります。 セマンティックタギングはオントロジーの要素をデータベースまたはドキュメント(Webサイトやコンピューターファイルなど)に接続するプロセスです。この形式のテキストアノテーションを使用すると、データ構造の主要なコンポーネントを効率的に記述することになり、後で検索しやすくしたり、同じオントロジー内の他のリソースとの関連性を理解したりすることができます。セマンティックタギングはテキストの一部と事前定義されたタグを入力として、そのテキストがタグのセマンティクスを伝えているかどうかを予測し出力するものです。 図1:セマンティックタグ付けの一例

Read More »

Ruler:Data Programming by Demonstration(DPBD)でラベリング関数を作成する

テキスト分類は私たちが日々利用している多くの技術の基盤となっています。電子メールのルーティング、ニュースの分類、ソーシャルメディアの意図の識別はこうした技術のほんの一部の例にすぎません。テキスト分類に不可欠な要素であるラベリングは非常に手間と時間のかかるプロセスです。そこで、Megagon Labsはこのラベリング処理を容易にするために Ruler というインタラクティブシステムを開発しました。RulerはDPBD (Data Programming by Demonstration) と呼ばれる新しいフレームワークを用いてラベリング関数をシームレスに合成することができます。 Rulerは技術的な参入障壁を下げることで、各領域の専門家がデータプログラミングを活用できるようにします。Rulerを使えばテキスト分類に使う大量の学習データを素早く簡単に生成できるようになり、しかもプログラミングは不要です。

Read More »

Essentia: Word-Alignment Graphsでドメイン固有のパラフレーズをマイニングする

パラフレーズは幅広い自然言語処理 (NLP) アプリケーションにとって重要なリソースです。そのため、様々なパラフレーズ・マイニング技術が開発されてきました。これらのマイニング技術は一般的なパラフレーズを発見することには成功していますが、多くの場合、ドメイン固有の言い換えを特定できません。この問題を解決するために、Megagon Labsは Essentia を開発しました。この優れたシステムは、Word-Alignment Graphsを用いることで入力セットに一握りの文章しか含まれていなくとも、そのセットからドメイン固有の言い換えを抽出します。 現在のパラフレーズ・マイニング技術の問題点 パラフレーズはテキストからテキストへの生成、機械翻訳、テキストの含意認識など、多くのNLPタスクにおいて重要な役割を果たしています。最初の2つの分野においては、有機的で多様な出力テキストを作成するために不可欠な存在です。 想像してしてみてください。あるチャットボットの挨拶が

Read More »

Megagon Team Profile : 史 宏杰リサーチエンジニア

Megagon Labs Tokyoのメンバーズ・ボイスへようこそ! 連載4 回目となる今回は、東京オフィスで知的対話システムを担当するリサーチエンジニアの 史 宏杰 さんがMegagon Labsに至るまでのバックグラウンド、興味・関心や現在取り組まれているプロジェクト、そしてリサーチエンジニアとして挑戦し続ける秘訣に迫ります。 これまでの経歴と、Megagon Labsにジョインした理由を教えてください

Read More »