Megagon Labs Tokyoのメンバーズ・ボイスへようこそ! 連載3 回目となる今回は、東京オフィスで画像認識技術を担当するリサーチエンジニアの 田中 郁 さんがMegagon Labsに至るまでのバックグラウンド、興味・関心や現在取り組まれているプロジェクト、そしてリサーチエンジニアとして走り続ける秘訣に迫ります。
これまでの経歴と、Megagon Labsにジョインした理由を教えてください
北陸先端科学技術大学院大学で博士号を取得し、その後日系メーカーで新サービスの開発と企画に携わりました。技術の社会実装に強い関心があったため、より事業企画に近い場所で働きたいと思いリクルートホールディングスにジョインし、新規事業開発部門のエンジニアリードとして様々なプロジェクトに従事しました。その後、Megagon Labs(*注)が発足するタイミングで異動して今に至ります。Megagon Labsに参加した理由としては、最先端の技術開発に取り組むことで事業の成長に貢献するという大きなミッションに挑戦できそうだったからです。
現在取り組んでいる仕事・研究を教えてください
最近では文書画像からの情報抽出という古くて新しい課題に取り組んでいます。世の中には紙(と紙を画像化したもの)で流通する文書がまだまだ多いのですが、コンピュータの力を借りてこれらの文書を利活用しようとした場合、「どうやってデータ化するのか」という課題があります。
テキスト情報を得たいだけであれば、OCR (光学文字認識) の性能も以前と比べ大きく上がっているため、文字起こしは容易になりつつあります。しかし、OCR処理だけでは文書上のレイアウトで規定されている意味的な情報が抜け落ちてしまいます。
例えば、多くのビジネス文書ではそのフォーマットやレイアウトそのものに意味があります。そして人間はそれらの形式に応じて重要な情報が文書上のどこにどのように記載されているのかを簡単に理解することができます。一方コンピュータの場合、このタスクを再現することは難しいため、文書上に存在する様々な情報の中から、本当に必要な情報を人間が指定したり確認する必要があります。
こうした課題を機械で解決するためには、文書上のどこに何がどう記載されているかを機械がわかるようにする必要があります。そのために画像上に記されているテキストや画像などの領域を分類し、理解し、抽出できる手法に取り組んでいます。
この取り組みを始めるきっかけとなったのは現場のエンジニアからの相談でした。先ほども述べましたが、最近ではOCRの性能も以前と比較して大幅に向上しています。その一方、実際のサービス開発現場を見据えたとき、それらの技術だけでは対処しきれない種々の課題があります。これらの課題を解決するために力になりたいとの思いから、現在、このテーマに取り組んでいます。
少し極端な表現になるかもしれませんが、個人的には技術そのものの優先順位は2番目で良いと考えています。私にとって最も大事なことは、どんな社会課題や事業課題があるのか、そしてそれをどのように解決すれば良いのか?を考えることなので、現在の取り組みが実際のサービスに役立つよう今後もこのプロジェクトを進めていきます。
Megagon Labsで働く魅力と、今後の目標を教えてください
Megagon Labs(*注)で働く魅力の一つは技術者の裁量の大きさです。私たちのチームでは目標が最優先であり、その目標を達成するための手法は自分達で選ぶことができます。例えば他の組織では手法そのものが規定され、技術者にとって窮屈な思いをすることもあるかと思いますが、私たちのチームでは「このやり方でやれ」という制約がありません。その観点では非常に働きやすく感じています。
今後の目標に関しては、AIが勝手に何かやってくれる世界観も良いのですが、人と機械の相互作用でより創造的に物事に取り組む世界観が好みだったりもするので、そういう取り組みをしていきたいと考えています。
今後、情報抽出の技術が進歩して文書のデータ化を機械が担保してくれることで、人がこれまでに作成した膨大で多種多様な文書を元に再構築・再編集することができるようになるでしょう。その結果、これまでにない新しい形の表現が生まれるかもしれません。
イメージとしてはDJが近いかもしれませんね。彼らはレコードという過去の音源を様々な形で自分なりに解釈し、アレンジして新しい音楽を創造します。このようなリミックス文化を技術の分野でも実現したいのかもしれません。
リサーチエンジニアとして活動するにあたりアドバイスなどがあればお願いします
「これは研究です、エンジニアリングです」といった役割を自分で決めすぎたり、どちらかに逃げ込んだりしないことが重要だなと個人的には思います。スペシャリストがチームにいれば勿論協力をお願いしつつも、不足する部分や先んじてやった方が良い箇所は自らどんどん前進させる姿勢が必要だと思っています。
私自身リサーチエンジニアという肩書きではありますが、自分の中では線引きはしていません。自分の役割を先に規定してしまうと目標の達成やプロジェクト・事業の成長に合わせて柔軟に動くことが難しくなってしまいます。私のキャリアとして研究を経たのちエンジニアになったというバックグラウンドがあるので、両方のスタンスを行き来できることが技術の社会実装のためには非常に重要だと考えています。
ただこの両方をこなすことは非常に大変なので、それぞれのサイドに常に高くアンテナをはっておくことがとても重要です。私自身は、研究サイドの情報収集は学会等を活用してソースがしっかりした情報を入手する、エンジニアリングに関しては玉石混合にはなりますがSNSなども活用して最新のトレンドを把握しています。
そして少し角度が異なるアドバイスになるのですが ”プログラミングしないこと” も大事ですね。技術やプログラミング “以外” のことに目を向けるのが、技術の社会実装のためには重要です。多岐にわたる考え方が世の中にあるので、これはあくまで私自身の考え方なのですが、技術そのものはあくまで手段であって目的ではないという柔軟性は忘れないようにしています。特定の技術に固執してしまうと実社会での技術応用は非常に難しくなってしまうためです。
世の中を広く見渡して、色々な経験をして、変なものを見聞きして、それらの経験を通して自分の技術を活かせる分野や課題を探すことが大事です。そしてある課題を見つけたのであれば、その課題を解決するためにはどんな障壁があるのか、どんな現状維持のバイアスが働いているのかを考えます。それらの制約は非常に強固なことも多いので、解決可能なサイズに小分けにしていくことがとても大事です。
最後に、大学院で博士号を取得することも最近ではお勧めしています。ようやく日本でも博士課程修了者が企業で働く上で不利にならない状況になりつつあるので、しっかり勉強して研究に取り組むことも非常に価値があると考えています。
最後に日本のお勧めスポットなどを教えてください
入社以降ほぼ銀座勤務なのですが、夜はそれなりの値段のお店でも昼は比較的リーズナブルな価格で幸せなランチタイムが過ごせるのでおすすめです。開拓する甲斐があって楽しいですよ。ただ、最近はパンデミックの影響でなかなか外食が難しいので早く収まって欲しいですね。
(話者: 田中 郁 / インタビュアー: Megagon Labs Tokyo)
(*注)Megagon Labs Tokyoは株式会社リクルートの研究チームです。