実時間マルチモーダル会話分析システム

Back to home page

【システムの概要】
  2008
5月,NTTコミュニケーション科学基礎研究所は,マルチモーダル会話シーン分析のデモシステムを開発し,CS研オープンハウス2008において展示を行いました.このシステムは,複数の人間が対面でおこなう会話を対象とし,全方位カメラ・マイク統合システムによって会話の場面を観測し,そこで得られた画像情報から各人物の位置と顔の向きを計測し,また,マイクにより得られる音響信号から人の発話の区間とその方向を推定します.これらの情報を統合することで,「いつ誰が誰に向かって話したか?」「誰が注目を集めていたか?」といった会話の状況をリアルタイムに推定し,その結果を可視化することができます.また,撮影した画像,音声,及び,推定した結果を記録し,後で再生することも可能です.本システムは,他の類似システムと比較して,リアルタイムで動作する点が大きな特徴となっています.このリアルタイム化のため,GPUを用いた顔向き追跡法を新たに開発し,それにより実時間での複数人物の顔の向き推定が可能となりました.
  
このデモシステムは,我々が現在進めている会話シーン分析の研究の一環として開発したもので,れまでの研究成果の一部をリアルタイム動作するよう実装したものです.今後,さらなる改良・拡張を予定しております.
  
また,会話シーン分析に関する研究の流れはこちらのページで紹介しています.文献リストはこちらです.また,音声系の要素技術については,こちらのページで紹介しております.

 

会話シーンとデモシステムの動作の様子.
手前のモニタに処理結果がリアルタイムに表示されます.

ムービー(トラッキングの結果を表示 (wmv 形式) 3.1MB

ムービー (wmv形式) 1.9MB

このデモムービーは,システムの表示画面を別のビデオカメラでモニターを撮影したものです.リアルタイムに動いていることが確認できます.

【全方位カメラ・マイク統合システム】

このカメラ・マイクシステムは,2つのカメラと3つのマイクから構成されています.各カメラには魚眼レンズが装着されており,各々およそ半球の領域が撮影できます.このカメラを背中合わせに配置することで,およそ全周の領域が撮影できます.3本マイクは,カメラの上部,三角形の頂点状に配置されており,マイクアレーを構成しています.

この(準)全方位カメラは,ミラーを使った全方位カメラと比較して高品質な画像が得られることが利点です.また,複数のカメラを一つの筐体に統合したもの(例:PointGreyResearch社のLadybug2など)と比較して,画像の切れ目の不連続部分が2箇所に押さえられている点も利点です.ただし,この切れ目部分では観測できない領域があり,ここが本カメラシステムの弱点です.

【処理の流れ】

【処理結果の可視化1:パノラマ表示】

ムービー (wmv形式)

この図は,2つのカメラに対応するパノラマ画像をそれぞれ上下に表示しており,顔追跡の結果として得られる各人物の顔の位置と向きが緑色のメッシュで表されています.さらに,横軸上の赤い丸が音声到来方向を,顔の周囲の赤い枠が発話状態を表しています.

【処理結果の可視化2:俯瞰表示】

(a)ムービー.円柱表示の例(wmv形式

(b)ムービー.切り出し表示の例(wmv形式)

(c),(d)ムービー(3次元マウスによる視点の操作) (wmv形式)

上の図は,会話シーン分析の結果を3次元的に表現したものです.(a)では会話の場面を上部から俯瞰するように各人の顔画像を切り出して表示しています.また,画面中央に会話シーン分析の結果が図示されています.各人物の位置はオレンジ色の丸として,また,発話をしている人物は赤丸として表示されます.また,図中,青い三角錐は,顔方向から示唆される各人物の視野範囲を表しています.(b)は各人の顔画像を切り出して表示をしたものです.矢印は対人視線方向の推定結果を表しています.さらに,二人以上から注目を集めている人物には白い丸が付加されています.さらに(c),(d)のように,3次元マウスによりユーザの所望の人物をクローズアップして表示することもリアルタイムでできます.

【オープンハウス08の会場の様子】

2008529日〜30日に京阪奈CS研にて開催されたオープンハウス2008では,多くのお客様にご来場頂き,実際にデモシステムを体験していただきました.

 

左:デモ会場の様子.説明員がシステムの説明をしながら,来場者にデモシステムの動作を体験していただいているところ.

右:システムがリアルタイムに出力している画面を他地点(デモ会場の直ぐ外の廊下)に中継して,その画面やパネルを使って説明している所

 

【紹介ムービー】

近日公開予定

【将来展望】
  
今回提案したデモシステムを発展させることで,将来的には,会議のマルチメディア議事録の自動作成や,遠隔映像会議システムの自動カメラワーク,ひいては人間同士の会話に参加できるロボットやエージェントなど,より円滑なコミュニケーションを支援する技術の実現を目指します.また,頷きや顔の表情,声のトーンなど,より豊富なマルチモーダル情報を取り入れていくことで,人と人とのコミュニケーションをより深く理解できるようなシステムへと発展させていく予定です.

【新聞記事】
・映像新聞 200869日 1面,11
・日刊工業新聞610日 「注目度分かります.全方位カメラなど利用.NTTコム科研がシステム」
【解説記事】
・大塚,荒木:「コミュニケーションを理解する音声・映像技術」,ITUジャーナル 20088月号(Vol. 38, No.8,pp.5--72008
【学会発表】
K. Otsuka, S. Araki, K. Ishizuka, M. Fujimoto, M. Heinrich, and J. Yamato, "A Realtime Multimodal System for Analyzing Group Meetings by Combining Face Pose Tracking and Speaker Diarization", Proc. ACM 10th Int. Conf. Multimodal Interfaces (ICMI2008) 10月発表予定
・大塚,荒木,石塚,藤本,大和:「多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 〜 マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合」,電子情報通信学会マルチメディア・仮想環境基礎研究会 (MVE) 200811月発表予定

Back to home

著作者の事前の許可なしに当ウェブサイトのコンテンツの改変,再配布,再利用を禁止いたします.
Any reproduction, modification, distribution, or republication of materials contained on this Web site, without prior explicit permission of the copyright holder, is strictly prohibited.

All rights reserved, Copyright(C) 2005, 2006, 2007, 2008 NTT Communication Science Laboratories