会話シーン分析の研究
Conversation Scene Analysis
私どもは現在,複数の人が会話している場面をカメラやマイク,センサなどで観測し,得られた情報から自動的に会話の状況を推定することができる技術の研究を進めています.現在まで,認識や推定の対象としているものは,
・誰が話をしているのか?
・誰が誰を見ているのか?
・誰が誰に向かって話し掛けているのか?誰が誰の話を聞いているのか?
・誰が誰に反応しているのか?
・誰が誰に強い影響を与えているのか? 誰が誰から強い影響を受けているのか?
などです.これらは人間にとっては,いとも簡単な事ですので,コンピュータにとっても簡単なタスクのように思えますが,実はそう簡単なものではありません.現在はこれら低次の情報の推定しかできませんが,将来的には,「誰が彼を怒らせたのか?」「何故,彼女は泣いているのか?」などより高次の人間のコミュニケーションが理解できるコンピュータの実現を目指しています.こうした技術は,会議の自動議事録の作成,遠隔地間の会議を効率的に進めるため自動映像編集などへの応用が考えられる他,人間社会に参画できるロボットの構築にも不可欠なものとなると期待されています.
当方で行っている会話シーン分析の紹介としては,現時点(2007年12月)の時点では,VNVの発表のページが一番,まとまっています.
なお,その他,文献については,文献リストのページもご参照頂けたらと思います.
2004年以前
会話シーンの映像編集を会話参加者の視線方向を使って行う方法について部下の方への指導を通して研究していました.
2005年
4人会話を対象として,会話参加者の視線方向を手掛かりとして,会話の構造(「誰が誰に話しているか?」など)を推定する方法を提案しました.こちらは,京都大学の西田先生の会話情報学の国際ワークショップで最初に発表させていただいた後,ICMI2005や情報処理学会論文誌にて発表をしました.
A Probabilistic Inference of Multiparty-Conversation Structure Based on Markov-Switching
Models of Gaze Patterns, Head Directions, and Utterances
ACM Int. Conf Multimodal Interfaces (ICMI)'05, October, 2005.
[Abstract][Paper][Presentation][Movies]
2006年
昨年の方法は,頭の方向を計測するためにセンサーを装着していましたが,それを画像上での顔のトラッキングに置き換える方法を考え,ICME2006とMIRU2006で発表しました.また,MITに見学に行った際,そちらのセミナーでもお話させていただきました.また,人工知能学会のSLUD研究会でも講演させて頂くことができました.
Conversation Scene Analysis with Dynamic Bayesian Network based on Visual Head
Tracking
IEEE ICME'06, July, 2006
[Demo movies]
Modeling and Probabilistic Inference of Conversation Structures in
Multiparty Face-to-Face Setting based on Visual Head Tracking
MIRU 2006, July 2006
Note: Japanese Domestic Conference. Content is the same as ICME'06
[Demo movies]
Communication Scene Analysis based on Probabilistic Modeling of Human Gaze
Behavior
MIT CSAIL HCI Seminar Series Spring 2006
[Abstract][Presentation]
また,これまで提案した方法で推定された会話の構造と視線の方向を使って,何か会話に関する情報が得られないか考えたところ,会話の中で誰が誰に強い影響を与えているか計る尺度を考えて,CHIでポスターを発表しました.
Quantifying Interpersonal Influence in Face-to-face Conversations based on
Visual Attention Patterns
ACM CHI (Work-In-Progress Session), April, 2006
[Abstract][Paper][Poster]
2007年
昨年までの方法を拡張して,「誰が誰に対して反応をしているのか」という行動・反応の関係を推測する方法を考案し,ICMI2007にて発表しました.その結果,ありがたくも賞をいただくことができました.
Automatic Inference of
Cross-modal Nonverbal Interactions in Multiparty Conversations
Proc. ACM ICMI2007, Nov. 2007.
[Abstract][Paper][Presentation][Movies]
電子情報通信学会の第3種研究会 ヴァーバル・ノンヴァーバル・コミュニケーション研究会の11月の研究会にて招待講演の機会を頂きました.
ノンバーバル行動に基づく会話構造の確率的推論 ―対面会話シーンの自動的な認識・理解に向けて―
ヴァーバル・ノンヴァーバル・コミュニケーション研究会,2007年11月30日.東大本郷キャンパス
[Abstract][Presentation][Movies]
また,名古屋大学の間瀬先生が主催される非言語知識研究会において講演をさせて頂きました.
非言語行動の観測に基づく対面会話シーンの認識・理解
非言語知識研究会 第3回研究会 2007年12月5日.
[Presentation PDF
(360kB)]
その他,最近では実習生と一緒に,顔トラッキングの高速化・高精度化や,顔の表情を認識する方法の研究を進めています.顔のトラッキングに関しては今年のMIRUにてデモを行いました.
Simultaneous Real-time 3D Visual Tracking of Multiple Objects using a Stream
Processor
画像の認識・理解シンポジウム(MIRU2007)DS-01
(2007)
[Paper]
表情認識については,同じく今年のMIRUでポスター発表をした他,9月のCVIM研究会,11月のACCVにて発表を行いました.ありがたくもACCVでは論文が表彰されました.
Pose-Invariant Facial Expression Recognition Using Variable-Intensity
Templates
Proc. Asian Conference on Computer Vision, 2007
[第一著者の熊野氏のホームページへ]
2008年
人工知能学会SLUD研究会の3月の回にて口頭発表を行いました.内容は,昨年のICMI2007の日本語版です.
複数人会話における非言語インタラクション構造の推定 −誰が誰にどのように反応しているか?−
人工知能学会SLUD研究会(言語・音声理解と対話処理研究会)2008年3月7日(金)
2008年4月に米国ラスベガスで開催されたICASSP2008にて論文発表を行いました.内容は,GPUを使った顔方向追跡についての提案です.
Simultaneous and Fast 3D Tracking of Multiple Faces in Video by GPU-based
Stream Processing
ICASSP2008(IEEE The 33rd International Conference on Acoustics, Speech, and
Signal Processing)
[関連情報]
また,顔方向追跡に関する論文がSpringerのサイトで公開されました(2008年7月12日)
Real-time visual tracker by Stream processing ---Simultaneous and fast 3D
tracking of multiple faces in video sequences by using a particle filter ---
Journal of VLSI Signal Processing Systems
(Freely downloadable from http://www.springerlink.com/content/pk22n1632859082k/
)
[追加情報]
この論文について幾つかのWebサイトにて取り上げていただきました.
NVIDIA
CUDA ZONE
GPGPU
Homepage
Geeks3D.com
Impress
PC-watch, NVISION08レポート
2008年5月29日〜30日
NTT CS研オープンハウスx未来想論2008にて,実時間マルチモーダル会話シーン分析のデモシステムの展示を行いました.また,未来想論2008のパネルディスカッション「コミュニケーションを理解する−分析手法,技術,未来へのビジョン−」に,パネリストとして登壇いたしました.
・オープンハウスx未来想論2008に関する研究所の公式ホームページはこちらです.
ビデオアーカイブ,資料なども公開されています.
・デモシステムの概要についてはこちら
・音声などの要素技術についてはこちらページで紹介しています.
・顔方向追跡についてはこちらのページで紹介しています.
2008年9月9日,オランダ,ユトレヒトにて開催されるMLMI2008にて,発表を行います.我々の顔方向追跡法を会話シーン分析に適用して,その有効性を確認したという内容です.
Fast and Robust Face Tracking for Analyzing Multiparty Face-to-Face Meetings
5th Joint Workshop on Machine Learning and Multimodal Interaction (MLMI2008)
[Paper][Presentation][Demo
Movies]
2008年10月にギリシャ,クレタ島にて開催されるICMI2008にて論文発表を行います.内容は,今年5月のオープンハウスにて展示した実時間マルチモーダル会話シーン分析のデモシステムの技術に関するものです.
A Realtime Multimodal System for Analyzing Group Meetings by Combining Face
Pose Tracking and Speaker Diarization
Proc. ACM 10th Int. Conf. Multimodal Interfaces (ICMI2008)
[Paper][Presentation][Demo
Video]
2008年11月に大阪大学で開催される電子情報通信学会 MVE研究会にて研究発表を行いました.内容は,ICMI2008にて発表したデモシステムに関するものを日本語にしたものです.今回,始めてデモシステム(ノートPC版)を現地に持参し,発表中に簡単なデモをしました.こちらの発表に対して,後日,MVE賞の授与が決定されました.
多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築
〜 マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合
マルチメディア・仮想環境基礎研究会 (MVE)
2008年12月,計測自動制御学会 システムインテグレーション部門講演会 人物画像処理セッションにおいて基調講演を行いました.
画像認識に基づくコミュニケーションシーンの分析・理解
2009年
2009年6月4日〜5日
NTT CS研オープンハウスx未来想論2009が行われました.今年は新型インフルエンザの影響で,当初予定されていた実地開催に代わり,オンライン開催となりました.各展示項目毎にムービーを公開いたしました.
http://www.kecl.ntt.co.jp/openhouse/2009/theme/b1/index.html 会話の流れが一目瞭然
また,「人と人との会話を解き明かす 〜コミュニケーションを科学する映像音声技術」と題した研究講演を行いました.
http://www.kecl.ntt.co.jp/openhouse/2009/
2009年6月22日
米国マイアミビーチにおいて開催されたCVPR2009にて,新しいパーティクルフィルタに関する論文発表(口頭)を行いました.第一著者の三上君に代わって大塚が発表しました.
Dan Mikami, Kazuhiro
Otsuka, and Junji Yamato, “Memory-based
particle filter for face pose tracking robust under complex dynamics”, in
Proc. IEEE Conference on Computer Vision and Pattern Recognition 2009
(CVPR2009)
論文はこちらから
http://www.brl.ntt.co.jp/people/dan/demo/cvpr09/CVPR2009paper.pdf,
デモムービーはこちらから http://www.brl.ntt.co.jp/people/dan/demo/cvpr09/
見ることができます.
2009年7月20日
島根県松江にて開催されたMIRU2009において,新しいパーティクルフィルタに関する論文発表を行いました.内容はCVPR09の日本語版です.こちら光栄にもMIRU優秀論文賞を頂きました.
三上 弾,大塚和弘,大和淳司,「頑健な顔姿勢追跡のための状態履歴の記憶に基づくパーティクルフィルタ」, 画像の認識・理解シンポジウム2009
2009年10月4日
京都にて開催されたICCV2009併設の国際ワークショップ
HCI2009 (IEEE
International Workshop on Human-Computer Interaction)において,基調講演(招待講演)を行いました.
Kazuhiro
Otsuka: “Understanding How People
Communicate With Each Other: Multimodal Approach for Modeling and Recognizing
Multiparty Face-to-Face Conversations”
2009年11月2日〜6日
米国MITにて開催された ICMI-MLMI2009 (The Eleventh
International Conference on Multimodal Interfaces and the Sixth Workshop on
Machine Learning for Multimodal Interaction)において,論文発表,及び,デモ展示を行いました.今年は,始めて我々のプロジェクトから複数件の発表をすることができました.
・K. Ishizuka, S. Araki, K.
Otsuka, T. Nakatani, and M. Fujimoto: “A
Speaker Diarization Method based on the Probabilistic Fusion of Audio-Visual
Location Information” , Proc. ACM ICMI-MLMI2009
・S. Kumano, K.
Otsuka, D. Mikami, and amato, “Recognizing
Communicative Facial Expressions for Discovering Interpersonal Emotions in
Group Meetings”, Proc. ACM ICMI-MLMI2009
Demo Session:
・K.
Otsuka, S. Araki, D. Mikami, K. Ishizuka, M.ujimoto, and J. Yamato: “Realtime Meeting Analysis and 3D Meeting
Viewer Based on Omnidirectional Multimodal Sensors”, Proc. ACM ICMI-MLMI2009
2009年12月3日
パシフィコ横浜で開催されたViEW2009(ビジョン技術の実利用ワークショップ)において,下記タイトルにて基調講演(招待講演)を行いました.
「人と人とのコミュニケーションを理解する 〜マルチモーダル情報処理による会話シーン分析〜」
著作者の事前の許可なしに当ウェブサイトのコンテンツの改変,再配布,再利用を禁止いたします.
Any reproduction, modification, distribution, or republication of materials
contained on this Web site, without prior explicit permission of the copyright
holder, is strictly prohibited.
All rights reserved, Copyright(C) 2005, 2006, 2007, 2008, 2009 NTT Communication Science Laboratories