会話シーン分析の研究
Conversation Scene Analysis
昨年の方法は,頭の方向を計測するためにセンサーを装着していましたが,それを画像上での顔のトラッキングに置き換える方法を考え,ICME2006とMIRU2006で発表しました.また,MITに見学に行った際,そちらのセミナーでもお話させていただきました.また,人工知能学会のSLUD研究会でも講演させて頂くことができました.
Conversation Scene Analysis with Dynamic Bayesian Network based on Visual
Head Tracking
IEEE ICME'06, July, 2006
[Demo movies]
Modeling and Probabilistic Inference of Conversation Structures in Multiparty
Face-to-Face Setting based on Visual Head Tracking
MIRU 2006, July 2006
Note: Japanese Domestic Conference. Content is the same as ICME'06
[Demo movies]
Communication Scene Analysis based on Probabilstic Modeling of Human Gaze
Behavior
MIT CSAIL HCI Seminar Series Spring 2006
[Abstract][Presentation]
また,これまで提案した方法で推定された会話の構造と視線の方向を使って,何か会話に関する情報が得られないか考えたところ,会話の中で誰が誰に強い影響を与えているか計る尺度を考えて,CHIでポスターを発表しました.
Quantifying Interpersonal Influence in Face-to-face Conversations based
on Visual Attention Patterns
ACM CHI (Work-In-Progress Session), April, 2006
[Abstract][Paper][Poster]
著作者の事前の許可なしに当ウェブサイトのコンテンツの改変,再配布,再利用を禁止いたします.
Any reproduction, modification, distribution, or republication of materials
contained on this Web site, without prior explicit permission of the copyright
holder, is strictly prohibited.
会話シーンの映像編集を会話参加者の視線方向を使って行う方法を当時CS研に在籍していた竹前嘉修さんと一緒に研究していました.
A Probabilistic Inference of Multiparty-Conversation Structure Based on
Markov-Switching Models of Gaze Patterns, Head Directions, and Utterances
ACM Int. Conf Multimodal Interfaces (ICMI)'05, October, 2005.
[Abstract][Paper][Presentation][Movies]
4人会話を対象として,会話参加者の視線方向を手掛かりとして,会話の構造(「誰が誰に話しているか?」など)を推定する方法を提案しました.こちらは,京都大学の西田先生の会話情報学の国際ワークショップで最初に発表させていただいた後,ICMI2005や情報処理学会論文誌にて発表をしました.
私どもは現在,複数の人が会話している場面をカメラやマイク,センサーなどで観測し,得られた情報から自動的に会話の状況を推定することができる技術の研究を進めています.現在まで,認識や推定の対象としているものは,
・誰が話をしているのか?
・誰が誰を見ているのか?
・誰が誰に向かって話し掛けているのか?誰が誰の話を聞いているのか?
・誰が誰に反応しているのか?
・誰が誰に強い影響を与えているのか? 誰が誰から強い影響を受けているのか?
などです.これらは人間にとっては,いとも簡単な事ですので,コンピュータにとっても簡単なタスクのように思えますが,実はそう簡単なものではありません.現在はこれら低次の情報の推定しかできませんが,将来的には,「誰が彼を怒らせたのか?」「何故,彼女は泣いているのか?」などより高次の人間のコミュニケーションが理解できるコンピュータの実現を目指しています.こうした技術は,会議の自動議事録の作成,遠隔地間の会議を効率的に進めるため自動映像編集などへの応用が考えられる他,人間社会に参画できるロボットの構築にも不可欠なものとなると期待されています.
当方で行っている会話シーン分析の紹介としては,現時点(2007年12月)の時点では,VNVの発表のページが一番,まとまっています.
なお,その他,文献については,文献リストのページもご参照頂けたらと思います.
昨年までの方法を拡張して,「誰が誰に対して反応をしているのか」という行動・反応の関係を推測する方法を考案し,ICMI2007にて発表しました.その結果,ありがたくも賞をいただくことができました.
Automatic Inference of Cross-modal Nonverbal Interactions in Multiparty
Conversations
Proc. ACM ICMI2007, Nov. 2007.
[Abstract][Paper][Presentation][Movies]
電子情報通信学会の第3種研究会 ヴァーバル・ノンヴァーバル・コミュニケーション研究会の11月の研究会にて招待講演の機会を頂きました.
ノンバーバル行動に基づく会話構造の確率的推論 ―対面会話シーンの自動的な認識・理解に向けて―
ヴァーバル・ノンヴァーバル・コミュニケーション研究会,2007年11月30日.東大本郷キャンパス
[Abstract][Presentation][Movies]
また,名古屋大学の間瀬先生が主催される
非言語知識研究会において講演をさせて頂きました.
非言語行動の観測に基づく対面会話シーンの認識・理解
非言語知識研究会 第3回研究会 2007年12月5日.
[Presentation PDF (360kB)]
その他,最近では実習生と一緒に,顔トラッキングの高速化・高精度化や,顔の表情を認識する方法の研究を進めています.顔のトラッキングに関しては今年のMIRUにてデモを行いました.
Simultaneous Real-time 3D Visual Tracking of Multiple Objects using a Stream
Processor
画像の認識・理解シンポジウム(MIRU2007)DS-01 (2007)
[Paper]
表情認識については,同じく今年のMIRUでポスター発表をした他,9月のCVIM研究会,11月のACCVにて発表を行いました.ありがたくもACCVでは論文が表彰されました.
Pose-Invariant Facial Expression Recognition Using Variable-Intensity Templates
Proc. Asian Conference on Computer Vision, 2007
[第一著者の熊野氏のホームページへ]
人工知能学会SLUD研究会のの3月の回にて口頭発表を行いました.内容は,昨年のICMI2007の日本語版です.
複数人会話における非言語インタラクション構造の推定
−誰が誰にどのように反応しているか?−
人工知能学会SLUD研究会(言語・音声理解と対話処理研究会)2008年3月7日(金)
2008年4月に米国ラスベガスで開催されたICASSP2008にて論文発表を行いました.内容は,GPUを使った顔方向追跡についての提案です.
Simultaneous and Fast 3D Tracking of Multiple Facesin Video by GPU-based
Stream Processing
ICASSP2008(IEEE The 33rd International Conference on Acoustics, Speech, and Signal Processing)
[Paper][Presentation]
また,顔方向追跡に関する論文がSpringerのサイトで公開されました(2008年7月12日)
Real-time visual tracker by Stream processing ---Simultaneous and fast
3D tracking of multiple faces in video sequences by using a particle filter
---
Journal of VLSI Signal Processing Systems
(Freely downloadable from http://www.springerlink.com/content/pk22n1632859082k/ )
この論文について幾つかのWebサイトにて取り上げていただきました.
NVIDIA CUDA ZONE
GPGPU Homepage
Geeks3D.com
Impress PC-watch, NVISION08レポート
2008年5月29日〜30日
NTT CS研オープンハウスx未来想論2008にて,実時間マルチモーダル会話シーン分析のデモシステムの展示を行いました.また,未来想論2008のパネルディスカッション「コミュニケーションを理解する−分析手法,技術,未来へのビジョン−」に,パネリストとして登壇いたしました.
・オープンハウスx未来想論2008に関する研究所の公式ホームページは
こちらです.
ビデオアーカイブ,資料なども公開されています.
・デモシステムの概要については
こちら
・音声などの要素技術については
こちらページで紹介しています.
2008年9月9日,オランダ,ユトレヒトにて開催されるMLMI2008にて,発表を行います.我々の顔方向追跡法を会話シーン分析に適用して,その有効性を確認したという内容です.
Fast and Robust Face Tracking for Analyzing Multiparty Face-to-Face Meetings
5th Joint Workshop on Machine Learning and Multimodal Interaction (MLMI2008)
[Paper][Presentation][Demo Movies]
2008年10月にギリシャ,クレタ島にて開催されるICMI2008にて論文発表を行います.内容は,今年5月のオープンハウスにて展示した
実時間マルチモーダル会話シーン分析のデモシステムの技術に関するものです.
A Realtime Multimodal System for Analyzing Group Meetings by Combining
Face Pose Tracking and Speaker Diarization
Proc. ACM 10th Int. Conf. Multimodal Interfaces (ICMI2008)
[Paper][Presentation][Demo Video]
2008年11月に大阪大学で開催される電子情報通信学会 MVE研究会にて研究発表を行います.内容は,ICMI2008にて発表したデモシステムに関するものを日本語にしたものです.
可能であればデモシステム(の一部)を現地に持って行くかも知れません.
多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築
〜 マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合
マルチメディア・仮想環境基礎研究会 (MVE)