2007年11月30日 東京大学 本郷キャンパス
ノンバーバル行動に基づく会話構造の確率的推論
―対面会話シーンの自動的な認識・理解に向けて―
次に,より詳細に会話の構造を分析するため,「誰が誰に何時どのように応答したか」という会話中の行動・応答の関係を推測するという問題に着目した[5].こ こでは,会話参加者の非言語行動として,新たに視線,発話に加えて,頷き,傾げ,首振りといった頭部ジェスチャを導入した.また,行動・応答の形態とし て,発話に対する発話による応答の他,発話に対する頷きによる応答など,発話と頭部ジェスチャ間のモーダル横断的なインタラクションを対象とし,それら行 動の因果関係を確率的に推測するという問題を定式化した.この問題の解決のため本研究では,「どの行動がどの行動に起因しているか」という行動間の因果関 係を有向グラフとして表現し(これをインタラクションネットワークと呼ぶ),このグラフの構造が,より上位の会話構造(会話レジーム)と視線パターンによ り確率的に決定されるという階層構造をもつモデルを考案した[5].また,このモデルには,「聞き手は話し手に対してしばし相槌や頷きにより応答する」というよ うな会話構造や参加者の役割に応じて出現しやすい行動の傾向が組み込まれており,さらに,発話や頭部ジェスチャの継続時間長や,引き金となる行動から応答
が現れるまでの反応時間の分布も陽にモデル化されている.このようなモデルに基づいて,観測データとして入力される頭部方向の時系列,及び,発話区間,頭
部ジェスチャ区間の集合から,インタラクションネットワーク,会話構造,及び,視線パターンが同時に推測される.なお,我々は,頭部姿勢角の時系列データ
から頭部ジェスチャ区間を検出するための新しい方法も併せて提案している[5].また,前述の4人会話を対象とした実験を行い,人手で付与したラベルとの照合に より評価を行っている.このように推測されたインタラクションネットワークは,会話に関する豊富な情報を含み,心理系の会話分析研究に対して様々な情報を
提供するものと目される.例えば,隣接ペア分析のマルチモーダル拡張や,複数人物間の行動の同時性・同期性の分析,会話参加者間の対人影響力,興味の度合
い,意見の一致・相違の度合い,グループの合意形成過程の分析などへの応用が考えられる.
本講演では,著者らが進めている会話シーンの認識・理解に関する研究を紹介する.本研究では,複数人物による対面会話を対象として,会話参加者の非言語
行動から会話の構造を自動的に推測することを目標としている
[1].ここでは,会話の構造を,会話中における参加者間でのメッセージの伝達・交換の様態として捉 える.これは概ね「誰が誰に話しかけているか」「誰が誰の話を聞いているか」ということに相当する.本研究では,このような会話構造の推測の手掛かりとし
て,視線やジェスチャなどの非言語的な行動に着目している.また,会話現象をある種の確率的な事象とみなし,観測された非言語行動と会話構造との関係を表
す確率モデルを構築し,このモデル(会話モデルと呼ぶ)に基づき,マルコフ連鎖モンテカルロ法により会話構造のベイズ推定を行うという方法論を採用してい
る.また,本研究では,会話参加者の非言語行動をカメラ,マイクロフォン,センサなどを用いて自動的に認識・推定する技術の確立も併せて目標としている.
まず,研究を始めるにあたり,我々は,数ある非言語行動の中でも特に視線に着目した
[2,3].これは,対面会話中によくみられる「聞き手は話し手を見る」「話し 手は聞き手を見る」といった視線の振る舞いが,会話の構造を知る上で大きな手掛かりとなると考えた所以である.まず,分析のためのデータとして,同年代の 女性4人による会話を収録した.この収録にあたっては,音声収録用にピンマイク,頭部方向の計測用に磁気式センサをそれぞれ各人に装着し,また,各人の顔画像を各々1台以上のカメラを用いて撮影した.その後,この顔画像を用いて,視線の方向のラベル付けを行い,それに基づいて会話中の各人の視線の方向,及 び,全参加者の視線方向が形成するパターンを分析した.その結果,一人物への視線の集中のパターン,及び,二者間の相互凝視のパターンが頻出していること を見出し,そこから視線のパターンにより会話の構造が示唆されるという仮説を立てた.具体的には,一人の人物への視線の集中のパターンは,話し手から聞き 手への一方向的な情報伝達(いわゆるモノローグ)を示唆し,二者間の相互凝視のパターンは,その二者間に閉じた双方向性の情報交換の現れであると考えた. このような仮説に基づいて,動的ベイジアンネットと呼ばれる一種の確率モデルを構築した.このモデルは,会話の場ともいうべき,会話構造に対応した上位の プロセス(会話レジームと呼ぶ)が,下位に位置する参加者の行動(視線の方向と発話の有無)を制御するという階層構造をもつ.また,視線の方向を自動的に 計測することは困難であるため,代わりに頭部方向を観測データとして入力し,そこから視線の方向をモデル中の未知変数として推測するという方針をとった. このようなモデルを利用し,頭部方向と発話の有無の時系列から,会話の各時刻における参加者の視線方向と会話構造を同時に推定する方法を考案した
[2,3].また, 推定された会話構造に基づいて,会話参加者間での影響量の大小や,会話全体のインタラクティブ性・活性度などを定量化する尺度も提案している
[4].
さらに,我々は現在,会話シーン認識・理解の応用システムの実現に向けて,カメラ[6,7]やマイクロフォン[8]により得られる画像・音声情報から,人物の行動を認識・推定する技術の開発にも取り組んでいる.その一例として,時間に余裕があれば,GPU(Graphics
Processing Unit)を用いて複数人物の顔画像を高速に追跡する手法[9],動画像から実時間で顔表情を認識する方法[10,11],ピンマイクによる発話区間検出法[8]なども併せて紹介す る予定である.
著作者の事前の許可なしに当ウェブサイトのコンテンツの改変,再配布,再利用を禁止いたします.
Any reproduction, modification, distribution, or republication of materials
contained on this Web site, without prior explicit permission of the copyright
holder, is strictly prohibited.
All rights reserved, Copyright(C) 2005, 2006, 2007 NTT Communication Science
Laboratories
注1)ムービーファイルの再生には,QuickTime7 以降が必要です.
注2)スライド中のこのマークの中の数字#とムービーファイルの番号(VNV#*.mov)が対応します.
[1] 大塚和弘,「非言語行動の観測に基づく複数人物の会話シーン分析」, 人工知能学会研究会資料 第48回 言語・音声理解と対話処理研究会 (SIG-SLUD),
No. SIG-SLUD-A602-01, pp. 1--6, November (2006)
[2] 大塚和弘, 竹前慶修, 大和淳司,村瀬 洋:「複数人物の対面会話を対象としたマルコフ切替モデルに基づく会話構造の確率的推論」,情報処理学会論文誌,Vol. 47, No. 7, pp. 2317-2334, 2006
[3] Kazuhiro Otsuka, Yoshinao Takemae, Junji Yamato, and Hiroshi Murase,
“A Probabilistic Inference of Multiparty-Conversation Structure Based on
Markov-Switching Models of Gaze Patterns, Head Directions, and Utterances,”
Proc. ACM 7th Int. Conf Multimodal Interfaces (ICMI'05), pp.191-198, October,
2005. [Abstract][Paper][Presentation][Movies]
[4] Kazuhiro Otsuka, Junji Yamato, Yoshinao Takemae, and Hiroshi Murase,
"Quantifying Interpersonal Influence in Face-to-face Conversations
based on Visual Attention Patterns," Proc. ACM CHI Extended Abstract,
pp.1175-1180, April, 2006 [Abstract][Paper][Poster]
[5] Kazuhiro Otsuka, Hiroshi Sawada, and Junji Yamato, "Automatic
Inference of Cross-modal Nonverbal Interactions in Multiparty Conversations",
Proc. ACM 9th Int. Conf Multimodal Interfaces (ICMI2007), pp. 255-262,
Nov. 2007.
[Abstract][Paper][Presentation][Movies]
[6] Kazuhiro Otsuka, Junji Yamato, Yoshinao Takemae, and Hiroshi Murase,
"Conversation Scene Analysis with Dynamic Bayesian Network Based on
Visual Head Tracking,", Proc. ICME'06, July, 2006 [Movies]
[7] 大塚和弘,大和淳司,村瀬 洋,「複数人物の対面会話シーンを対象とした画像中の人物頭部追跡に基づく会話構造のモデル化と確率的推論」,画像の認識・理解シンポジウム2006
[Movies]
[8] 澤田 宏, 荒木章子, 大塚和弘, 藤本雅清, 石塚健太郎, 「多人数マイクでの発話区間検出 - ピンマイクでの事例 -」, 日本音響学会講演論文集,
3-Q-15, 春季, 2007.
[9] Oscar Mateo Lozano and Kazuhiro Otsuka, "Simultaneous Real-time
3D Visual Tracking of Multiple Objects using a Stream Processo"; 画像の認識・理解シンポジウム(MIRU2007)DS-01
(2007)
[10] 熊野史朗,大塚和弘,大和淳司,前田英作,佐藤洋一:「表情認識のための変動輝度テンプレートとその頭部姿勢変動に対する頑健性の一検討」,情処研報CVIM,
Vol. 2007, No. 87, pp. 145-152 (2007)
[第一著者の熊野氏のホームページへ]
[11] Shiro Kumano, Kazuhiro Otsuka, Junji Yamato, Eisaku Maeda, and Yoichi
Sato, "Pose-Invariant Facial Expression Recognition Using Variable-Intensity
Templates," Proc. 8th Asian Conference on Computer Vision (ACCV2007),
Part I, LNCS Vol. 4843, pp. 324-334, 2007