ロバストメディア探索技術は、街中でふと耳にした音楽の曲名、テレビに映っているものの情報など、文字で書けないものを、音や映像を使って検索する「メディア探索技術」の1つです。
メディア探索技術
メディア探索技術では、指定された音や映像の断片からなる目的信号と、データベースに蓄えられた膨大な音や映像などの蓄積信号を、図1のような時系列の数値で表現します。数値化された目的信号と蓄積信号の類似性を計算し、目的信号に最も近い蓄積信号を見つけ出します。あらかじめ蓄積信号に様々な情報を対応付けておけば、目的信号から、メディア探索技術を使って蓄積信号に対応づけられた様々な情報を引き出すことができます。

図1 メディア探索の仕組み
メディア探索技術の課題は、的確な探索を実現することと、高速な探索を実現することの二つです。
NTTでは、長年に渡ってこれらの課題に取り組み、1998年には、大幅な高速化に成功した時系列アクティブ探索法を、2000年には、品質の揺らぎに対して精度を高めた学習アクティブ探索法を開発してきました。そして、さらに高速で高精度な探索を可能にするために開発したのがロバストメディア探索技術です。
ロバストメディア探索技術
ロバストメディア探索技術は、時系列アクティブ探索法や学習アクティブ探索法で扱った、通信やエンコードによる品質低下の影響などに強いだけでなく、ナレーションの重畳、携帯電話やハンディカメラでの撮影などの影響による大幅な音や映像の変化があっても正しく目的の情報を探し出せる技術です。
ロバストメディア探索には、2つの工夫があります。一つめは、音や映像の部分的な特徴を用いること、二つめは、特徴そのものを頑健にすることです。これらについて順に説明します。
分割一致探索法(DAL法)
ロバストメディア探索技術における一つめの工夫は、音や映像の部分的な特徴を用いることです。 例えばテレビ番組の断片から、その部分で使われている音楽の 曲名を調べたいとします。ところが、音楽は出演者の声のBGMと重なっていて、もとの音楽とは特徴が変化しており、うまく照合することができません。 この問題に対し、NTTでは、分割一致探索法(DAL)を開発しました。 目的信号を、周波数軸と時間軸からなるスペクトログラムの形に分析してみる(図2)と、ナレーションにはすき間があり、背景音楽の特徴が残っていることがわかります。

図2 背景音楽が残っている部分
そこで、スペクトログラムを、周波数と時間に関して小さな領域に分割し、照合に用いるための特徴を抽出します(図3)。この特徴を蓄積信号と照合し、数多くの小領域が一致する箇所を割り出すことで探索が実現できるのです。

図3 小領域分割によるDAL法の実現
バイナリエリア照合法(BAM法)
ロバストメディア探索の工夫の二つめは、特徴そのものを頑健にすることです。 図4は携帯電話を通した音と元の音との比較です。このように音が大きく歪んで特徴そのものが変化してしまった場合DAL法では探索が困難になります。

図4 携帯電話によるスペクトログラムの変化
これらの音が大きく変化する場合に対しても頑健に働くよう開発したのがバイナリエリア照合法(BAM法)です。 BAM法では、まず信号を詳細に区分します。その中から実環境の様々な変化による歪みに影響されにくい部分を取り出します。音の探索では、スペクトルが、時間とともに急激に変化している部分に着目します。着目した部分の中から、統計的な基準によって、時空間的に顕著な特徴をもっていると判断されたところだけを取り出します。最後に、取り出した特徴的な部分を、何段階かの粗い数値で表現します。たとえば、携帯電話でとらえた音で音楽探索を行う場合、0と1のわずか2段階の数値で表現します(図5)。

図5 特徴的な小領域のみを粗い数値で表現(BAM法)
このように、精密な数値を比較するのではなく、わざと粗く量子化して比較することで、かえって歪みに強くなるのです。走っている車の中から携帯電話を通して送られ、激しく歪んだ音声でもBAM法では正しく探索することができます。
粗量子化エリア照合法(CAM法)
BAM法を映像に応用したものが、粗量子化エリア照合法(CAM)です。
CAM法では、音のスペクトルのかわりに、映像のパターン、つまり画素ごとのR,G,Bの値を用います。これらの値が時間とともに急激に変化している部分に着目します。
BAM法と同様に、着目した部分の中から、統計的な基準によって、時空間的に顕著な特徴をもっていると判断されたところだけを取り出して、粗く照合することで、非常に頑健な探索を実現することに成功しました。図6はある画像に対してCAM法により特徴の抽出を行った結果です。

図6 特徴的な小領域のみを粗い数値で表現(CAM法)
テレビ番組やネット上の映像など、身の回りの映像の多くは、字幕がのっていたり、加工されていたりします。このように大きな字幕が重なっている映像を、小型カメラで撮影した場合でも、CAM法により、元の映像データが正しく探索することができます。また、色が変わっていても、障害物でかくれていても、きちんと元データを探索することができます。
将来展望
ロバストメディア探索によって、 例えば、音楽や映像などの著作権を、どこが所有しているのか調べることができるようになります。
このほか、テレビ番組の中に欲しいコンテンツがあった場合などに、携帯電話のカメラで撮影した映像を手がかりにネット探索することで、関連した情報を手に入れることができるようになります。 |