発表・論文
論文
-
Hiroya, S. and Honda, M., ``Estimation of Articulatory Movements from Speech Acoustics Using an HMM-Based Speech Production Model,''
IEEE Transactions on Speech and Audio Processing, vol. 12, no. 2, pp. 175-185, 2004.
本論文では、統計的音声生成モデルを用いた音声からの調音運動の逆推定法を提案する。
本モデルは、与えられた音素系列に対して、音声スペクトルと調音パラメータを統計的に生成する。
このモデルは、音素毎の調音パラメータに基づくHMM(隠れマルコフモデル)と、HMMの各ステート毎の調音・音響マッピングに
よって構成される。
また本モデルを用いて、与えられた音声スペクトル系列から事後確率が最大となる調音パラメータを推定する手法について述べる。
評価は、文章発声の観測された調音パラメータと、推定された調音パラメータの間の二乗誤差に基づいて行われる。
推定された調音パラメータの平均二乗誤差は、音声スペクトルと発声時の音素情報が与えられた場合は1.50mm、
音声スペクトルのみが与えられた場合は1.73mmであった。
-
Hiroya, S. and Honda, M.,
``Speaker Adaptation Method for Acoustic-to-Articulatory Inversion using an HMM-based Speech Production Model,''
IEICE Transactions on Information and Systems, vol. E87-D, no. 5, pp. 1071-1078, 2004.
本論文では、統計的音声生成モデルを用いた未知話者の音声スペクトルからの調音パラメータの逆推定のための話者適応化法を提案する。
本モデルは、音素毎の調音パラメータに基づくHMM(隠れマルコフモデル)と、HMMの各ステート毎の調音パラメータからの音声スペクトルへの
変換関数(調音・音響マッピング)により構成される。
このモデルは、調音・音声の同時観測データに基づいて統計的に学習される。
本適応化手法では、参照話者の声道の幾何学的な違いや調音の振る舞いが統計的に未知話者に向けて適応される。
手順は、まず未知話者の音声スペクトルから、参照モデルを用いて調音パラメータが推定される。
次に、参照モデルの調音・音響マッピングが、推定された未知話者の調音パラメータに対する未知話者の音声スペクトルの出力確率が最大となるように
適応される。
話者適応化により、観測された調音パラメータと推定された調音パラメータの間の平均二乗誤差は1.65mmとなった。
また、話者独立モデルからの改善率は56.1%であった。
-
Hiroya, S. and Mochida, T.,
``Multi-speaker articulatory trajectory formation based on speaker-independent articulatory HMMs,''
Speech Communication, vol. 48, no. 12, pp. 1677-1690, 2006.
-
Mochida, T., Kimura, T., Hiroya, S., Kitagawa, N., Gomi, H., and Kondo, T.,
``Speech Misperception: Speaking and Seeing Interfere Differently with Hearing,''
PLoS ONE, vol. 8, no. 7, e68619. doi:10.1371/journal.pone.0068619, 2013. [pdf]
-
Hiroya, S.,
``Non-negative temporal decomposition of speech parameters by multiplicative update rules,''
IEEE Transactions on Audio, Speech and Language Processing, vol. 21, no. 10, pp. 2108-2117, 2013.
-
Oohashi, H., Hiroya, S., and Mochida, T.,
``Real-time robust formant estimation system using a phase equalization-based autoregressive exogenous model,''
Acoustical Science and Technology, vol. 36, no. 6, pp. 478-488, 2015
[pdf]
-
Igeta, T., Hiroya, S. and Arai, T., ``Overlapping of /o/ and /u/ in modern Seoul Korean - focusing on speech rate in read speech,'' Phonetics and Speech Sciences, vol. 9, no. 1, pp. 1-7, 2017.
-
井下田 貴子, 廣谷 定男, 荒井 隆行, ``若年層韓国語ソウル方言における/o/と/u/の言語変化の一側面―先行子音種と発話単位の違いが2母音の重なりに与える影響―,'' 音声研究, vol.21, no.2, pp.53-60, 2017.
-
Lin, I-F., Hiroya, S., Asada, K., Ayaya, S, Kumagaya, S-I., Kato, M., "Vocal analysis of speech in adults with autism spectrum disorders," Acoustical Science and Technology, Vol. 39, No. 2, pp. 154-157, 2018. [pdf]
学位論文
- 卒業論文, "アフィン変換法を用いた線形計画問題の解法," 1999年2月.
大規模な線形計画問題を高速に解くアルゴリズムとしてカーマーカーの内点法が知られている。
その中でアフィン変換法を取り上げ、さらに高速化するために、双対変数の計算におけるQR分解法
をCG(共役勾配)法に変えて実験を行なった。
さらに、線形計画問題の解法の代表であるシンプレックス法のだまし問題として知られる
Klee-Minty問題を内点法で扱い、その収束性に関する性質を調べた。
- 修士論文, "混合励振源を用いた低ビットレート音声符号化の品質向上の検討," 2001年2月.
近年、年々増加する回線数の需要に応えるために、低ビットレートの音声符号化方式の需要が
高まっている。この観点から、これまでに音源として周期成分とノイズ成分を混合する
混合励振源を用い、スペクトル包絡情報の抽出にメル一般化ケプストラム分析を用いた
1.6kbps低ビットレート音声符号化方式を提案したが、十分な品質が得られないという問題点
があった。そこで、本研究ではこの符号化方式において、ピッチ成分にゆらぎ(ジッター)
を加え、有声区間におけるノイズ成分の周期的な強調を行うとともに、ピッチ周波数に応じて
分析次数を変えることにより品質の向上を図った。主観評価実験において、提案方式は、
従来法よりも大幅に改善が見られ、また、女声において、1.6kbpsのビットレートで2.4kbpsの
MELP方式とほぼ同等の品質を得ることができた。
- 博士論文, "Estimation of Articulatory Movements from Speech Signal Using an HMM-Based Speech Production Model," August 2006.
招待講演
- Hiroya, S., ``Acoustic-to-articulatory inversion using a speaker-normalized HMM-based speech production model," in Proc. The 8th International Seminar on Speech Production, pp. 7-12, December 2008. [download from ISSP site]
- 廣谷 定男,
“調音と脳活動の計測による音声知覚の運動理論の検証,”
電子情報通信学会技術研究報告, vol. 109, no. 451, SP2009-162, pp. 81-86, 2010年3月.
- 廣谷定男, “脳における音声知覚生成相互作用,” 日本音響学会 2017年春季研究発表会 講演論文集, pp.1393-1396, 2017年3月.
- 廣谷定男, “脳科学による音声コミュニケーションの仕組みの解明,” 電子情報通信学会技術報告, vol.117, no.393, SP2017-75, pp.49-54, 2018年1月.
- Hiroya, S., "Speech production and perception share common brain mechanisms," Joint workshop of UCL-ICN, NTT, UCL-Gatsby, and AIBS, Oct. 2018.
- 廣谷 定男,"発話における聴覚情報処理," 日本音響学会 聴覚研究会資料, Vol.48, No.8, p.815, 2018年12月.
解説
- 誉田 雅彰,西川 員史,高西 淳夫,廣谷 定男,持田 岳美,
“人間形発話ロボット−喉を震わせ口を動かして発話するロボット−,”
日本音響学会誌, vol. 61, no. 2, pp. 91-96, 2005.
- 麦谷 綾子,廣谷 定男,
“子どもの声道発達と音声の特性変化,”
日本音響学会誌, vol. 68, no. 5, pp. 234-240, 2012.
- Mugitani, R. and Hiroya, S.,
``Development of vocal tract and acoustic features in children,''
Acoustical Science and Technology, vol. 33, no. 4, pp. 215-220, 2012. [pdf]
- 廣谷 定男,
“発話リズムを抽出・制御する音声信号処理,”
NTT技術ジャーナル, vol. 25, no. 9, pp. 26-29, 2013. [pdf]
- Hiroya, S.,
``Speaking rhythm extraction and control by non-negative temporal decomposition,'' NTT Technical Review, vol. 11, no. 12, 2013. [pdf]
- 廣谷 定男,
“母音のフォルマント分析―過程と仮定を知る―,”
日本音響学会誌, vol. 70, no. 10, pp. 538-544, 2014.
- 廣谷 定男,
“人には聞けない言語とリズムのヒミツ”, 触覚コンテンツ専門誌 Vol.5 “息づかい”, 2016.[pdf]
- 廣谷 定男,
“「聞くと話す」の脳科学,”日本音響学会誌, vol. 73, no. 8, pp. 509-516, 2017.
書籍
- 廣谷 定男,聴覚フィードバック,日本音響学会編,音響キーワードブック,コロナ社,pp.312-313,2016.
- 廣谷 定男,人が音声を正しく知覚できるのはなぜでしょうか?,日本音響学会編,音響学入門ペディア,コロナ社,pp.140-143,2017.
- 廣谷 定男編著,筧 一彦,辰巳 格,皆川 泰代,持田 岳美,渡辺 眞澄著,聞くと話すの脳科学,日本音響学会編,音響サイエンスシリーズ,コロナ社,2017.
- 麦谷 綾子,保前 文高,廣谷 定男,佐藤 裕,白勢 彩子,田中 章浩,山本 寿子,梶川 祥世,今泉 敏,立入 哉,こどもの音声,日本音響学会編,音響サイエンスシリーズ,コロナ社,2019.
国際会議
- 脳機能計測
-
Hiroya, S. and Guenther, F.H.,
``Effects of speech sound naturalness on the neural basis of formant frequency discrimination,''
Society for Neuroscience Abstracts, November 2010. [Abstracts from SfN site]
-
Hiroya, S., Jasmin, K., Evans, S., Krishnan, S., Ostarek, M., Boebinger, D., and Scott, S.K.,
``Effects of speaking rhythm naturalness on the neural basis of speech perception,''
Society for Neuroscience Abstracts, November 2015. [Abstracts from SfN site]
-
Jasmin, K., Hiroya, S., Evans, S., Krishnan, S., Lima, C., Ostarek, M., Boebinger, D., and Scott, S.K., "The neural basis of perceiving speech with a non-native rhythm,"
23rd Annual Meeting, Cognitive Neuroscience Society, April 2016.
-
Hiroya, S., Jasmin, K., Evans, S., Krishnan, S., Lima, C., Ostarek, M., Boebinger, D., and Scott, S.K., “Speech rhythm measure of non-native speech using a statistical phonemic duration model,” Society for Neurobiology of Language, August 2016.
-
Hiroya, S., Lavan, N., Chen, S.H., Meekings, S., and Scott, S.K., "Impact of articulator velocity-controlled rhythm in perceiving speech," Society for Neuroscience Abstracts, Nobember 2017. [Abstracts from SfN site]
-
Hiroya, S. and Mochida, T., ``Neural mechanisms underlying the impact of speech sound naturalness during transformed auditory feedback,'' Society for Neurobiology of Language, August 2018.
-
Hiroya, S., Cai, Q., Sethi, A., Lavan, N., Chen, S.H., Meekings, S., and Scott, S.K., "Representational similarity analysis reveals the involvement of supplementary motor area in perceiving speech rhythm," Society for Neuroscience Abstracts, Nobember 2018. [Abstracts from SfN site]
- 調音観測
-
Hiroya, S. and Kitamura, T.,
``Generation of a vocal-tract MRI movie based on sparse sampling,''
in Proc. The 9th International Seminar on Speech Production, pp. 1-8, June 2011. [pdf]
- 音声生成
-
Hiroya, S. and Honda, M., ``Determination of articulatory movements from speech acoustics using an HMM-based speech production model,'' in Proc. ICASSP, pp. 437-440, May 2002.
-
Hiroya, S. and Honda, M., ``Acoustic-to-articulatory inverse mapping using an HMM-based speech production model,'' in Proc. ICSLP, pp. 2305-2308, September 2002.
-
Hiroya, S. and Honda, M., ``Speech Inversion for Arbitrary Speaker Using a Stochastic Speech Production Model,''
in Proc. An Interdisciplinary Workshop on Speech Dynamics by Ear, Eye, Mouth and Machine, pp. 9-14, June 2003.
-
Hiroya, S. and Honda, M., ``Adaptation method for a stochastic speech production model toward speech inversion,''
in Proc. The 6th International Seminar on Speech Production, pp. 91-96, December 2003.
-
Mochida, T., Hiroya, S., Honda, M., Nishikawa, K., and Takanishi, A., ``Articulatory control of talking robot by mimicking formant trajectories of human speech,''
in Proc. The 6th International Seminar on Speech Production, pp. 173-178, December 2003.
-
Hiroya, S. and Mochida, T., ``Multi-speaker articulatory reconstruction based on an eigen articulatory HMM,'' in Proc. ICASSP, pp. 909-912, March 2005.
-
Toshima, I., Hiroya, S., Mochida, T., and Gomi, H., ``Motor command invariance during speech production investigated by physiological perioral dynamics model,'' in The 9th International Seminar on Speech Production, pp. 195-202, June 2011.
- 音声知覚生成
-
Hiroya, S., Mochida, T., and Kashino, M.,
``Reducing Redundancy in Acoustic-to-Articulatory Inversion by Fundamental Frequency,''
in Proc. From Sound to Sense: 50+ years of discoveries in speech communication, pp. 19, June 2004.
-
Hiroya, S., Mochida, T., and Kashino, M.,
``Articulatory gestures, not auditory frequency resolution, determine formant frequency discrimination thresholds in vowels,''
in Proc. The 29th ARO MidWinter Meeting, pp. 249, February 2006.
-
Hiroya, S., Mochida, T., and Kashino, M.,
``Japanese native speakers discriminate English vowel formant frequencies better than English native speakers,''
in Proc. The 7th International Seminar on Speech Production, pp. 143-150, December 2006.
-
Mochida, T., Kimura, T., Hiroya, S., Kitagawa, N., Gomi, H. and Kondo, T.,
``Effector-specific effect of self-articulatory movement on speech perception,''
Society for Neuroscience Abstracts, November 2010.
-
Mochida, T., Kimura, T., Hiroya, S., Kitagawa, N., Gomi, H. and Kondo, T.,
``Effects of temporal aynchrony between sensory and articulatory events on speech perception during speech articulation,''
Society for Neuroscience Abstracts, November 2011.
-
Hiroya, S., Mochida, T., ``Speech sound naturalness alters compensation in response to transformed auditory feedback,” in Proc. J. Acoust. Soc. Am., Vol. 140, No. 4, Pt. 2, p. 3228, November 2016.
-
Uezu, Y., Hiroya, S., and Mochida, T., "Sound naturalness of feedback speech affects articulatory compensation for transformed auditory feedback," Joint workshop of UCL-ICN, NTT, UCL-Gatsby, and AIBS, Oct. 2018.
-
Uezu, Y., Hiroya, S., and Mochida, T., "Sound naturalness of wideband speech affects articulatory compensation for altered formant feedback ," Society for Neuroscience Abstracts, Nobember 2018. [Abstracts from SfN site]
- 音声分析
-
Hiroya, S.,
``Non-negative Temporal Decomposition of Speech Parameters,''
in Proc. ICASSP, pp. 5066-5069, March 2010. [pdf]
-
Hiroya, S. and Mochida, T.,
``Phase equalization-based autoregressive model of speech signals,''
in Proc. Interspeech, pp. 42-45, September 2010. [pdf]
-
Hiroya, S., Miki, N., and Mochida, T.,
``Multi-closure-interval linear prediction analysis based on phase equalization,''
in Proc. APSIPA, October 2011. [pdf]
-
Oohashi, H., Hiroya, S., and Mochida, T.,
``Real-time robust formant tracking system using a phase equalization-based autoregressive exogenous model,''
in Proc. ICASSP, pp. 5118-5121, April 2015.
国内発表
- 脳機能計測
- 廣谷定男, Jasmin, K., Evans, S., Krishnan, S., Lima, C., Ostarek, M., Boebinger, D., and Scott, S.K.,
``非母語発話リズム音声聴取時における脳機能計測,''
日本音響学会 春季研究発表会講演論文集, pp. 433-434, 2016年3月.
- 廣谷定男, 持田岳美,
``変換音声の自然性を考慮した変形聴覚フィードバック時の脳機能計測,''
日本音響学会 春季研究発表会講演論文集, pp. 757-758, 2019年3月.
- 調音観測
-
廣谷 定男, 北村 達也,
``スパース法を用いたMRI発話動画撮像の検討,''
日本音響学会 秋季研究発表会講演論文集, pp. 321-324, 2011年9月.
- 音声符号化
-
廣谷 定男, 真下 哲, 益子 貴史, 小林 隆夫, ``混合励振源を用いた極低ビットレート音声符号化の検討,'' 電子情報通信学会技術研究報告, vol. 100, no. 392, SP2000-70, pp. 15-20, 2000年10月.
-
廣谷 定男, 益子 貴史, 小林 隆夫, ``混合励振源を用いた低ビットレート音声符号化の品質向上の検討,'' 日本音響学会 春季研究発表会講演論文集, pp. 273-274, 2001年3月.
- 音声生成
-
廣谷 定男, 誉田 雅彰, ``HMMに基づく音声からの調音運動の逆推定,'' 日本音響学会 春季研究発表会講演論文集, pp. 307-308, 2002年3月.
-
廣谷 定男, 誉田 雅彰, ``HMM音声生成モデルに基づく音声からの調音運動の逆推定,'' 日本音響学会 秋季研究発表会講演論文集, pp. 289-290, 2002年9月.
-
廣谷 定男, 誉田 雅彰, ``統計的音声生成モデルに基づく調音運動の逆推定法,'' 電子情報通信学会技術研究報告, vol. 102, no. 619, SP2002-176, pp. 41-46, 2003年1月.
-
廣谷 定男, 誉田 雅彰, ``調音運動の逆推定における話者適応化法,'' 日本音響学会 春季研究発表会講演論文集, pp. 289-290, 2003年3月.
-
廣谷 定男, 持田 岳美, 誉田 雅彰, ``調音音声同時観測データに基づく調音位置とホルマント情報の関係の考察,'' 日本音響学会 秋季研究発表会講演論文集, pp. 297-298, 2003年9月.
-
持田 岳美, 廣谷 定男, 西川 員史, 誉田 雅彰, 高西 淳夫, ``発話ロボットの聞き真似発話制御機構の検討,'' 計測自動制御学会 システムインテグレーション部門講演会, pp. 97-98, 2003年12月.
-
廣谷 定男, 持田 岳美, 誉田 雅彰, ``未知話者からの調音逆推定法の評価,'' 日本音響学会 春季研究発表会講演論文集, pp. 299-300, 2004年3月.
-
戸嶋 巌樹, 廣谷 定男, 五味 裕章,
``ダイナミクスモデルを用いた/vbv/発話における不変量の検討,''
電子情報通信学会技術研究報告, vol. 110, no. 461, NC2010-146, pp. 113-118, 2011年3月.
-
戸嶋 巌樹, 廣谷 定男, 持田 岳美, 五味 裕章,
``口唇ダイナミクスモデルを用いた発話運動逆推定による不変特性の検討,''
日本音響学会 秋季研究発表会講演論文集, pp. 307-308, 2011年9月.
-
戸嶋 巌樹, 廣谷 定男, 持田 岳美, 五味 裕章,
``口唇ダイナミクスモデルを用いた/VCV/発声における不変特性の検討,''
電子情報通信学会技術研究報告, vol. 111, no. 322, SP2011-76, pp. 43-48, 2011年11月.
-
戸嶋 巌樹, 廣谷 定男, 持田 岳美, 五味 裕章,
``両唇閉鎖開放時における筋指令のモデル推定および筋電位の不変的特徴の検討,''
日本音響学会 春季研究発表会講演論文集, pp. 325-326, 2012年3月.
-
廣谷 定男,
``非負値時空間分解法を用いた調音・音響特徴の比較,''
日本音響学会 春季研究発表会講演論文集, pp. 327-328, 2012年3月.
-
廣谷 定男,
``非負値時空間分解を用いた発話リズム変換,''
日本音響学会 聴覚研究会資料, vol. 44, no. 2, pp. 77-80, 2014年3月.
-
廣谷 定男,
``非負値時空間分解を用いた発話リズム変換の検討,''
日本音響学会 秋季研究発表会講演論文集, pp. 425-426, 2014年9月.
-
廣谷 定男,
``非負値時空間分解法と機械学習を用いた任意音声の発話リズム変換,''
日本音響学会 秋季研究発表会講演論文集, pp. 423-424, 2017年9月.
- 廣谷 定男, 持田 岳美,
``基本周波数に頑健な実時間フォルマント周波数摂動システムの開発,''
日本音響学会 秋季研究発表会講演論文集, pp. 781-782, 2018年9月.
- 上江洲 安史, 廣谷 定男, 持田 岳美,
``フォルマント変形聴覚フィードバックにおけるサンプリング周波数の影響,''
日本音響学会 秋季研究発表会講演論文集, pp. 865-866, 2018年9月.
- 上江洲 安史, 廣谷 定男, 持田 岳美,
``変形聴覚フィードバック下での発話におけるマスキングノイズの影響の検討,''
日本音響学会 春季研究発表会講演論文集, pp. 837-838, 2019年3月.
- 音声知覚生成
-
廣谷 定男, 持田 岳美, 柏野 牧夫, ``母音のフォルマント知覚と調音ジェスチャの関係,'' 日本音響学会 秋季研究発表会講演論文集, pp. 267-268, 2004年9月.
-
廣谷 定男, 持田 岳美, 柏野 牧夫, ``母音のフォルマント周波数弁別と調音ジェスチャーの個人性に関する検討,'' 日本音響学会 秋季研究発表会講演論文集, pp.309-310, 2005年9月.
-
廣谷 定男, 持田 岳美, 柏野 牧夫, ``調音モデル/聴覚モデルにより予測される母音のフォルマント周波数弁別特性の考察,'' 日本音響学会 春季研究発表会講演論文集, pp. 259-260, 2006年3月.
-
廣谷 定男, 持田 岳美, 柏野 牧夫, ``日本人とアメリカ人の英語母音知覚特性の比較―母音生成の観点から―,'' 日本音響学会 秋季研究発表会講演論文集, pp. 503-504, 2007年9月.
-
持田 岳美, 木村 聡貴, 廣谷 定男, 北川 智利, 五味 裕章, 近藤 公久, ``音声知覚における調音運動の影響,'' Neuro2010, 2010年9月.
-
持田 岳美, 木村 聡貴, 廣谷 定男, 北川 智利, 五味 裕章, 近藤 公久, ``Impact of self-articulatory movement on speech perception,'' 第三回多感覚研究会, 2012年1月.
-
持田 岳美, 木村 聡貴, 廣谷 定男, 北川 智利, 五味 裕章, 近藤 公久, ``発話中の音声知覚における調音−聴覚イベントの非同時性の影響,'' 第35回日本神経科学大会, 2012年9月.
-
廣谷 定男, ``A relationship between speaking and listening to speech: Impact of speech sound naturalness,'' Neuro2013, 2013年6月.
- 音声分析
-
廣谷 定男, 持田 岳美, ``位相等化処理に基づく線形予測法を用いた頑健な声道スペクトルの推定,'' 電子情報通信学会技術研究報告, vol. 110, no. 297, SP2010-76, pp. 41-46, 2010年11月.
-
廣谷 定男, 三木 信弘, 持田 岳美, ``位相等化処理に基づく声門閉鎖区間線形予測法の検討,'' 電子情報通信学会技術研究報告, vol. 111, no. 322, SP2011-71, pp. 13-18, 2011年11月.
-
大橋 浩輝, 廣谷 定男, 持田 岳美, ``位相等化線形予測法を用いた変形聴覚フィードバックシステムの検討,'' 日本音響学会 秋季研究発表会講演論文集, pp. 277-278, 2014年9月.
- 音声合成
-
廣谷 定男, ``乗算型更新による昇順特性を保持したLSPパラメータ生成,'' 日本音響学会 秋季研究発表会講演論文集, pp. 293-294, 2012年9月.
back