13 research outputs found
Voice production model integrating boundary-layer analysis of glottal flow and source-filter coupling
A voice production model is created in this work by considering essential aerodynamic and acoustic phenomena in human voice production. A precise flow analysis is performed based on a boundary-layer approximation and the viscous–inviscid interaction between the boundary layer and the core flow. This flow analysis can supply information on the separation point of the glottal flow and the thickness of the boundary layer, both of which strongly depend on the glottal configuration and yield an effective prediction of the flow behavior. When the flow analysis is combined with the modified two-mass model of the vocal fold [Pelorson et al. (1994). J. Acoust. Soc. Am. 96, 3416–3431], the resulting acoustic wave travels through the vocal tract and a pressure change develops in the vicinity of the glottis. This change can affect the glottal flow and the motion of the vocal folds, causing source-filter coupling. The property of the acoustic feedback is explicitly expressed in the frequency domain by using an acoustic tube model, allowing a clear interpretation of the coupling. Numerical experiments show that the vocal-tract input impedance and frequency responses representing the source-filter coupling have dominant peaks corresponding to the fourth and fifth formants. Results of time-domain simulations also suggest the importance of these high-frequency peaks in voice production
調音運動に基づく音声の合成法に関する研究
目次 1章 序論 2章 磁器センサシステムを用いた調音運動の観測 3章 運動規範に基づく調音運動の軌道生成 4章 調音運動からの声道スペクトルの決定 5章 音素調音目標からの音声の合成 6章 総括 謝辞 参考文献Made available in DSpace on 2006-04-17T04:57:52Z (GMT). No. of bitstreams: 2 K021.pdf: 8389138 bytes, checksum: 68628141a2bc6da96c9975835b580d61 (MD5) license.txt: 3736 bytes, checksum: 614d80e49a5a996df2598816a3d20516 (MD5) Previous issue date: 1997-12音声合成などの音声情報処理技術では、音声スペクトルの包絡特性を表すスペクトルパラメータによって、音声に内在する言語情報を効率的に表現することがおこなわれている。これらの音声合成法では、音節などの合成単位ごとにスペクトルパラメータの時間パタンを保持しておき、これらの単位パタンの連結によって連続音声が表現される。このセグメントベースのアプローチでは、音素環境や発声速度に起因した音素の変動性に対しては、コンテキストに依存したパタンを網羅的に用意することが必要となる。 音素環境などの要因によって音素の特徴が変化するのは、音声の生成が顎、唇、舌などから構成される力学系の運動特性に拘束されるため、隣接した音素の特徴が調音器官の運動パタン上で相互にオーバーラップし、時間的に広がりを持った変動性として表出するためである。したがって、音声情報処理における調音結合の問題をより本質的に解決するには、調音運動のレベルで生じる音声現象を解明し、調音器官の状態に関するパラメータを用いて音声の情報表現をおこなうことが必要である。 本論文では、顎、口唇、舌、軟口蓋などの位置を表す調音パラメータを用いた、調音運動に基づく音声の合成法について述べる。この合成法は、音素の本質的な特徴量から調音パラメータの軌道計算に基づいて連続音声を表現するものであり、固定的なスペクトルパタンの連結による従来法とは、著しい差異をなす。 本論の音声合成法では、まず、入力された音素系列に対応する調音次元での音素目標の設定がおこなわれる。これらの運動タスクに対して、軌道生成モデルによって調音運動の報道を計算し、さらに調音・音響マッピングの適用によって声道スペクトルの時系列が求められる。また、これらのモデルを構成する上では、実際の調音器官の運動に関するデータが必要となる。本研究では、したがって、(1)磁気センサシステムを用いた調音運動の観測手法、(2)調音運動の軌道生成モデル、(3)調音・音響マッピング、(4)音素調音目標からの音声合成、の4項目について検討した。 磁気センサシステムは、観測点に接着した複数の小型円筒形コイル(直経3?、幅4?)の位置を連続的に計測する手段である。このシステムの測定精度は、コイルの位置に応じた適応的な校正法を用いることにより、約0.10mmとなることが明らかになった。一方、コイルの傾きと測定面からのずれに対しては、コイルの傾きをx軸、y軸方向とも20度まで許容する場合、誤差を1mm以下とするためには、測定面からのずれを±2mm以下とする必要があることがわかった。また、舌の調音運動の観測の結果、磁気センサシステムと超音波スキャナの間の観測誤差は約1.16mmとなり、高い整合性を得ることができた。 軌道生成モデルでは、個々の音素の調音を本質的に表す声道形状(運動タスク)から、顎、口唇、舌などの調音器官全体の運動を生成する。このとき、声道形状を表す声道変数に対し、調音器官の位置を表す調音変数の自由度の方が大きいため、特定の運動タスクを満足する調音変数の値の組は無数に存在する。さらに、運動タスクは時間軸上の離散的な点でしか与えられないため、タスクとタスクの間では調音器官は任意の軌道をとり得る。本モデルでは、軌道計画上のこれらの冗長性を解消するため、軌道の滑らかさに関するコスト関数を導入し、この運動規範が最小となる最適な軌道を計算する。単語やショートフレーズについての軌道生成実験の結果、モデルによって計算された軌道の誤差は約0.90?であることが確かめられた。 調音・音響マッピングでは、顎、口唇、舌、軟口蓋、喉頭の位置に対して、声道の音響的な伝達特性を表すスペクトルパラメータの値を決定する。本法では、調音位置と声道スペクトルの間の対応関係は、調音運動と音声波形の同時観測に基づいて得られる調音・音響データ対の形で直接的に表現される。調音位置に対するスペクトルの推定は、調音・音響データ対から構成されるコードブックの検索に基づき、調音位置の近傍のコードベクトルを選択することによっておこなわれる。さらに、入力された調音位置に対する音素の識別と、コードブック中に付与された音素ラベルとの比較によって、音素の種類を基準としたコードブックの予備選択をおこなう。この予備選択は、スペクトル誤差の上では改善効果が見られないが、合成音の品質には寄与することが実験により確かめられた。 最後に、軌道生成モデルと調音・音響マッピングを結合し、音素の運動タスクから音声を合成する実験をおこなった。文章発声における運動タスクを声道変数を用いて指定した場合、軌道誤差は平均で1.44mm、スペクトル誤差は3.94dBとなった。一方、運動タスクを調音変数によって与えた場合には、これらの誤差はそれぞれ0.39mmと2.94dBであった。また、運動タスクから計算されたスペクトルを用いて音声を合成した結果、調音変数によってタスクを与えた合成音の品質は、原音声の位相等化分析合成音と同等となった。一方、タスクを声道変数によって与えた場合には、文章の了解性にはほとんど影響ないものの、自然性に関してはやや劣化が生じた。 以上より、音素の調音的特徴を表す非常に少ない情報から調音運動の軌道を計算することによって、良好な自然性を有する音声の合成が可能であるという結論が得られた。今後は、入力された音素列に対して運動タスクの値と時点を計算する手法の開発と、より高品質な合成音を得る上で最適となる運動タスクの特定が課題である