|
===================================== 〔語彙分解〕的な部分一致の検索結果は以下の通りです。 ・ 音 : [おと, ね] 1. (n,n-suf) sound 2. note ・ 音声 : [おんせい] 【名詞】 1. voice 2. (the concept of) sound ・ 音声言語 : [おんせいげんご] (n) a spoken language ・ 声 : [こえ] 【名詞】 1. voice ・ 言 : [げん] 【名詞】 1. word 2. remark 3. statement ・ 語 : [ご] 1. (n,n-suf) language 2. word ・ 合 : [ごう] 【名詞】 1. go (approx. 0.18l or 0.33m) ・ 合成 : [ごうせい] 【名詞・動詞】1. synthesis 2. composition 3. synthetic 4. composite 5. mixed 6. combined 7. compound
音声合成(おんせいごうせい、''Speech synthesis'')とは、人間の音声を人工的に作り出すことである。これを行うシステムをスピーチ・シンセサイザー(''Speech synthesizer'')、これにより生成した音声を合成音声(ごうせいおんせい)と呼ぶ。 人工的に人の声を合成するシステムであり、テキスト(文章)を音声に変換できることから、しばしばテキスト読み上げ(''text-to-speech''、略してTTS)システムとも呼ばれる。また、発音記号を音声に変換するシステムもある。 == 歴史 == 現代的な電子信号処理が発明されるずっと以前から、西アフリカのトーキングドラム等のように音声を模倣する試みがなされてきた。 音声を合成する初期の試みとしては、のちに教皇シルウェステル2世となるオーリヤックのジェルベール(1003年没)、アルベルトゥス・マグヌス(1280年没)、ロジャー・ベーコン(1294年没)などの人物が音声合成を試みている。1779年にはドイツ人クリスティアン・クラッツェンシュタインは母音 (a, e, i, o, u) を発声できる機械を製作した〔History and Development of Speech Synthesis (Helsinki University of Technology) - 英語 〕。 この流れはふいごを使った機械式音声合成器を作ったオーストリア(ハンガリー)のヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文〔''Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine''(音声の仕組みとしゃべる機械の解説)〕を発表し、その機械について説明している。この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。 1837年、チャールズ・ホイートストンはフォン・ケンペレンのデザインを元にしゃべる機械を製作し、1857年、M. FaberはEuphoniaを製作した。ホイートストンの機械は1923年Pagetによって再現されている〔Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), ''Current Trends in Linguistics, Volume 12, Mouton'', The Hague, pp. 2451-2487, 1974.〕。 1930年代、ベル研究所のホーマー・ダドリー(Homer Dudley)は通信用の電子式音声分析・音声合成マシンであるヴォコーダー (、Voice Coderの略) を開発した。その後これを応用し、音声合成部にキーボードを付加した鍵盤演奏型のスピーチ・シンセサイザーであるヴォーダー()を製作し、ニューヨーク万国博覧会 (1939年)に出展した。その発声は十分理解可能だったと言われる。1940年代、ハスキンズ研究所(Haskins Laboratories)のフランクリン・S・クーパー(Franklin S. Cooper)らはPattern playbackという名の機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン(Alvin Liberman)らはこれを音声学の研究に利用した。 最初のコンピュータを使った音声合成システムは1950年代終盤に開発され、最初のテキスト読み上げシステムは1968年に開発されている。1961年、物理学者John Larry Kelly, Jr.とLouis Gerstmen〔http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事(NYタイムス)〕はベル研究所にてIBM 704を使って音声合成を行った。そして『デイジー・ベル』という歌をコンピュータに歌わせた。友人のジョン・ピアースを訪ねてベル研究所に来ていたアーサー・C・クラークは、このデモを聴いて感銘を受け、『2001年宇宙の旅』でHAL 9000が歌うクライマックスシーンが生まれた〔Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website) 〕。 初期の電子式スピーチ・シンセサイザーの発声は、ロボット的であまり明瞭ではないものが多かった。その後の発達により、今日のTTSシステムはむしろ人間の声と区別が付かない場合が少なくない。(ただし電子式の成功後も、人間型ロボットに発声させるため、機械式音声合成の研究は続けられた。電子式ではスピーカーの音質に制限されるが、ロボットで人間の体の構造を模倣した機械式音声合成なら、もっと人間に近い発声になると考えられていたからである〔Anthropomorphic Talking Robot Waseda-Talker Series 〕)。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「音声合成」の詳細全文を読む スポンサード リンク
|