北から南や西を見て思うこと: オープンソースで音声合成

2008年1月1日火曜日

wikipediaで音声合成絡みのソフトリストがあったので、Linux上のオープンソースでどこまで音声合成が使えるのかちょっと調べてみた。

やりたいことは

みたいな感じ。

VistaやMacOSXでも音声合成機能はあるんだけど、英語しか対応してないんだよねぇ。なので、Webアプリから操作できるようにLinuxのシェルコマンドぐらいで扱えるものを探してみた。

ここから追って行くと、フリーで使えそうなものは3つだとわかった。

suzumeは試してないけど、MIDI上にサンプリングした音声データを持って音階として鳴らして行くという手法から、だいたい精度は想像できたので、とりあえず実用レベルには至ってないと判断。

yomiはサイト上のサンプル音声ファイルを再生してみて、ちょっと厳しいかなぁと。

残るはGalateaなんだけど、サイトはしっかりしててIPAも支援しているような正統派プロジェクトで、話すだけじゃなくてヒューマンインターフェイスとしての疑似オペレータの口パクや表情、音声認識などもセットになっているみたい。

仕事で使うなら、色々面白いことも出来そうだけど、音声合成だけをみると、お手軽という感じではないのと、やはりサンプル音声ファイル(というかデモ版のビデオ)を見る限りでは、自然な日本語とは言いがたい。

初音ミクのような、ちょっと聞きぐらいではわからないレベルを想像していただけに、やはりオープンソースでは辛い分野なのかなぁと思った。まぁ、利権や特許が絡む世界だろうしねぇ。

windowsならもうちょっとハイレベルなものがあるのだろうか…