2008年1月1日火曜日

オープンソースで音声合成

wikipediaで音声合成絡みのソフトリストがあったので、Linux上のオープンソースでどこまで音声合成が使えるのかちょっと調べてみた。

やりたいことは

  • Linux上で実行できる
  • オープンソース
  • かな漢字まじり、もしくはひらがなのみ入力すれば、自由に音声を出力できる
  • 言語は日本語のみを想定
  • mp3に出力できる
  • 最終的には、web側からの入力に対し、音声出力を行い、mp3の形でファイルに落としたい

みたいな感じ。

VistaやMacOSXでも音声合成機能はあるんだけど、英語しか対応してないんだよねぇ。なので、Webアプリから操作できるようにLinuxのシェルコマンドぐらいで扱えるものを探してみた。



wikipedia

ここから追って行くと、フリーで使えそうなものは3つだとわかった。


suzume


yomi WWW page (in Japanese)

Galatea Project (ガラテア・プロジェクト)

suzumeは試してないけど、MIDI上にサンプリングした音声データを持って音階として鳴らして行くという手法から、だいたい精度は想像できたので、とりあえず実用レベルには至ってないと判断。

yomiはサイト上のサンプル音声ファイルを再生してみて、ちょっと厳しいかなぁと。

残るはGalateaなんだけど、サイトはしっかりしててIPAも支援しているような正統派プロジェクトで、話すだけじゃなくてヒューマンインターフェイスとしての疑似オペレータの口パクや表情、音声認識などもセットになっているみたい。

仕事で使うなら、色々面白いことも出来そうだけど、音声合成だけをみると、お手軽という感じではないのと、やはりサンプル音声ファイル(というかデモ版のビデオ)を見る限りでは、自然な日本語とは言いがたい。

初音ミクのような、ちょっと聞きぐらいではわからないレベルを想像していただけに、やはりオープンソースでは辛い分野なのかなぁと思った。まぁ、利権や特許が絡む世界だろうしねぇ。

windowsならもうちょっとハイレベルなものがあるのだろうか…


0 件のコメント: