メインコンテンツへスキップ

テキスト-to-speech モデル

AI-School はテキスト-to-speech モデルをサポートしており、テキストを音声に変換できます。これらのモデルはダッシュボードの テキストから音声 やチャットから音声を生成する機能で使用されます。

現在のカタログ

提供者モデル備考
OpenAIGPT-4o mini TTS自然に聞こえる音声で、トーンとスタイルの指示性が良い。
GoogleGemini 3.1 Flash TTS Previewスタイル、テンポ、トーンの指示性が高い新しい Gemini ボイスモデル。
European AIVoxtral Mini TTSMistral Voxtral Mini に基づくヨーロッパのテキスト-to-speech。

Claude はカタログに自前のテキスト-to-speech モデルを持っていません。Claude を提供者として有効にした場合、音声モデルは他の構成済み提供者に依存し続けます。

テキスト-to-speech モデルが決定するもの

テキスト-to-speech モデルは、テキストがどのように発音されるかと、どの機能が利用可能かを決定します。以下を含むことを想定してください。

  • 利用可能な声;
  • 声がサポートする言語;
  • 発音の品質と自然さ;
  • 速度、トーン、アクセント、発音に関する指示の実行方法。

声と言語

利用可能な声は提供者ごとに異なります。AI-School はテキストから音声に変換する際、選択した言語に適した声、または複数言語に対応する声のみを表示します。特定の言語向けのみの声には、対応言語が声の横に表示されます。

OpenAI と Google はカタログ内のほとんどの言語をサポートします。Voxtral Mini TTS は、オランダ語、英語、フランス語、スペイン語、ポルトガル語、イタリア語、ドイツ語、ヒンディー語、アラビア語など、少数の言語をサポートします。

システムプロンプト

テキスト-to-speech では、発音とスタイルを制御するためにシステムプロンプトを使用できます。例えば、オランダ語を自然に聞こえるようにする、AIAI-SchoolChatGPTOpenAI を英語発音で発声させる、あるいは Claude をフランス語名として発音させるといった指定ができます。

設定の優先事項

ユーザーは自分のテキスト-to-audio 設定を個人設定として保存できます。これにより、モデル、言語、声、発音の指示を毎回選択する必要がなくなります。