Gå till huvudinnehållet

Tekst-till-talande-modeller

AI-School stöderar text-til-talus-modeller som gör text till ljud. Dessa modeller används vid Text till ljud på instrumentpanelen och i funktioner som genererar ljud från en chatt.

Nuvarande katalog

LeverantörModellKommentar
OpenAIGPT-4o mini TTSNaturligt klingande tal med bra styrning av ton och stil.
GoogleGemini 3.1 Flash TTS PreviewNytt Gemini-talmodell med exakt styrning av stil, tempo och ton.
Europeisk AIVoxtral Mini TTSEuropeisk text-till-tljus baserad på Mistral Voxtral Mini.

Claude har ingen egen text-till-talusmodell i katalogen. Om Claude som leverantör är aktiverad, förblir talmodeller beroende av övriga konfigurerade leverantörer.

Vad ett talmodell bestämmer

Ett talmodell bestämmer hur text uttalas och vilka möjligheter som är tillgängliga. Tänk på:

  • tillgängliga röster;
  • de språk som en röst stöder;
  • kvaliteten och naturalismen i uttalet;
  • hur instruktioner om tempo, ton, accent och uttal följs.

Röster och språk

De tillgängliga rösterna varierar mellan leverantör. AI-School visar vid text till ljud endast röster som passar det valda språket, eller röster som passar flera språk. Om en röst är avsedd endast för vissa språk, så står språket bredvid rösten.

OpenAI och Google stöder de flesta språken i katalogen. Voxtral Mini TTS stödjer ett mindre antal språk, inklusive nederländska, engelska, franska, spanska, portugisiska, italienska, tyska, hindi och arabiska.

Systeembild

Vid text till ljud kan systeembildningen användas för att styra uttalet och stilen. Du kan till exempel ange att nederländska ska låta naturligt, att termer som AI, AI-School, ChatGPT och OpenAI får uttalas på engelska, eller att Claude ska låta som ett franskt namn.

Preferenser

Användare kan spara sina text-till-ljud-inställningar som personliga preferenser. Så behöver modell, språk, röst och uttalsinstruktioner inte väljas om och om igen.