Tekst-till-talande-modeller
AI-School stöderar text-til-talus-modeller som gör text till ljud. Dessa modeller används vid Text till ljud på instrumentpanelen och i funktioner som genererar ljud från en chatt.
Nuvarande katalog
| Leverantör | Modell | Kommentar |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Naturligt klingande tal med bra styrning av ton och stil. |
| Gemini 3.1 Flash TTS Preview | Nytt Gemini-talmodell med exakt styrning av stil, tempo och ton. | |
| Europeisk AI | Voxtral Mini TTS | Europeisk text-till-tljus baserad på Mistral Voxtral Mini. |
Claude har ingen egen text-till-talusmodell i katalogen. Om Claude som leverantör är aktiverad, förblir talmodeller beroende av övriga konfigurerade leverantörer.
Vad ett talmodell bestämmer
Ett talmodell bestämmer hur text uttalas och vilka möjligheter som är tillgängliga. Tänk på:
- tillgängliga röster;
- de språk som en röst stöder;
- kvaliteten och naturalismen i uttalet;
- hur instruktioner om tempo, ton, accent och uttal följs.
Röster och språk
De tillgängliga rösterna varierar mellan leverantör. AI-School visar vid text till ljud endast röster som passar det valda språket, eller röster som passar flera språk. Om en röst är avsedd endast för vissa språk, så står språket bredvid rösten.
OpenAI och Google stöder de flesta språken i katalogen. Voxtral Mini TTS stödjer ett mindre antal språk, inklusive nederländska, engelska, franska, spanska, portugisiska, italienska, tyska, hindi och arabiska.
Systeembild
Vid text till ljud kan systeembildningen användas för att styra uttalet och stilen. Du kan till exempel ange att nederländska ska låta naturligt, att termer som AI, AI-School, ChatGPT och OpenAI får uttalas på engelska, eller att Claude ska låta som ett franskt namn.
Preferenser
Användare kan spara sina text-till-ljud-inställningar som personliga preferenser. Så behöver modell, språk, röst och uttalsinstruktioner inte väljas om och om igen.