Tekst-naar-spraakmodellen
AI-School ondersteunt tekst-naar-spraakmodellen waarmee tekst kan worden omgezet naar audio. Deze modellen worden gebruikt bij Tekst naar audio op het dashboard en bij functies die audio genereren vanuit een chat.
Huidige catalogus
| Aanbieder | Model | Opmerking |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Natuurlijk klinkende spraak met goede sturing op toon en stijl. |
| Gemini 3.1 Flash TTS Preview | Nieuw Gemini-spraakmodel met nauwkeurige sturing op stijl, tempo en toon. | |
| Europese AI | Voxtral Mini TTS | Europese text-to-speech op basis van Mistral Voxtral Mini. |
Claude heeft geen eigen tekst-naar-spraakmodel in de catalogus. Als Claude als aanbieder is ingeschakeld, blijven spraakmodellen afhankelijk van de overige geconfigureerde aanbieders.
Wat een spraakmodel bepaalt
Een spraakmodel bepaalt hoe tekst wordt uitgesproken en welke mogelijkheden beschikbaar zijn. Denk aan:
- de beschikbare stemmen;
- de talen die een stem ondersteunt;
- de kwaliteit en natuurlijkheid van de uitspraak;
- de manier waarop instructies over tempo, toon, accent en uitspraak worden opgevolgd.
Stemmen en talen
De beschikbare stemmen verschillen per aanbieder. AI-School toont bij tekst naar audio alleen stemmen die passen bij de gekozen taal, of stemmen die geschikt zijn voor meerdere talen. Als een stem alleen voor bepaalde talen bedoeld is, staat die taal bij de stem vermeld.
OpenAI en Google ondersteunen de meeste talen in de catalogus. Voxtral Mini TTS ondersteunt een kleinere set talen, waaronder Nederlands, Engels, Frans, Spaans, Portugees, Italiaans, Duits, Hindi en Arabisch.
Systeemprompt
Bij tekst naar audio kan de systeemprompt worden gebruikt om de uitspraak en stijl te sturen. Je kunt bijvoorbeeld aangeven dat Nederlands natuurlijk moet klinken, dat termen als AI, AI-School, ChatGPT en OpenAI met Engelse uitspraak mogen worden uitgesproken, of dat Claude als Franse naam moet klinken.
Voorkeuren
Gebruikers kunnen hun tekst-naar-audio-instellingen opslaan als persoonlijke voorkeur. Zo hoeven model, taal, stem en uitspraakinstructies niet telkens opnieuw gekozen te worden.