Sari la conținutul principal

Modele text-to-speech

AI-School oferă modele text-to-speech cu ajutorul cărora textul poate fi transformat în audio. Aceste modele sunt utilizate la Text către audio în tabloul de bord și în funcțiile care generează audio dintr-un chat.

Catalogul actual

FurnizorModelNotă
OpenAIGPT-4o mini TTSVorbire naturală cu control bun asupra tonalității și stilului.
GoogleGemini 3.1 Flash TTS PreviewNoul model de vorbire Gemini cu control precis asupra stilului, tempo-ului și tonalității.
European AIVoxtral Mini TTSVorbită europeană text-to-speech bazată pe Mistral Voxtral Mini.

Claude nu are un model propriu de text-to-speech în catalog. Dacă Claude este activat ca furnizor, modelele de vorbire rămân dependente de furnizorii configurați în rest.

Ceea ce stabilește un model de vorbire

Un model de vorbire stabilește cum este pronunțat textul și ce opțiuni sunt disponibile. Găsiți de exemplu:

  • vocile disponibile;
  • limbile pe care o voce le suportă;
  • calitatea și naturalitatea pronunției;
  • modul în care instrucțiunile privind tempo-ul, tonalitatea, accentul și pronunția sunt respectate.

Voci și limbi

Vocalurile disponibile variază în funcție de furnizor. AI-School afișează la text către audio doar vocile care se potrivesc cu limba aleasă, sau vocile potrivite pentru mai multe limbi. Dacă o voce este destinată doar anumitor limbi, limba respectivă apare lângă voce.

OpenAI și Google suportă cele mai multe limbi din catalog. Voxtral Mini TTS suportă un set mai mic de limbi, printre care neerlandeza, engleza, franceza, spaniola, portugheza, italiana, germana, hindi și arabă.

Systeemprompt

La text către audio, systeemprompt-ul poate fi folosit pentru a direcționa pronunția și stilul. De exemplu, poți indica că neerlandeza trebuie să sune natural, că termeni precum AI, AI-School, ChatGPT și OpenAI să fie pronunțați în engleză, sau că Claude să sune ca un nume franțuzesc.

Preferințe

Utilizatorii își pot salva setările text-to-audio ca preferințe personale. Astfel, modelul, limba, vocea și instrucțiunile de pronunție nu trebuie să fie alese de fiecare dată.