Modele przetwarzania tekstu na mowę

AI-School obsługuje modele przetwarzania tekstu na mowę, które konwertują tekst na dźwięk. Te modele są używane w sekcji Tekst na audio na pulpicie oraz w funkcjach generujących dźwięk z czatu.

Obecny katalog

Dostawca	Model	Uwaga
OpenAI	GPT-4o mini TTS	Naturalnie brzmiąca mowa z dobrą kontrolą tonu i stylu.
Google	Gemini 3.1 Flash TTS Preview	Nowy model mowy Gemini z precyzyjną kontrolą stylu, tempa i tonu.
Europejska AI	Voxtral Mini TTS	Europejski text-to-speech oparty na Mistral Voxtral Mini.

Claude nie ma własnego modelu tekstu na mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy będą zależeć od pozostałych skonfigurowanych dostawców.

Co określa model mowy

Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Należy uwzględnić:

dostępne głosy;
języki obsługiwane przez głos;
jakość i naturalność wymowy;
sposób, w jaki instrukcje dotyczące tempa, tonu, akcentu i wymowy są realizowane.

Głosy i języki

Dostępne głosy różnią się w zależności od dostawcy. AI-School wyświetla przy tekście na audio tylko te głosy, które pasują do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, ten język będzie wymieniony przy głosie.

OpenAI i Google wspierają większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym holenderski, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.

Systeemprompt

Przy tekście na audio można użyć systeempromptu, aby kierować wymową i stylem. Możesz na przykład wskazać, że musi brzmieć naturalnie po niderlandzku, że terminy takie jak AI, AI-School, ChatGPT i OpenAI mają być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.

Preferencje

Użytkownicy mogą zapisać swoje ustawienia tekstu na audio jako osobistą preferencję. Dzięki temu nie trzeba za każdym razem wybierać modelu, języka, głosu i instrukcji wymowy.

Obecny katalog​

Co określa model mowy​

Głosy i języki​

Systeemprompt​

Preferencje​

Obecny katalog

Co określa model mowy

Głosy i języki

Systeemprompt

Preferencje