Modele przetwarzania tekstu na mowę
AI-School obsługuje modele przetwarzania tekstu na mowę, które konwertują tekst na dźwięk. Te modele są używane w sekcji Tekst na audio na pulpicie oraz w funkcjach generujących dźwięk z czatu.
Obecny katalog
| Dostawca | Model | Uwaga |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Naturalnie brzmiąca mowa z dobrą kontrolą tonu i stylu. |
| Gemini 3.1 Flash TTS Preview | Nowy model mowy Gemini z precyzyjną kontrolą stylu, tempa i tonu. | |
| Europejska AI | Voxtral Mini TTS | Europejski text-to-speech oparty na Mistral Voxtral Mini. |
Claude nie ma własnego modelu tekstu na mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy będą zależeć od pozostałych skonfigurowanych dostawców.
Co określa model mowy
Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Należy uwzględnić:
- dostępne głosy;
- języki obsługiwane przez głos;
- jakość i naturalność wymowy;
- sposób, w jaki instrukcje dotyczące tempa, tonu, akcentu i wymowy są realizowane.
Głosy i języki
Dostępne głosy różnią się w zależności od dostawcy. AI-School wyświetla przy tekście na audio tylko te głosy, które pasują do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, ten język będzie wymieniony przy głosie.
OpenAI i Google wspierają większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym holenderski, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.
Systeemprompt
Przy tekście na audio można użyć systeempromptu, aby kierować wymową i stylem. Możesz na przykład wskazać, że musi brzmieć naturalnie po niderlandzku, że terminy takie jak AI, AI-School, ChatGPT i OpenAI mają być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.
Preferencje
Użytkownicy mogą zapisać swoje ustawienia tekstu na audio jako osobistą preferencję. Dzięki temu nie trzeba za każdym razem wybierać modelu, języka, głosu i instrukcji wymowy.