मुख्य सामग्री पर जाएं

टेक्स्ट-टू-स्पीच मॉडल्स

AI-School टेक्स्ट-टू-स्पीच मॉडल्स का सपोर्ट करता है जो टेक्स्ट को ऑडियो में बदल सकते हैं. ये मॉडल डैशबोर्ड पर टेक्स्ट टू ऑडियो में और चैट से ऑडियो जेनरेट करने वाले फंक्शनों में उपयोग होते हैं.

मौजूदा कैटलॉग

प्रदातामॉडलटिप्पणी
OpenAIGPT-4o mini TTSस्वाभाविक लगने वाली आवाज़ के साथ अच्छी टोन और स्टाइल नियंत्रण।
GoogleGemini 3.1 Flash TTS Previewनया Gemini-voice मॉडल स्टाइल, स्पीड और टोन पर सटीक नियंत्रण के साथ।
European AIVoxtral Mini TTSMistral Voxtral Mini के आधार पर यूरोपीय टेक्स्ट-टू-स्पीच।

Claude के पास कैटलॉग में अपना टेक्स्ट-टू-स्पीच मॉडल नहीं है. अगर Claude प्रदाता के रूप में सक्षम है, तो आवाज़ मॉडल अन्य-configured प्रदाताओं के अनुसार निर्भर रहते हैं.

एक स्पीच मॉडल क्या निर्धारित करता है

एक स्पीच मॉडल बताता है कि टेक्स्ट कैसे उच्चारण किया जाएगा और कौन-कौन से विकल्प उपलब्ध होंगे. विचार करें:

  • उपलब्ध आवाज़ें;
  • भाषाएं जो आवाज़ समर्थित है;
  • उच्चारण की गुणवत्ता और प्राकृतिकता;
  • गति, टोन, एक्सेंट और उच्चारण के निर्देशों का पालन कैसे किया जाता है।

आवाज़ें और भाषाएं

उपलब्ध आवाज़ें प्रदाता के अनुसार भिन्न होती हैं. AI-School टेक्स्ट से ऑडियो दिखाते समय केवल वही आवाज़ दिखाती है जो चुनी गई भाषा के अनुरूप हो या जो बहु-भाषाओं के लिए उपयुक्त हों. अगर आवाज़ केवल कुछ भाषाओं के लिए है, तो आवाज़ के साथ वह भाषा भी उल्लेखित होगी.

OpenAI और Google कैटलॉग में अधिकांश भाषाओं का समर्थन करते हैं. Voxtral Mini TTS कुछ छोटी भाषाओं का सपोर्ट करता है, जिनमें डच, अंग्रेजी, फ्रेंच, स्पेनिश, पुर्तगाली, इतालवी, जर्मन, हिंदी और अरबी शामिल हैं।

सिस्टम-प्रॉम्प्ट

टेक्स्ट से ऑडियो में सिस्टम-प्रॉम्प्ट का उपयोग उच्चारण और स्टाइल को नियंत्रित करने के लिए किया जा सकता है. आप उदाहरण के लिए बताने सकते हैं कि डच प्राकृतिक सुनना चाहिए, that terms like AI, AI-School, ChatGPT और OpenAI के अंग्रेजी उच्चारण से बोले जाने चाहिए, या Claude को फ्रांसीसी नाम की तरह उच्चारित किया जाए।

प्राथमिकताएं

यूज़र्स अपनी टेक्स्ट-टू-audio सेटिंग्स को व्यक्तिगत पसंद के रूप में सहेज सकते हैं. इस तरह मॉडल, भाषा, आवाज़ और उच्चारण निर्देश बार-बार चुनाव करने की जरूरत नहीं रहती।