मुख्य सामग्री पर जाएं

दस्तावेज़ों के साथ चैट

सूचना प्रसंस्करण में अगला कदम

Public datasets और सामान्य ज्ञान पर निर्भर रहने के बजाय, "दस्तावेज़ों के साथ चैट" संदर्भ-विशिष्ट उत्तर और विश्लेषण आपके परिचित आंतरिक स्रोतों के आधार पर बनाता है. अपने दस्तावेज़ अपलोड करें और उन्हें चैट के उत्तर देने के लिए आधार बनाकर उपयोग करें!

डेटा-सीमाओं का समाधान

जब आप एक भाषा मॉडल से सवाल पूछते हैं, तो आप उस dataset पर निर्भर होते हैं जिस पर मॉडल प्रशिक्षित है. यह आम तौर पर इंटरनेट से प्राप्त जानकारी होती है. गैर-सरकारी स्रोत संभवतः इस डेटासेट में नहीं होते. अपने दस्तावेज़ों को चैट के स्रोत के रूप में इस्तेमाल करके आप सुनिश्चित करते हैं कि मॉडल के पास वही जानकारी है जो आपको अपने प्रश्नों के उत्तर के लिए चाहिए.

अपने दस्तावेज़ों के साथ संभावनाएं

आप अपने दस्तावेज़ों के बारे में प्रश्न पूछ सकते हैं, जैसे किसी दस्तावेज़ के मुख्य बिंदुओं का उल्लेख करना या दस्तावेज़ का सार प्रस्तुत करना. आप अपने ही dataset की मदद से भाषा मॉडल से विशिष्ट विश्लेषण भी करव सकते हैं.

दस्तावेज-आधारित चैट के नुकसान

दस्तावेज़ अपलोड करना और उनका प्रसंस्करण अतिरिक्त कदम है जिन्हें आप बिना उसे दिए भी सही उत्तर प्राप्त कर सकते हैं. साथ ही उत्तर जेनरेट करने में समय अधिक लग सकता है क्योंकि पहले दस्तावेज़ से आवश्यक जानकारी निकालनी पड़ती है फिर अनुरोध मॉडल को भेजना पड़ता है।

दस्तावेजों के साथ चैट के पीछे की दुनिया

आप जो दस्तावेज़ अपलोड करते हैं, उनका टेक्स्ट दस्तावेज़ से निकाला जाता है और टुकड़ों में विभाजित किया जाता है. इन टुकड़ों की एक निश्चित अक्षर संख्या होती है (1024 अक्षर) और टुकड़ों के बीच 128 अक्षरों का ओवरलैप भी सेट किया गया है. हर टेक्स्ट स्निपेट को एक वेक्टर के रूप में वेक्टर डेटाबेस में संग्रहित किया जाता है. हर प्रश्न के साथ इन तथ्यों में से प्रश्न के समानता के आधार पर चयन किया जाता है.

दस्तावेज़ खण्डों के चयन प्रक्रिया

टुकड़े पहले से ही वेक्टरों में बदले जा चुके हैं. वेक्टर में कई आयाम होते हैं जो दिखाते हैं कि यह टेक्स्ट अन्य टेक्स्ट से कितना समान है. RGB रंग प्रणाली की तरह सोचिए. किसी रंग का समान RGB मान एक समान रंग है, लेकिन थोड़ा अलग. वेक्टर डेटाबेस हमें प्रश्न के आधार पर टेक्स्ट के टुकड़ों को क्रमबद्ध और फ़िल्टर करके प्राप्त करने में सक्षम बनाता है. हम अधिकतम 100 टेक्स्ट टुकड़े 1024 अक्षर के साथ प्रश्न के साथ भेजने के लिए चयन करते हैं.

दस्तावेज-आधारित चैट के लिए उपयुक्त मॉडल

हमने ऐसे मॉडलों का चयन किया है जिनमें बड़ा संदर्भ-विंडो है ताकि दस्तावेज़ों के साथ चैट संभव हो सके. हम अधिकतम 100 टुकड़े 1024 अक्षर के भेजना चाहते हैं. यह 100,000 से अधिक अक्षर होते हैं. इसके लिए प्राथमिकतापूर्ण केंद्रीय मॉडल कैटलॉग से उच्च-गुणवत्ता वाले भाषा मॉडल का उपयोग करें.

उपयुक्त मॉडलों

उपयुक्त मॉडल वे मॉडल होते हैं जिनमें पर्याप्त संदर्भ स्थान और अच्छी दस्तावेज़ विश्लेषण हों, जैसे OpenAI के उच्च-गुणवत्ता मॉडल, Claude, Google या यूरोपीय AI।

एक या अधिक दस्तावेज़ चुनें

आप प्रश्न-पंक्ति के दाईं ओर पेपरक्लिप पर क्लिक करके फ़ाइल-मोड चुन सकते हैं. आप इसे चैट करने के लिए अधिकतम 10 फ़ाइलों तक चुन सकते हैं.

अपलोड किए गए फ़ाइलें पहले प्रक्रिया होती हैं. प्रक्रिया पूरी होने पर AI-School चैट, सहायक और वर्कफ़्लोज़ में सामग्री का उपयोग कर सकता है. यदि प्रसंस्करण असफल हो जाए, फ़ाइल में त्रुटि स्थिति होगी और आपको फ़ाइल को पुनः अपलोड या पुनः प्रसंस्करण करना होगा.

उपयुक्त भाषा मॉडल

जैसे ही आप दस्तावेज़ों के साथ चैट करना शुरू करते हैं, चेक किया जाता है कि भाषा मॉडल दस्तावेज़ों के साथ चैट करने के लिए उपयुक्त है या नहीं. अगर यह उपयुक्त नहीं है, तो मौजूदा कैटलॉग से एक उपयुक्त मॉडल स्वचालित रूप से चुना जाएगा।

दस्तावेज़ों के साथ चैट

आप इन दस्तावेज़ों के साथ चैट कर सकते हैं जब तक फ़ाइल-Mod चालू हो.

फ़ाइलें प्रबंधित करें और पुनः प्रसंस्करण

फ़ाइल प्रबंधक में आप वे फ़ाइलें देखेंगे जो आपने अपलोड की हैं या जो AI-School द्वारा बनाई गई हैं. PDFs के लिए आप क्रिया-यूट के जरिए एक फ़ाइल को पुनः प्रसंस्करण कर सकते हैं. इससे मौजूदा टेक्स्ट-एक्सट्रैक्शन को नई प्रक्रिया से प्रतिस्थापित किया जाएगा.

PDF-में AI-School सामान्य टेक्स्ट-लेयर का उपयोग कर सकता है और यदि आवश्यक हो, विस्तृत PDF-विश्लेषण कर सकता है. यह विश्लेषण विशेष रूप से निम्न में उपयोगी है:

  • स्कैन किए गए PDFs
  • भरे गए फॉर्म
  • हस्त-लिखित उत्तर
  • वृत्ताकार या रेखांकित चयन
  • तालिकाएं, चित्र और अन्य दृश्य जानकारी

बड़े PDFs पर प्रसंस्करण अधिक समय ले सकता है. AI-School बड़े दस्तावेज़ को आवश्यकतानुसार भागों में विभाजित करता है ताकि भी बड़े PDFs प्रसंस्कृत हो सकें.

मौजूदा फ़ाइलें चुनना

जब एक फ़ॉर्म या वर्कफ़्लो एक फ़ाइल मांगता है, आप नयी फ़ाइलें अपलोड करने के साथ-साथ mediacontroler के जरिए मौजूदा फ़ाइलें भी चुन सकते हैं. ऐसा करने से आप एक टेस्ट, फीड-फॉर्मेट या अन्य मूल-डॉक्यूमेंट को हर बार अपलोड नहीं करना पड़ता.

ऐसी फ़ॉर्म-के जरिए जोड़ी गई फ़ाइलें चैट के सहायक-फ़ाइलों में दिखाई देंगी. सामान्य चैट सवालों के लिए स्वतः चयन नहीं किए जाते, जब तक कि आप उन्हें स्वयं सक्षम न करें.

फ़ाइल के अनुसार प्रसंस्करण

दस्तावेज़ के साथ चैट के अलावा, AI-School यह भी उपयोग कर सकता है कि हर दस्तावेज़ पर एक अलग प्रॉम्प्ट लागू किया जाए और व्यक्तिगत उत्तर प्राप्त करें. इस फ़ंक्शन को Per फ़ाइल प्रसंस्करण कहा गया है.

Per फ़ाइल प्रसंस्करण

यह फ़ंक्शन "Chat with files" के साथ संयोजन में उपयोग किया जा सकता है।

सम्भावित परिदृश्य

"Per फ़ाइल प्रसंस्करण" के उपयोग का एक व्यावहारिक उदाहरण:

  1. आप प्रश्न-पत्र और उत्तर- मॉडल अपलोड करते हैं और इन्हें Chat with files में चालू करते हैं
  2. आप कई जमा किए गए प्रश्न-पत्र अपलोड करते हैं और इन्हें Per फ़ाइल प्रसंस्करण में चालू करते हैं
  3. आप एक प्रॉम्प्ट बनाते हैं, जिसे सभी फ़ाइलों पर individuele रूप से लागू किया जाएगा

इस तरह आप उदाहरण के लिए सभी जमा किए गए प्रश्नों को उत्तर-मॉडल के आधार पर अपने आप मूल्यांकन कर सकते हैं।

अधिकतम फ़ाइलों की संख्या

"Per फ़ाइल प्रसंस्करण" फ़ंक्शन के लिए 30 फ़ाइलों की अधिकतम सीमा है।

समर्थित फ़ाइल प्रकार

AI-School दस्तावेज़ों के साथ चैट करने के लिए विभिन्न फ़ाइल प्रकारों का समर्थन करता है:

  • PDF फाइलें .pdf पर समाप्त
  • Word फाइलें .docx पर समाप्त
  • CSV फाइलें .csv पर समाप्त
  • JSON फाइलें .json पर समाप्त
  • टेक्स्ट फाइलें .txt पर समाप्त
  • Markdown फाइलें .md पर समाप्त
  • ऑडियो और वीडियो फाइलें जिनके एक्सटेंशन 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' या 'webm' हैं

ऑडियो या वीडियो फाइलों के साथ चैट

ऑडियो या वीडियो फाइलों के साथ चैट करने के लिए AI-School OpenAI के Whisper मॉडल का उपयोग करता है.

टेक्स्ट एक्सट्रैक्शन के बाद उपयुक्त टेक्स्ट- मॉडल का उपयोग पंक्चुएशन और स्पेलिंग की जाँच और सुधार के लिए किया जा सकता है.

फिर वही प्रक्रिया PDF या Word दस्तावेज़ से एक्सट्रैक्शन के समान होती है.

Whisper की प्रति ऑडियो या वीडियो फ़ाइल 25 MB की सीमा है. इसलिए नई फ़ाइलें अपलोड करते समय वही सीमा लागू है।

आप डाउनलोड कर सकते हैं ऐसी फ़ाइलें

Groot इतिहास दस्तावेज़