چت با مستندات
** گام بعدی در پردازش اطلاعات**
به جای تکیه بر مجموعه دادههای عمومی و دانش عمومی، «چت با مستندات» پاسخها و تحلیلهای زمینه-محور را بر اساس منابع داخلی قابل اعتماد شما تولید میکند. مستندات خود را آپلود کنید و از این مستندات به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!
حل محدودیتهای داده
اگر به یک مدل زبان سوال بپرسید، به دیتاستی که مدل با آن آموزش دیده است بست گی دارید. این معمولاً اطلاعاتی است که از اینترنت جمعآوری شده است. منابع غیرعمومی احتمالاً در این دیتاست نیستند. با استفاده از مستندات خود به عنوان منبع برای چت، مطمئن میشوید که مدل به اطلاعاتی که برای پاسخ به سوالات شما لازم است دسترسی دارد.
امکانات با مستندات شما
میتوانید درباره مستندات خود سوالاتی مطرح کنید، مانند بیان نکات اصلی یک سند یا خلاصه کردن سند. همچنین میتوانید تحلیلهای خاصی را توسط مدل زبان با استفاده از دیتاست خود انجام دهید.
معایب گفتوگویی مبتنی بر مستندات
آپلود مستندات و پردازش آنها مراحل اضافی هستند که در صورتی که بدون زمینه اطلاعات خاص به خوبی پاسخ بگیرید لازم نیست انجام دهید. همچنین پاسخگویی طول میکشد چون ابتدا باید اطلاعات لازم از سند استخراج شود و سپس درخواست به مدل زبان فرستاده شود.
پشت صحنه چت با مستندات
متن از مستنداتی که آپلود میکنید استخراج شده و به قطعات تقسیم میشود. این قطعات دارای تعدادی کاراکتر ثابت (1024 کاراکتر) هستند و همچنین همپوشی (128 کاراکتر) بین قطعات تعریف شده است. هر تکه متن به عنوان یک وکتور در یک پایگاه داده وکتور ذخیره میشود. در هر سوال از این دادهها براساس تشابه با سوال گزینش میشود.
فرایند گزینش قطعات سند
قطعات متن قبلاً به وکتور تبدیل شدهاند. وکتورها ابعاد متعددی دارند که نشان میدهد این متن تا چه حد با متنهای دیگر “یکسان” است. مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه نیز مشابه است اما کمی تفاوت دارد. پایگاه داده وکتور به ما امکان میدهد قطعات متن را به صورت مرتب و فیلتر شده بر اساس سوال استخراج کنیم. ما حداکثر ۱۰۰ قطعه متن از ۱۰۲۴ کاراکتر را برای ارسال با سوال انتخاب میکنیم.
مدلهای مناسب برای چت مبتنی بر سند
ما مدلهایی با دامنه متنی بزرگ انتخاب کردهایم تا امکان چت با مستندات فراهم شود. میخواهیم حداکثر ۱۰۰ قطعه متن از ۱۰۲۴ کاراکتر را همراه با درخواست ارسال کنیم. این بیش از ۱۰۰٬۰۰۰ کاراکتر است. لطفاً از یک مدل زبان باکیفیت بالا از کاتالوگ مرکزی مدلها استفاده کنید.
مدلهای مناسب مدلهایی با فضای کانتکست کافی و تحلیل مناسب مستندات هستند، مانند مدلهای باکیفیت OpenAI، Claude، Google یا AI اتحادیه اروپا.
انتخاب یک یا چند مستند
میتوانید حالت فایل را با کلیک روی گیره کاغذ در سمت راست نوار پرسش فعال کنید. میتوانید تا ۱۰ فایل برای چت انتخاب کنید.
فایلهایی که آپلود میکنید ابتدا پردازش میشوند. به محض اینکه پردازش کامل شد، AI-School میتواند محتوا را در چت، در دستیاران و در جریان کار استفاده کند. اگر پردازش با مشکلاتی مواجه شود، فایل وضعیت خطا را خواهد گرفت و باید دوباره آپلود یا دوباره پردازش شود.
در لحظهای که شروع به چت با مستندات میکنید، بررسی میشود که آیا مدل زبانی برای چت با مستندات مناسب است یا نه. اگر مناسب نباشد، به طور خودکار یک مدل مناسب از کاتالوگ فعلی انتخاب میشود.

شما با این مستندات تا وقتی حالت فایل باز باشد با آنها چت میکنید.
مدیریت فایلها و پردازش مجدد
در بخش مدیریت فایلها فایلهایی که آپلود کردهاید یا توسط AI-School ساخته شدهاند را مشاهده میکنید. برای فایلهای PDF میتوانید از منوی عملیاتی، یک فایل را دوباره پردازش کنید. این جایگزین استخراج متن موجود با پردازش جدید میشود.
برای PDFها معمولاً میتوانید از لایه متن معمول استفاده کنید و هر زمان لازم باشد، تحلیل PDF گستردهتری انجام دهید. این تحلیل به ویژه برای موارد زیر مفید است:
- PDFهای اسکنشده
- فرمهای پرشده
- پاسخهای دستنویس
- گزینههای واگردان یا خطدار
- جداول، شکلها و سایر اطلاعات دیداری
برای فایلهای بزرگ، پردازش ممکن است طول بکشد. AI-School اسناد بزرگ را در صورت نیاز به بخشهای کوچک تقسیم میکند تا بتوانند با فرمتهای طولانیتر PDF نیز پردازش شوند.
انتخاب فایلهای موجود
هنگام درخواست فرم یا کارکرد، میتوانید نه تنها فایلهای جدید آپلود کنید، بلکه فایلهای موجود را از طریق مدیر رسانه انتخاب کنید. بدین ترتیب به یک سوال، یک پاسخ یا سند منبع دیگر را برای بارگذاری مجدد لازم نیست دوباره آپلود کنید.
فایلهایی که از طریق چنین فرمی اضافه میشوند، در فایلهای دستیار چت ظاهر میشوند. به طور خودکار برای سوالات معمول چت انتخاب نمیشوند، مگر اینکه شما خودتان آنها را فعال کنید.
پردازش به ازای هر فایل
علاوه بر چت با مستندات، AI-School امکان اعمال یک پرامپ جداگانه بر هر سند و دریافت پاسخهای فردی را نیز فراهم میکند. این قابلیت «پردازش به ازای هر فایل» نامیده میشود.

این قابلیت میتواند به صورت همزمان با «چت با فایلها» استفاده شود.
سناریو ممکن
یک مثال عملی از استفاده از «پردازش به ازای هر فایل»:
- شما آزمون و مدل پاسخ را آپلود میکنید و آن را در بخش چت با فایلها فعال میکنید
- چندین آزمون ارائهشده آپلود میکنید و آن را در بخش پردازش به ازای هر فایل فعال میکنید
- یک پرامپ فرموله میکنید که به صورت جداگانه روی همه فایلها اعمال میشود
به این ترتیب میتوانید مثلاً تمامی آزمونهای ارائهشده را به صورت خودکار بر اساس مدل پاسخ ارزیابی کنید.
برای قابلیت «پردازش به ازای هر فایل»، حداکثر ۳۰ فایل وجود دارد.
انواع فایلهای پشتیبانیشده
AI-School از انواع مختلف فایلها برای چت با مستندات پشتیبانی میکند:
- فایلهای PDF با پسوند .pdf
- فایلهای Word با پسوند .docx
- فایلهای CSV با پسوند .csv
- فایلهای JSON با پسوند .json
- فایلهای متنی با پسوند .txt
- فایلهای Markdown با پسوند .md
- فایلهای صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'
چت با فایلهای صوتی یا ویدیویی
برای چت با فایلهای صوتی یا ویدیویی، AI-School از مدل Whisper شرکت OpenAI استفاده میکند.
پس از استخراج متن، میتوانید از یک مدل متنی مناسب برای بررسی و اصلاح نقطهگذاری و املا استفاده کنید.
سپس همان روش استخراج از اسناد PDF یا Word دنبال میشود.
Whisper محدودیت ۲۵ مگابایت برای هر فایل صوتی یا ویدئویی دارد. بنابراین برای آپلود فایلهای جدید نیز همین محدودیت را اعمال میکنیم.