برو به محتوای اصلی

چت با مستندات

** گام بعدی در پردازش اطلاعات**

به جای تکیه بر مجموعه داده‌های عمومی و دانش عمومی، «چت با مستندات» پاسخ‌ها و تحلیل‌های زمینه-محور را بر اساس منابع داخلی قابل اعتماد شما تولید می‌کند. مستندات خود را آپلود کنید و از این مستندات به عنوان منبع برای پاسخ به سوالات در چت استفاده کنید!

حل محدودیت‌های داده

اگر به یک مدل زبان سوال بپرسید، به دیتاستی که مدل با آن آموزش دیده است بستگی دارید. این معمولاً اطلاعاتی است که از اینترنت جمع‌آوری شده است. منابع غیرعمومی احتمالاً در این دیتاست نیستند. با استفاده از مستندات خود به عنوان منبع برای چت، مطمئن می‌شوید که مدل به اطلاعاتی که برای پاسخ به سوالات شما لازم است دسترسی دارد.

امکانات با مستندات شما

می‌توانید درباره مستندات خود سوالاتی مطرح کنید، مانند بیان نکات اصلی یک سند یا خلاصه کردن سند. همچنین می‌توانید تحلیل‌های خاصی را توسط مدل زبان با استفاده از دیتاست خود انجام دهید.

معایب گفت‌وگویی مبتنی بر مستندات

آپلود مستندات و پردازش آنها مراحل اضافی هستند که در صورتی که بدون زمینه اطلاعات خاص به خوبی پاسخ بگیرید لازم نیست انجام دهید. همچنین پاسخ‌گویی طول می‌کشد چون ابتدا باید اطلاعات لازم از سند استخراج شود و سپس درخواست به مدل زبان فرستاده شود.

پشت صحنه چت با مستندات

متن از مستنداتی که آپلود می‌کنید استخراج شده و به قطعات تقسیم می‌شود. این قطعات دارای تعدادی کاراکتر ثابت (1024 کاراکتر) هستند و همچنین همپوشی (128 کاراکتر) بین قطعات تعریف شده است. هر تکه متن به عنوان یک وکتور در یک پایگاه داده وکتور ذخیره می‌شود. در هر سوال از این داده‌ها براساس تشابه با سوال گزینش می‌شود.

فرایند گزینش قطعات سند

قطعات متن قبلاً به وکتور تبدیل شده‌اند. وکتورها ابعاد متعددی دارند که نشان می‌دهد این متن تا چه حد با متن‌های دیگر “یکسان” است. مانند سیستم رنگ RGB. رنگی با مقدار RGB مشابه نیز مشابه است اما کمی تفاوت دارد. پایگاه داده وکتور به ما امکان می‌دهد قطعات متن را به صورت مرتب و فیلتر شده بر اساس سوال استخراج کنیم. ما حداکثر ۱۰۰ قطعه متن از ۱۰۲۴ کاراکتر را برای ارسال با سوال انتخاب می‌کنیم.

مدل‌های مناسب برای چت مبتنی بر سند

ما مدل‌هایی با دامنه متنی بزرگ انتخاب کرده‌ایم تا امکان چت با مستندات فراهم شود. می‌خواهیم حداکثر ۱۰۰ قطعه متن از ۱۰۲۴ کاراکتر را همراه با درخواست ارسال کنیم. این بیش از ۱۰۰٬۰۰۰ کاراکتر است. لطفاً از یک مدل زبان باکیفیت بالا از کاتالوگ مرکزی مدل‌ها استفاده کنید.

مدل‌های مناسب

مدل‌های مناسب مدل‌هایی با فضای کانتکست کافی و تحلیل مناسب مستندات هستند، مانند مدل‌های باکیفیت OpenAI، Claude، Google یا AI اتحادیه اروپا.

انتخاب یک یا چند مستند

می‌توانید حالت فایل را با کلیک روی گیره کاغذ در سمت راست نوار پرسش فعال کنید. می‌توانید تا ۱۰ فایل برای چت انتخاب کنید.

فایل‌هایی که آپلود می‌کنید ابتدا پردازش می‌شوند. به محض اینکه پردازش کامل شد، AI-School می‌تواند محتوا را در چت، در دستیاران و در جریان کار استفاده کند. اگر پردازش با مشکلاتی مواجه شود، فایل وضعیت خطا را خواهد گرفت و باید دوباره آپلود یا دوباره پردازش شود.

مدل‌های زبانی مناسب

در لحظه‌ای که شروع به چت با مستندات می‌کنید، بررسی می‌شود که آیا مدل زبانی برای چت با مستندات مناسب است یا نه. اگر مناسب نباشد، به طور خودکار یک مدل مناسب از کاتالوگ فعلی انتخاب می‌شود.

چت با مستندات

شما با این مستندات تا وقتی حالت فایل باز باشد با آنها چت می‌کنید.

مدیریت فایل‌ها و پردازش مجدد

در بخش مدیریت فایل‌ها فایل‌هایی که آپلود کرده‌اید یا توسط AI-School ساخته شده‌اند را مشاهده می‌کنید. برای فایل‌های PDF می‌توانید از منوی عملیاتی، یک فایل را دوباره پردازش کنید. این جایگزین استخراج متن موجود با پردازش جدید می‌شود.

برای PDFها معمولاً می‌توانید از لایه متن معمول استفاده کنید و هر زمان لازم باشد، تحلیل PDF گسترده‌تری انجام دهید. این تحلیل به ویژه برای موارد زیر مفید است:

  • PDFهای اسکن‌شده
  • فرم‌های پرشده
  • پاسخ‌های دست‌نویس
  • گزینه‌های واگردان یا خط‌دار
  • جداول، شکل‌ها و سایر اطلاعات دیداری

برای فایل‌های بزرگ، پردازش ممکن است طول بکشد. AI-School اسناد بزرگ را در صورت نیاز به بخش‌های کوچک تقسیم می‌کند تا بتوانند با فرمت‌های طولانی‌تر PDF نیز پردازش شوند.

انتخاب فایل‌های موجود

هنگام درخواست فرم یا کارکرد، می‌توانید نه تنها فایل‌های جدید آپلود کنید، بلکه فایل‌های موجود را از طریق مدیر رسانه انتخاب کنید. بدین ترتیب به یک سوال، یک پاسخ یا سند منبع دیگر را برای بارگذاری مجدد لازم نیست دوباره آپلود کنید.

فایل‌هایی که از طریق چنین فرمی اضافه می‌شوند، در فایل‌های دستیار چت ظاهر می‌شوند. به طور خودکار برای سوالات معمول چت انتخاب نمی‌شوند، مگر اینکه شما خودتان آنها را فعال کنید.

پردازش به ازای هر فایل

علاوه بر چت با مستندات، AI-School امکان اعمال یک پرامپ جداگانه بر هر سند و دریافت پاسخ‌های فردی را نیز فراهم می‌کند. این قابلیت «پردازش به ازای هر فایل» نامیده می‌شود.

پردازش به ازای هر فایل

این قابلیت می‌تواند به صورت هم‌زمان با «چت با فایل‌ها» استفاده شود.

سناریو ممکن

یک مثال عملی از استفاده از «پردازش به ازای هر فایل»:

  1. شما آزمون و مدل پاسخ را آپلود می‌کنید و آن را در بخش چت با فایل‌ها فعال می‌کنید
  2. چندین آزمون ارائه‌شده آپلود می‌کنید و آن را در بخش پردازش به ازای هر فایل فعال می‌کنید
  3. یک پرامپ فرموله می‌کنید که به صورت جداگانه روی همه فایل‌ها اعمال می‌شود

به این ترتیب می‌توانید مثلاً تمامی آزمون‌های ارائه‌شده را به صورت خودکار بر اساس مدل پاسخ ارزیابی کنید.

حداکثر تعداد فایل‌ها

برای قابلیت «پردازش به ازای هر فایل»، حداکثر ۳۰ فایل وجود دارد.

انواع فایل‌های پشتیبانی‌شده

AI-School از انواع مختلف فایل‌ها برای چت با مستندات پشتیبانی می‌کند:

  • فایل‌های PDF با پسوند .pdf
  • فایل‌های Word با پسوند .docx
  • فایل‌های CSV با پسوند .csv
  • فایل‌های JSON با پسوند .json
  • فایل‌های متنی با پسوند .txt
  • فایل‌های Markdown با پسوند .md
  • فایل‌های صوتی و تصویری با پسوندهای 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' یا 'webm'

چت با فایل‌های صوتی یا ویدیویی

برای چت با فایل‌های صوتی یا ویدیویی، AI-School از مدل Whisper شرکت OpenAI استفاده می‌کند.

پس از استخراج متن، می‌توانید از یک مدل متنی مناسب برای بررسی و اصلاح نقطه‌گذاری و املا استفاده کنید.

سپس همان روش استخراج از اسناد PDF یا Word دنبال می‌شود.

Whisper محدودیت ۲۵ مگابایت برای هر فایل صوتی یا ویدئویی دارد. بنابراین برای آپلود فایل‌های جدید نیز همین محدودیت را اعمال می‌کنیم.

فایل‌هایی که می‌توانید به عنوان نمونه دانلود کنید

Groot history document