Перейти до основного змісту

Чат з документами

Наступний крок у обробці інформації

Замість довіри до публічних датасетів та загальних знань, «Чат з документами» продукує контекстуально специфічні відповіді та аналітику на основі ваших довірених внутрішніх джерел. Завантажуйте свої документи та використовуйте ці документи як основу для відповіді на запитання в чаті!

Вирішення обмежень даних

Коли ви ставите запитання мовній моделі, ви залежите від датасету, на якому навчена модель. Зазвичай це інформація з інтернету. Непублічні джерела, швидше за все, відсутні у цьому датасеті. Використовуючи ваші документи як джерело для чату, ви переконуєтеся, що модель має інформацію, яку вам потрібно для відповіді на ваші питання.

Можливості з вашими документами

Ви можете ставити запитання щодо ваших документів, наприклад називати основні пункти документа або підсумовувати документ. Також ви можете доручити моделі виконати конкретні аналітики за допомогою вашого власного набору даних.

Недоліки чатування за документами

Завантаження документів та їх обробка — це додаткові кроки, які вам не потрібно робити, якщо ви можете отримати коректну відповідь без контексту конкретної інформації. Також це займе більше часу на створення відповіді, оскільки спочатку потрібно витягнути потрібну інформацію з документа перед відправкою запиту до мовної моделі.

За лаштунками чатування з документами

Текст із завантажених вами документів витягується з документа та діється на фрагменти. У цих фрагментах фіксована кількість символів (1024 символи), і ми також встановили перекриття (128 символів) між фрагментами. Кожна порція тексту зберігається як вектор у векторній базі даних. При кожному запиті з цієї інформації виконується відбір за схожістю з запитом.

Процес відбору фрагментів документа

Фрагменти тексту вже перетворені на вектори. Вектори мають кілька вимірів, які вказують, наскільки «схожий» цей текст із іншими. Подумайте про систему кольорів RGB. Колір з подібним значенням RGB також буде подібним кольором, але трохи іншим. Векторна база даних дозволяє нам витягувати фрагменти тексту в порядку та з фільтрацією за запитом.

Ми обираємо максимум 100 фрагментів тексту по 1024 символи для відправлення з запитом.

Відповідні моделі для документного чату

Ми обрали моделі з великим контекстним вікном, щоб зробити можливим чат з документами. Ми прагнемо передати не більше 100 фрагментів тексту по 1024 символи. Це більше 100 000 символів. Для цього переважно використовуйте високоякісну мовну модель із центрального каталогу моделей.

Підходящі моделі

Підходящі моделі — це моделі з достатнім контекстним простором та гарним аналізом документів, такі як високоякісні моделі OpenAI, Claude, Google або європейський AI.

Вибір одного або кількох документів

Ви можете увімкнути режим файлів, натиснувши на скріпку з правого боку панелі запиту. Це дозволяє обрати до 10 файлів для чату.

Файли, які ви завантажуєте, спочатку обробляються. Як тільки обробка завершена, AI-School може використати їхній зміст у чаті, в асистентах та у робочих процесах. Якщо обробка не вдалася, файл набуває статусу помилки, і ви повинні завантажити файл заново або повторно обробити.

Підходящі мовні моделі

На момент початку чату з документами перевіряється, чи відповідає мовна модель вимогам для чатування з документами. Якщо ні — автоматично вибирається відповідна модель з актуального каталогу.

Чат з документами

Вы чатуєте з цими документами, поки режим файлів увімкнено.

Управління файлами та повторна обробка

У Керування файлами ви бачите файли, які ви завантажили або які AI-School створив. Для PDF-файлів через меню дій можна повторно обробити файл. Це замінює існуюший витяг тексту новою обробкою.

Для PDF-модель може використати звичайний текстовий шар і, за потреби, провести розширений аналіз PDF. Цей аналіз особливо корисний для:

  • відсканованих PDF
  • заповнених форм
  • рукописних відповідей
  • виділених або підкреслених варіантів
  • таблиць, зображень та іншої візуальної інформації

Для великих PDF-ділянок обробка може зайняти більше часу. AI-School розбиває великі документи на частини за потреби, щоб обробка довших PDF була можлива.

Вибір наявних файлів

Коли форма або робочий процес запитує файл, ви можете не лише завантажувати нові файли, але й обирати наявні через менеджер медіа. Так вам не потрібно кожного разу завантажувати тест або інші вихідні документи.

Файли, додані через таку форму, з'являються у асистентських файлах чату. Вони не автоматично виділяються як доступні для звичайних запитань чату, поки ви самі їх туди не включите.

Обробка за кожним файлом

Окрім чату з документами, AI-School також надає можливість окремо застосовувати підказку до кожного документа та отримувати окремі відповіді. Ця функція називається Обробка за файлом.

Обробка за файлом

Цю функцію можна використовувати разом з «Чат з файлами».

Можливий сценарій

Практичний приклад використання «Обробка за файлом»:

  1. Ви завантажуєте тест та відповідну модель та вмикаєте їх у Чат з файлами
  2. Ви завантажуєте кілька поданих тестів та вмикаєте їх у Обробка за файлом
  3. Ви формулюєте підказку, яка застосовується до кожного з файлів окремо

Так ви, наприклад, можете автоматично оцінювати всі подані тести на основі моделі відповідей.

Максимальна кількість файлів

Діє максимум 30 файлів для функції «Обробка за файлом».

Підтримувані типи файлів

AI-School підтримує різні типи файлів для чату з документами:

  • PDF файли з розширенням .pdf
  • Word файли з розширенням .docx
  • CSV файли з розширенням .csv
  • JSON файли з розширенням .json
  • Текстові файли з розширенням .txt
  • Markdown файли з розширенням .md
  • Аудіо та відео файли з розширеннями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' або 'webm'

Чат із аудіо або відео файлами

Для чату з аудіо або відео файлами AI-School використовує модель Whisper від OpenAI.

Після витягання тексту може бути використана відповідна мовна модель для перевірки та корекції пунктуації й орфографії.

Далі дотримується та сама процедура, що й витяг з PDF або Word документів.

Whisper має обмеження 25 МБ на аудіо або відео файл. Тому ми дотримуємося того ж обмеження при завантаженні нових файлів.

Файли, які ви можете завантажити як приклади

Groot історичний документ