Перейти к основному содержимому

Чат с документами

Следующий шаг в обработке информации

Вместо того чтобы полагаться на открытые наборы данных и общие знания, «Чат с документами» генерирует контекстно-специфические ответы и анализы на основе ваших доверенных внутренних источников. Загружайте ваши документы и используйте их как основу для ответов на вопросы в чате!

Решение проблем с данными

Если вы задаете вопросы языковой модели, вы зависите от набора данных, на котором обучена модель. Обычно это информация, полученная из интернета. Непубличные источники, вероятно, не входят в этот набор данных. Используя ваши документы в качестве источника для чата, вы гарантируете, что модель обладает информацией, необходимой для ответов на ваши вопросы.

Возможности с вашими документами

Вы можете задавать вопросы о ваших документах, например перечислять основные моменты документа или резюмировать документ. Также можно поручить языковой модели выполнить конкретные анализы с использованием вашего собственного набора данных.

Недостатки документно-основанного чата

Загрузка документов и их обработка — это дополнительные шаги, которые не нужны, если можно просто получить ответ без контекста конкретной информации. Также обработка занимает больше времени, потому что сначала нужно извлечь необходимые данные из документа, прежде чем запрос будет отправлен языковой модели.

За кулисами чата с документами

Текст из загруженных вами документов извлекается из документа и разбивается на фрагменты. Эти фрагменты имеют фиксированное количество знаков (1024 знака) и мы также настроили перекрытие (128 знаков) между фрагментами. Каждый клочок текста сохраняется как вектор в векторной базе данных. При каждом вопросе из этих данных выбираются фрагменты на основе их близости к заданному вопросу.

Процесс выбора фрагментов документа

Фрагменты текста уже преобразованы в векторы. Векторы имеют несколько размерностей, указывающих на то, насколько «похожий» этот текст по отношению к другим текстам. Подумайте о системе RGB. Цвет с похожим значением RGB тоже будет похожим. Векторная база данных позволяет нам извлекать фрагменты текста, упорядоченные и отфильтрованные по запросу. Мы выбираем максимум 100 фрагментов текста размером по 1024 знака для отправки вместе с запросом.

Подходящие модели для документно-ориентированного чата

Мы отобрали модели с большим окном контекста, чтобы позволить общаться с документами. Мы хотим иметь возможность отправлять максимум 100 фрагментов текста по 1024 знака. Это более 100 000 знаков. Предпочитайте для этого высококачественную языковую модель из центрального каталога моделей.

Подходящие модели

Подходящие модели — это модели с достаточным контейнером контекста и хорошим анализом документов, такие как высококачественные модели от OpenAI, Claude, Google или европейские AI.

Выбор одного или нескольких документов

Вы можете включить режим файлов, щелкнув по скрепке справа от панели вопросов. Можно выбрать до 10 файлов для чата.

Файлы, которые вы загружаете, сначала обрабатываются. Как только обработка завершится, AI-School может использовать их содержимое в чате, помощниках и рабочих процессах. Если обработка не удалась, файл получает статус ошибки и вам нужно загрузить файл повторно или обработать заново.

Подходящие языковые модели

Когда вы начинаете чатить с документами, система проверяет, подходит ли языковая модель для чата с документами. Если нет, автоматически выбирается подходящая модель из текущего каталога.

Чат с документами

Вы можете общаться с этими документами до тех пор, пока режим файлов включен.

Управление файлами и повторная обработка

В разделе Управление файлами вы видите файлы, которые вы загрузили или которые созданы AI-School. Для PDF-файлов через меню действий можно повторно обработать файл. Это заменяет существующую извлеченную текстовую часть новой обработкой.

Для PDF AI-School может использовать обычный текстовый слой и, при необходимости, выполнить более детальный анализ PDF. Этот анализ особенно полезен для:

  • сканированных PDF-файлов
  • заполненных форм
  • рукописных ответов
  • отмеченных кружками или подчеркиванных вариантов
  • таблиц, рисунков и другой визуальной информации

При больших PDF-файлах обработка может занять больше времени. AI-School при необходимости разделяет крупные документы на части, чтобы обеспечить обработку длинных PDF-файлов.

Выбор существующих файлов

Когда форма или рабочий процесс запрашивает файл, вы можете не только загружать новые файлы, но и выбирать существующие файлы через медиаменеджер. Так вам не приходится каждый раз загружать тесты, модели проверки или другой исходный документ.

Файлы, добавляемые через такую форму, появляются в ассистент-файлах чата. Они не выбираются автоматически для обычных вопросов чата, пока вы сами не включите их.

Обработка по файлу

Помимо чатинга с документами, AI-School также предлагает применять подсказку отдельно к каждому документу и получать индивидуальные ответы. Эта функция называется Обработка по файлу.

Обработка по файлу

Эта функция может использоваться вместе с «Чат с файлами».

Возможный сценарий

Практичный пример использования функции «Обработка по файлу»:

  1. Загружаете тест и образец ответов и включаете их в Чат с файлами
  2. Загружаете несколько сданных тестов и включаете их в Обработка по файлу
  3. Формулируете подсказку, которая применяется к каждому файлу отдельно друг от друга

Таким образом можно, например, автоматически оценивать все сданные тесты по образцу ответов.

Максимальное количество файлов

Установлено ограничение в 30 файлов для функции «Обработка по файлу».

Поддерживаемые типы файлов

AI-School поддерживает различные типы файлов для чатирования с документами:

  • PDF-файлы с расширением .pdf
  • Word-файлы с расширением .docx
  • CSV-файлы с расширением .csv
  • JSON-файлы с расширением .json
  • Текстовые файлы с расширением .txt
  • Markdown-файлы с расширением .md
  • Аудио- и видеоданные с расширениями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' или 'webm'

Чат с аудио или видео файлами

Для чата с аудио- и видеоматериалами AI-School использует модель Whisper от OpenAI.

После извлечения текста может использоваться подходящая языковая модель для проверки и исправления пунктуации и орфографии.

Затем следует та же процедура, что и для извлечения из PDF или Word документов.

Whisper имеет ограничение 25 МБ на аудиофайл или видеоролик. Поэтому мы применяем такое же ограничение при загрузке новых файлов.

Файлы, которые можно скачать в качестве примера

Groot historisch document