Чат с документами
Следующий шаг в обработке информации
Вместо того чтобы полагаться на открытые наборы данных и общие знания, «Чат с документами» генерирует контекстно-специфические ответы и анализы на основе ваших доверенных внутренних источников. Загружайте ваши документы и используйте их как основу для ответов на вопросы в чате!
Решение проблем с данными
Если вы задаете вопросы языковой модели, вы зависите от набора данных, на котором обучена модель. Обычно это информация, полученная из интернета. Непубличные источники, вероятно, не входят в этот набор данных. Используя ваши документы в качестве источника для чата, вы гарантируете, что модель обладает информацией, необходимой для ответов на ваши вопросы.
Возможности с вашими документами
Вы можете задавать вопросы о ваших документах, например перечислять основные моменты докум ента или резюмировать документ. Также можно поручить языковой модели выполнить конкретные анализы с использованием вашего собственного набора данных.
Недостатки документно-основанного чата
Загрузка документов и их обработка — это дополнительные шаги, которые не нужны, если можно просто получить ответ без контекста конкретной информации. Также обработка занимает больше времени, потому что сначала нужно извлечь необходимые данные из документа, прежде чем запрос будет отправлен языковой модели.
За кулисами чата с документами
Текст из загруженных вами документов извлекается из документа и разбивае тся на фрагменты. Эти фрагменты имеют фиксированное количество знаков (1024 знака) и мы также настроили перекрытие (128 знаков) между фрагментами. Каждый клочок текста сохраняется как вектор в векторной базе данных. При каждом вопросе из этих данных выбираются фрагменты на основе их близости к заданному вопросу.
Процесс выбора фрагментов документа
Фрагменты текста уже преобразованы в векторы. Векторы имеют несколько размерностей, указывающих на то, насколько «похожий» этот текст по отношению к другим текстам. Подумайте о системе RGB. Цвет с похожим значением RGB тоже будет похожим. Векторная база данных позволяет нам извлекать фрагменты текста, упорядоченные и отфильтрованные по запросу. Мы выбираем максимум 100 фрагментов текста размером по 1024 знака для отправки вместе с запросом.