Чат з документами
Наступний крок у обробці інформації
Замість довіри до публічних датасетів та загальних знань, «Чат з документами» проду кує контекстуально специфічні відповіді та аналітику на основі ваших довірених внутрішніх джерел. Завантажуйте свої документи та використовуйте ці документи як основу для відповіді на запитання в чаті!
Вирішення обмежень даних
Коли ви ставите запитання мовній моделі, ви залежите від датасету, на якому навчена модель. Зазвичай це інформація з інтернету. Непублічні джерела, швидше за все, відсутні у цьому датасеті. Використовуючи ваші документи як джерело для чату, ви переконуєтеся, що модель має інформацію, яку вам потрібно для відповіді на ваші питання.
Можливості з вашими документами
Ви можете ставити запитання щодо ваших документів, наприклад н азивати основні пункти документа або підсумовувати документ. Також ви можете доручити моделі виконати конкретні аналітики за допомогою вашого власного набору даних.
Недоліки чатування за документами
Завантаження документів та їх обробка — це додаткові кроки, які вам не потрібно робити, якщо ви можете отримати коректну відповідь без контексту конкретної інформації. Також це займе більше часу на створення відповіді, оскільки спочатку потрібно витягнути потрібну інформацію з документа перед відправкою запиту до мовної моделі.
За лаштунками чатування з документами
Текст із завантажених вами документів витягується з документа та діється на фрагменти. У цих фрагментах фіксована кількість символів (1024 символи), і ми також встановили перекриття (128 символів) між фрагментами. Кожна порція тексту зберігається як вектор у векторній базі даних. При кожному запиті з цієї інформації виконується відбір за схожістю з запитом.
Процес відбору фрагментів документа
Фрагменти тексту вже перетворені на вектори. Вектори мають кілька вимірів, які вказують, наскільки «схожий» цей текст із іншими. Подумайте про систему кольорів RGB. Колір з подібним значенням RGB також буде подібним кольором, але трохи іншим. Векторна база даних дозволяє нам витягувати фрагменти тексту в порядку та з фільтрацією за запитом.
Ми обираємо максимум 100 фрагментів тексту по 1024 символи для відправлення з запитом.