Aller au contenu principal

Chat avec des documents

La prochaine étape du traitement de l'information

Au lieu de compter sur des ensembles de données publiques et des connaissances générales, "Chat avec des documents" génère des réponses et des analyses contextuelles basées sur vos sources internes de confiance. Téléchargez vos documents et utilisez-les comme base pour répondre aux questions dans le chat !

Résolution des limitations de données

Lorsque vous posez des questions à un modèle de langage, vous dépendez du jeu de données avec lequel le modèle a été entraîné. Il s'agit généralement d'informations extraites d'Internet. Les sources non publiques ne figurent probablement pas dans ce jeu de données. En utilisant vos documents comme source pour le chat, vous vous assurez que le modèle dispose des informations dont vous avez besoin pour répondre à vos questions.

Possibilités avec vos documents

Vous pouvez poser des questions sur vos documents, comme énumérer les points principaux d'un document ou le résumer. Vous pouvez également demander au modèle de langage d'effectuer des analyses spécifiques à l'aide de votre propre ensemble de données.

Inconvénients du chat basé sur des documents

Le téléchargement et le traitement des documents sont des étapes supplémentaires que vous n'avez pas à effectuer si vous pouvez obtenir des réponses satisfaisantes sans le contexte d'informations spécifiques. De plus, la génération d'une réponse prend plus de temps car les informations nécessaires doivent d'abord être extraites du document avant que la demande ne soit envoyée au modèle de langage.

En coulisses du chat avec des documents

Le texte des documents que vous téléchargez est extrait et divisé en morceaux. Ces morceaux ont un nombre fixe de caractères (1024 caractères), et nous avons également défini un chevauchement (128 caractères) entre les morceaux. Chaque morceau de texte est stocké sous forme de vecteur dans une base de données vectorielle. Pour chaque question, une sélection est effectuée à partir de ces données en fonction de la similarité avec la question posée.

Processus de sélection des fragments de documents

Les morceaux de texte sont déjà convertis en vecteurs. Les vecteurs ont plusieurs dimensions qui indiquent à quel point ce texte est "similaire" à un autre texte. Pensez au système de couleurs RVB. Une couleur avec une valeur RVB similaire est aussi une couleur similaire mais légèrement différente. La base de données vectorielle nous permet donc de récupérer les morceaux de texte classés et filtrés en fonction de la question posée. Nous sélectionnons au maximum 100 morceaux de texte de 1024 caractères à envoyer avec la question.

Modèles adaptés au chat basé sur des documents

Nous avons sélectionné des modèles avec une grande fenêtre de contexte pour permettre le chat avec des documents. Nous voulons pouvoir envoyer jusqu'à 100 morceaux de texte de 1024 caractères. Cela représente plus de 100 000 caractères. Des modèles comme GPT 3.5 ne peuvent pas traiter autant de texte. Par conséquent, nous recommandons d'utiliser cette fonctionnalité uniquement en combinaison avec GPT-4.1, Gemini 2.5 Pro et Claude 4.0.

Modèles adaptés

Les modèles adaptés sont GPT-4.1, Gemini 2.5 Pro et Claude 4.0.

Sélectionner un ou plusieurs documents

Vous pouvez activer le mode fichier en cliquant sur le trombone à droite de la barre de questions. Vous pouvez choisir jusqu'à 10 fichiers avec lesquels discuter.

Modèles de langage adaptés

Au moment où vous commencez à discuter avec des documents, une vérification est effectuée pour savoir si le modèle de langage est adapté au chat avec des documents. Si ce n'est pas le cas, GPT-4o est automatiquement sélectionné.

Chat avec des documents

Vous discutez avec ces documents tant que le mode fichier est activé.

Types de fichiers pris en charge

AI-School prend en charge différents types de fichiers pour le chat avec des documents :

  • Fichiers PDF se terminant par .pdf
  • Fichiers Word se terminant par .docx
  • Fichiers CSV se terminant par .csv
  • Fichiers JSON se terminant par .json
  • Fichiers texte se terminant par .txt
  • Fichiers audio et vidéo avec les extensions 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' ou 'webm'

Chat avec des fichiers audio ou vidéo

Pour discuter avec des fichiers audio ou vidéo, AI-School utilise le modèle Whisper d'OpenAI.

Après l'extraction du texte, nous le passons à GPT-4o pour vérifier et corriger la ponctuation et l'orthographe.

Ensuite, la même procédure que pour l'extraction de PDF ou de documents Word est suivie.

Whisper a une limite de 25 Mo par fichier audio ou vidéo. Nous appliquons donc la même limite lors du téléchargement de nouveaux fichiers.

Fichiers que vous pouvez télécharger à titre d'exemple

Grand document historique