Chat avec des documents

La prochaine étape du traitement de l'information

Au lieu de compter sur des ensembles de données publiques et des connaissances générales, "Chat avec des documents" génère des réponses et des analyses contextuelles basées sur vos sources internes de confiance. Téléchargez vos documents et utilisez-les comme base pour répondre aux questions dans le chat !

Résolution des limitations de données

Lorsque vous posez des questions à un modèle de langage, vous dépendez du jeu de données avec lequel le modèle a été entraîné. Il s'agit généralement d'informations extraites d'Internet. Les sources non publiques ne figurent probablement pas dans ce jeu de données. En utilisant vos documents comme source pour le chat, vous vous assurez que le modèle dispose des informations dont vous avez besoin pour répondre à vos questions.

Possibilités avec vos documents

Vous pouvez poser des questions sur vos documents, comme énumérer les points principaux d'un document ou le résumer. Vous pouvez également demander au modèle de langage d'effectuer des analyses spécifiques à l'aide de votre propre ensemble de données.

Inconvénients du chat basé sur des documents

Le téléchargement et le traitement des documents sont des étapes supplémentaires que vous n'avez pas à effectuer si vous pouvez obtenir des réponses satisfaisantes sans le contexte d'informations spécifiques. De plus, la génération d'une réponse prend plus de temps car les informations nécessaires doivent d'abord être extraites du document avant que la demande ne soit envoyée au modèle de langage.

En coulisses du chat avec des documents

Le texte des documents que vous téléchargez est extrait et divisé en morceaux. Ces morceaux ont un nombre fixe de caractères (1024 caractères), et nous avons également défini un chevauchement (128 caractères) entre les morceaux. Chaque morceau de texte est stocké sous forme de vecteur dans une base de données vectorielle. Pour chaque question, une sélection est effectuée à partir de ces données en fonction de la similarité avec la question posée.

Processus de sélection des fragments de documents

Les morceaux de texte sont déjà convertis en vecteurs. Les vecteurs ont plusieurs dimensions qui indiquent à quel point ce texte est "similaire" à un autre texte. Pensez au système de couleurs RVB. Une couleur avec une valeur RVB similaire est aussi une couleur similaire mais légèrement différente. La base de données vectorielle nous permet donc de récupérer les morceaux de texte classés et filtrés en fonction de la question posée. Nous sélectionnons au maximum 100 morceaux de texte de 1024 caractères à envoyer avec la question.

Modèles adaptés au chat basé sur des documents

Nous avons sélectionné des modèles avec une grande fenêtre de contexte pour permettre le chat avec des documents. Nous voulons pouvoir envoyer jusqu'à 100 morceaux de texte de 1024 caractères. Cela représente plus de 100 000 caractères. Des modèles comme GPT 3.5 ne peuvent pas traiter autant de texte. Par conséquent, nous recommandons d'utiliser cette fonctionnalité uniquement en combinaison avec GPT-4.1, Gemini 2.5 Pro et Claude 4.0.

Modèles adaptés

Les modèles adaptés sont GPT-4.1, Gemini 2.5 Pro et Claude 4.0.

Sélectionner un ou plusieurs documents

Vous pouvez activer le mode fichier en cliquant sur le trombone à droite de la barre de questions. Vous pouvez choisir jusqu'à 10 fichiers avec lesquels discuter.

Modèles de langage adaptés

Au moment où vous commencez à discuter avec des documents, une vérification est effectuée pour savoir si le modèle de langage est adapté au chat avec des documents. Si ce n'est pas le cas, GPT-4o est automatiquement sélectionné.

Chat avec des documents

Vous discutez avec ces documents tant que le mode fichier est activé.

Traiter par fichier

En plus du chat avec des documents, AI-School offre également la possibilité d'appliquer un prompt séparément à chaque document et de recevoir des réponses individuelles. Cette fonctionnalité s'appelle Traiter par fichier.

Traiter par fichier

Cette fonctionnalité peut être utilisée en combinaison avec "Chat avec des fichiers".

Scénario possible

Un exemple pratique d'utilisation de "Traiter par fichier" :

Vous téléchargez le test et le modèle de réponse et les activez dans Chat avec des fichiers
Vous téléchargez plusieurs tests soumis et les activez dans Traiter par fichier
Vous formulez un prompt qui est appliqué à tous les fichiers individuellement

De cette façon, vous pouvez, par exemple, faire corriger automatiquement tous les tests soumis sur la base du modèle de réponse.

Nombre maximum de fichiers

Il y a un maximum de 30 fichiers pour la fonctionnalité "Traiter par fichier".

Types de fichiers pris en charge

AI-School prend en charge différents types de fichiers pour le chat avec des documents :

Fichiers PDF se terminant par .pdf
Fichiers Word se terminant par .docx
Fichiers CSV se terminant par .csv
Fichiers JSON se terminant par .json
Fichiers texte se terminant par .txt
Fichiers audio et vidéo avec les extensions 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' ou 'webm'

Chat avec des fichiers audio ou vidéo

Pour discuter avec des fichiers audio ou vidéo, AI-School utilise le modèle Whisper d'OpenAI.

Après l'extraction du texte, nous le passons à GPT-4o pour vérifier et corriger la ponctuation et l'orthographe.

Ensuite, la même procédure que pour l'extraction de PDF ou de documents Word est suivie.

Whisper a une limite de 25 Mo par fichier audio ou vidéo. Nous appliquons donc la même limite lors du téléchargement de nouveaux fichiers.

Fichiers que vous pouvez télécharger à titre d'exemple

Grand document historique

Résolution des limitations de données​

Possibilités avec vos documents​

Inconvénients du chat basé sur des documents​

En coulisses du chat avec des documents​

Processus de sélection des fragments de documents​

Modèles adaptés au chat basé sur des documents​

Sélectionner un ou plusieurs documents​

Traiter par fichier​

Scénario possible​

Types de fichiers pris en charge​

Chat avec des fichiers audio ou vidéo​

Fichiers que vous pouvez télécharger à titre d'exemple​

Résolution des limitations de données

Possibilités avec vos documents

Inconvénients du chat basé sur des documents

En coulisses du chat avec des documents

Processus de sélection des fragments de documents

Modèles adaptés au chat basé sur des documents

Sélectionner un ou plusieurs documents

Traiter par fichier

Scénario possible

Types de fichiers pris en charge

Chat avec des fichiers audio ou vidéo

Fichiers que vous pouvez télécharger à titre d'exemple