Chat avec des documents
La prochaine étape du traitement de l'information
Au lieu de compter sur des ensembles de données publiques et des connaissances générales, "Chat avec des documents" génère des réponses et des analyses contextuelles basées sur vos sources internes de confiance. Téléchargez vos documents et utilisez-les comme base pour répondre aux questions dans le chat !
Résolution des limitations de données
Lorsque vous posez des questions à un modèle de langage, vous dépendez du jeu de données avec lequel le modèle a été entraîné. Il s'agit généralement d'informations extraites d'Internet. Les sources non publiques ne figurent probablement pas dans ce jeu de données. En utilisant vos documents comme source pour le chat, vous vous assurez que le modèle dispose des informations dont vous avez besoin pour répondre à vos questions.
Possibilités avec vos documents
Vous pouvez poser des questions sur vos documents, comme énumérer les points principaux d'un document ou le résumer. Vous pouvez également demander au modèle de langage d'effectuer des analyses spécifiques à l'aide de votre propre ensemble de données.
Inconvénients du chat basé sur des documents
Le téléchargement et le traitement des documents sont des étapes supplémentaires que vous n'avez pas à effectuer si vous pouvez obtenir des réponses satisfaisantes sans le contexte d'informations spécifiques. De plus, la génération d'une réponse prend plus de temps car les informations nécessaires doivent d'abord être extraites du document avant que la demande ne soit envoyée au modèle de langage.
En coulisses du chat avec des documents
Le texte des documents que vous téléchargez est extrait et divisé en morceaux. Ces morceaux ont un nombre fixe de caractères (1024 caractères), et nous avons également défini un chevauchement (128 caractères) entre les morceaux. Chaque morceau de texte est stocké sous forme de vecteur dans une base de données vectorielle. Pour chaque question, une sélection est effectuée à partir de ces données en fonction de la similarité avec la question posée.
Processus de sélection des fragments de documents
Les morceaux de texte sont déjà convertis en vecteurs. Les vecteurs ont plusieurs dimensions qui indiquent à quel point ce texte est "similaire" à un autre texte. Pensez au système de couleurs RVB. Une couleur avec une valeur RVB similaire est aussi une couleur similaire mais légèrement différente. La base de données vectorielle nous permet donc de récupérer les morceaux de texte classés et filtrés en fonction de la question posée. Nous sélectionnons au maximum 100 morceaux de texte de 1024 caractères à envoyer avec la question.
Modèles adaptés au chat basé sur des documents
Nous avons sélectionné des modèles avec une grande fenêtre de contexte pour permettre le chat avec des documents. Utilisez de préférence un modèle de langage de haute qualité du catalogue central.
Les modèles adaptés disposent d'une capacité de contexte suffisante et d'une bonne analyse documentaire, par exemple les modèles de haute qualité d'OpenAI, Claude, Google ou IA européenne.
Sélectionner un ou plusieurs documents
Vous pouvez activer le mode fichier en cliquant sur le trombone à droite de la barre de questions. Vous pouvez choisir jusqu'à 10 fichiers avec lesquels discuter.
Au moment où vous commencez à discuter avec des documents, une vérification est effectuée pour savoir si le modèle de langage est adapté au chat avec des documents. Si ce n'est pas le cas, Modèles OpenAI adaptés est automatiquement sélectionné.

Vous discutez avec ces documents tant que le mode fichier est activé.
Traiter par fichier
En plus du chat avec des documents, AI-School offre également la possibilité d'appliquer un prompt séparément à chaque document et de recevoir des réponses individuelles. Cette fonctionnalité s'appelle Traiter par fichier.

Cette fonctionnalité peut être utilisée en combinaison avec "Chat avec des fichiers".
Scénario possible
Un exemple pratique d'utilisation de "Traiter par fichier" :
- Vous téléchargez le test et le modèle de réponse et les activez dans Chat avec des fichiers
- Vous téléchargez plusieurs tests soumis et les activez dans Traiter par fichier
- Vous formulez un prompt qui est appliqué à tous les fichiers individuellement
De cette façon, vous pouvez, par exemple, faire corriger automatiquement tous les tests soumis sur la base du modèle de réponse.
Il y a un maximum de 30 fichiers pour la fonctionnalité "Traiter par fichier".
Types de fichiers pris en charge
AI-School prend en charge différents types de fichiers pour le chat avec des documents :
- Fichiers PDF se terminant par .pdf
- Fichiers Word se terminant par .docx
- Fichiers CSV se terminant par .csv
- Fichiers JSON se terminant par .json
- Fichiers texte se terminant par .txt
- Fichiers audio et vidéo avec les extensions 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' ou 'webm'
Discuter avec des fichiers audio ou vidéo
Pour les fichiers audio ou vidéo, AI-School commence par transcrire le fichier avec le fournisseur configuré, par exemple OpenAI ou IA européenne. Les modèles concrets proviennent du catalogue central des modèles.
Pour les conversations, la transcription peut inclure des blocs temporels et des étiquettes d’intervenants lorsque le modèle choisi le prend en charge. Un modèle texte adapté peut ensuite corriger la ponctuation, l’orthographe, les étiquettes d’intervenants et les termes métier.
Après la transcription, le même processus que pour les documents PDF ou Word est utilisé.
Les modèles audio et vidéo ont des limites de taille et de durée qui varient selon le fournisseur et le modèle. Les fichiers longs peuvent donc être traités différemment des fichiers courts. Si le traitement échoue, vérifie le statut du fichier et essaie de le traiter à nouveau ou fournis-le en parties plus petites.
Fichiers que vous pouvez télécharger à titre d'exemple
Traitement et r?utilisation des fichiers
Les fichiers que vous t?l?versez sont trait?s avant que AI-School puisse utiliser leur contenu dans les chats, les assistants et les workflows. Si le traitement ?choue, le fichier re?oit un statut d'erreur et vous pouvez le t?l?verser ? nouveau ou le relancer depuis la gestion des fichiers.
Pour les PDF, AI-School peut utiliser la couche de texte normale et, si n?cessaire, une analyse PDF plus compl?te. C'est utile pour les documents scann?s, les formulaires remplis, les notes manuscrites, les choix entour?s ou soulign?s, les tableaux et les informations visuelles. Les PDF volumineux peuvent ?tre divis?s en plusieurs parties pendant le traitement.
Lorsqu'un formulaire ou un workflow demande un fichier, vous pouvez t?l?verser un nouveau fichier ou choisir un fichier existant dans le gestionnaire de m?dias. Les fichiers ajout?s via un tel formulaire sont disponibles pour l'assistant de ce chat, mais ils ne sont pas automatiquement s?lectionn?s pour les questions de chat ordinaires.
Les fichiers Markdown avec l'extension .md sont ?galement pris en charge.