Chat mit Dokumenten
Der nächste Schritt in der Informationsverarbeitung
Anstatt sich auf öffentliche Datensätze und allgemeines Wissen zu verlassen, generiert "Chat mit Dokumenten" kontextspezifische Antworten und Analysen auf Basis deiner vertrauenswürdigen internen Quellen. Lade deine Dokumente hoch und nutze diese als Grundlage zum Beantworten von Fragen im Chat!
Lösung von Datenbeschränkungen
Wenn du Fragen an ein Sprachmodell stellst, bist du von dem Datensatz abhängig, mit dem das Modell trainiert wurde. Dies ist in der Regel Informationen, die aus dem Internet stammen. Nicht-öffentliche Quellen sind wahrscheinlich nicht in diesem Datensatz enthalten. Indem du deine Dokumente als Quelle für den Chat verwendest, stellst du sicher, dass das Modell über die Informationen verfügt, die du zur Beantwortung deiner Fragen benötigst.
Möglichkeiten mit deinen Dokumenten
Du kannst Fragen zu deinen Dokumenten stellen, wie z.B. die Hauptpunkte eines Dokuments aufzulisten oder das Dokument zusammenzufassen. Auch kannst du spezifische Analysen vom Sprachmodell mit Hilfe deines eigenen Datensatzes durchführen lassen.
Nachteile des dokumentbasierten Chats
Das Hochladen und Verarbeiten von Dokumenten sind zusätzliche Schritte, die du nicht durchführen musst, wenn du auch ohne den Kontext spezifischer Informationen problemlos Antworten erhalten kannst. Außerdem dauert es länger, eine Antwort zu generieren, da zunächst die erforderlichen Informationen aus dem Dokument abgerufen werden müssen, bevor die Anfrage an das Sprachmodell gesendet werden kann.
Hinter den Kulissen des Chats mit Dokumenten
Der Text aus den Dokumenten, die du hochlädst, wird aus dem Dokument extrahiert und in Stücke aufgeteilt. Diese Stücke haben eine feste Anzahl von Zeichen (1024 Zeichen), und wir haben auch eine Überlappung (128 Zeichen) zwischen den Stücken festgelegt. Jedes Textstück wird als Vektor in einer Vektordatenbank gespeichert. Bei jeder Frage wird aus diesen Daten eine Auswahl basierend auf der Ähnlichkeit mit der gestellten Frage getroffen.
Auswahlprozess von Dokumentfragmenten
Die Textstücke wurden bereits in Vektoren umgewandelt. Vektoren haben mehrere Dimensionen, die angeben, wie "gleich" dieser Text zu anderen Texten ist. Denk an das RGB-Farbsystem. Eine Farbe mit ähnlichem RGB-Wert ist auch eine ähnliche Farbe, aber leicht anders. Die Vektordatenbank ermöglicht es uns, die Textstücke basierend auf der gestellten Frage sortiert und gefiltert abzurufen. Wir wählen maximal 100 Textstücke von 1024 Zeichen aus, um sie mit der Frage zu senden.
Geeignete Modelle für dokumentbasierten Chat
Wir haben Modelle mit großem Kontextfenster ausgewählt, um das Chatten mit Dokumenten zu ermöglichen. Wir möchten maximal 100 Textstücke von 1024 Zeichen mitsenden können. Das sind mehr als 100.000 Zeichen. Modelle wie GPT 3.5 können so viel Text nicht verarbeiten. Daher empfehlen wir, diese Funktion nur in Kombination mit GPT-4.1, Gemini 2.5 Pro und Claude 4.0 zu verwenden.
Geeignete Modelle sind GPT-4.1, Gemini 2.5 Pro und Claude 4.0.
Wähle ein oder mehrere Dokumente
Du kannst den Dateimodus aktivieren, indem du auf die Büroklammer rechts neben der Fragenleiste klickst. Du kannst bis zu 10 Dateien zum Chatten auswählen.
Sobald du mit Dokumenten chattest, wird überprüft, ob das Sprachmodell für den Dokumentenchat geeignet ist. Wenn dies nicht der Fall ist, wird automatisch GPT-4o ausgewählt.
Du chattest mit diesen Dokumenten, solange der Dateimodus aktiviert ist.
Unterstützte Dateitypen
AI-School unterstützt verschiedene Dateitypen für den Dokumentenchat:
- PDF-Dateien mit der Endung .pdf
- Word-Dateien mit der Endung .docx
- CSV-Dateien mit der Endung .csv
- JSON-Dateien mit der Endung .json
- Textdateien mit der Endung .txt
- Audio- und Videodateien mit den Erweiterungen 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' oder 'webm'
Chat mit Audio- oder Videodateien
Für den Chat mit Audio- oder Videodateien verwendet AI-School OpenAIs Modell Whisper.
Nach der Textextraktion wird der Text noch durch GPT-4o geleitet, um Interpunktion und Rechtschreibung zu überprüfen und zu korrigieren.
Danach folgt dasselbe Verfahren wie bei der Extraktion aus PDF- oder Word-Dokumenten.
Whisper hat eine Grenze von 25 MB pro Audio- oder Videodatei. Wir wenden daher dieselbe Grenze beim Hochladen neuer Dateien an.