Gå til hovedindhold

Chat med dokumenter

Næste skridt i informationsbehandling

I stedet for at stole på offentlige datasæt og generel viden, genererer "Chat med Dokumenter" kontekst-specifikke svar og analyser baseret på dine betroede interne kilder. Upload dine dokumenter og brug disse som base for at besvare spørgsmål i chatten!

Løsning af databegrænsninger

Hvis du stiller spørgsmål til en sprogmodel, er du afhængig af datasættet, som modellen er trænet på. Dette er generelt information hentet fra nettet. Ikke-offentlige kilder er sandsynligvis ikke i dette datasæt. Ved at bruge dine dokumenter som kilde for chatten, sikrer du, at modellen har den information, du har brug for til at besvare dine spørgsmål.

Muligheder med dine dokumenter

Du kan stille spørgsmål om dine dokumenter, såsom at nævne hovedpunkterne i et dokument eller opsummere dokumentet. Du kan også få modellen til at udføre specifikke analyser ved hjælp af dit eget datasæt.

Ulemper ved dokumentbaseret chat

At uploade dokumenter og behandle dem er ekstra trin, som du ikke behøver at gennemføre, hvis du kan få et svar uden kontekst af specifik information. Det tager også længere tid at generere et svar, fordi den nødvendige information skal hentes fra dokumentet, før anmodningen kan sendes til modellen.

Bag kulisserne i chat med dokumenter

Teksten fra de dokumenter, som du uploader, ekstraheres fra dokumentet og opdeles i fragmenter. Disse fragmenter har et fast antal tegn (1024 tegn) og der er også indstillet en overlapning (128 tegn) mellem fragmenterne. Hvert tekstøjeblik gemmes som en vektor i en vektor-database. For hvert spørgsmål udvælges fra disse data baseret på lighed med spørgsmålet.

Udvælgelsesproces af dokumentfragmente

Fragmenterne er allerede omdannet til vektorer. Vektorer har flere dimensioner, der angiver, hvor “lignende” denne tekst er til anden tekst. Tænk på RGB-farvesystemet. En farve med en tilsvarende RGB-værdi er også en lignende farve, men lidt forskellig. Vektor-databasen gør det muligt for os at hente stykker tekst arrangeret og filtreret efter spørgsmålet, der stilles. Vi udvælger højst 100 tekststykker på 1024 tegn til at sende med spørgsmålet.

Egnede modeller til dokumentbaseret chat

Vi har udvalgt modeller med stor kontekstvindue for at muliggøre chat med dokumenter. Vi ønsker at kunne sende højst 100 stykker tekst à 1024 tegn. Det svarer til mere end 100.000 tegn. Brug derfor gerne en høj-kvalitets sprogmodel fra den centrale model-katalog.

Egnede modeller

Egnede modeller er modeller med tilstrækkelig kontekstplads og god dokumentanalyse, såsom OpenAI’s højkvalitetsmodeller, Claude, Google eller europæisk AI.

Vælg ét eller flere dokumenter

Du kan aktivere filtilstand ved at klikke på clips-ikonet til højre for spørgsmålsfeltet. Du kan vælge op til 10 filer til at chatte med.

Filer, som du uploader, bliver først behandlet. Når behandlingen er færdig, kan AI-School bruge indholdet i chatten, i assistenter og i workflows. Hvis behandlingen mislykkes, får filen en fejlstatus, og du skal uploade filen igen eller få den behandlet igen.

Passende sprogmodeller

På det tidspunkt, hvor du begynder at chatte med dokumenter, kontrolleres det, om sprogmodellen er egnet til chat med dokumenter. Hvis ikke, vælges automatisk en passende model fra den aktuelle katalog.

Chat med dokumenter

Du chatter med disse dokumenter, så længe filtilstand er slået til.

Filer håndteres og genbehandles

I Filstyring kan du se de filer, du har uploadet eller som AI-School har oprettet. For PDF-filer kan du via handlingmenuen behandle en fil igen. Dette erstatter den eksisterende tekstudtrækning med en ny behandling.

For PDF'er kan AI-School bruge den almindelige tekstlag og, når det er nødvendigt, udføre en mere omfattende PDF-analyse. Denne analyse er særligt nyttig ved:

  • scannede PDF'er
  • udfyldte formularer
  • håndskrevne svar
  • afkrydsede eller understregede valg
  • tabeller, figurer og anden visuel information

Ved store PDF'er kan behandlingen tage længere tid. AI-School opdeler store dokumenter i dele, så længere PDF'er også kan behandles.

Vælg eksisterende filer

Når en formular eller workflow anmoder om en fil, kan du ikke kun uploade nye filer, men også vælge eksisterende filer via medieadministratoren. Så behøver du ikke hver gang at uploade en prøve, bedømmelsesmodel eller andet kilde-dokument.

Filer, som tilføjes gennem sådanne formularer, vises i assistentfilerne til chatten. De bliver ikke automatisk udvalgt til almindelige chat-spørgsmål, medmindre du selv aktiverer dem der.

Behandling per fil

Ud over chat med dokumenter tilbyder AI-School også muligheden for at anvende en separat prompt på hver enkelt dokument og få individuelle svar. Denne funktion kaldes Behandling per fil.

Behandling per fil

Denne funktion kan bruges i kombination med "Chat med filer".

Potentielt scenarie

Et praktisk eksempel på brug af "Behandling per fil":

  1. Du uploader prøve og svarmodel og aktiverer ved Chat med filer
  2. Du uploader flere indleverede prøver og aktiverer ved Behandling per fil
  3. Du formulerer en prompt, som anvendes på alle filer individuelt fra hinanden

På denne måde kan du for eksempel få alle indleverede prøver automatisk bedømt ud fra svarmodellen.

Maksimalt antal filer

Der gælder en max på 30 filer for funktionen "Behandling per fil".

Understøttede filtyper

AI-School understøtter forskellige filtyper til chat med dokumenter:

  • PDF-filer med udløb .pdf
  • Word-filer med udløb .docx
  • CSV-filer med udløb .csv
  • JSON-filer med udløb .json
  • Tekstfiler med udløb .txt
  • Markdown-filer med udløb .md
  • Lyd- og videotfiltyper med udvidelserne 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' eller 'webm'

Chat med lyd eller videofiler

Til chat med lyd eller videofiler bruger AI-School OpenAI Whisper-model.

Efter tekstudtræk kan et passende tekst-model bruges til at kontrollere og rette tegnsætning og stavning.

Herefter følger samme procedure som udtræk fra PDF- eller Word-dokumenter.

Whisper har en grænse på 25 MB pr. lyd- eller videofil. Vi anvender derfor den samme grænse ved upload af nye filer.

Filer du kan downloade som eksempel

Gammelt historik dokument