Chat cu documente
Următorul pas în procesarea informațiilor
În loc să te bazezi pe seturi de date publice și cunoștințe generale, „Chat cu Documente” generează răspunsuri și analize contextual specifice pe baza surselor tale interne de încredere. Încarcă documentele tale și folosește aceste documente ca bază pentru a răspunde la întrebările din chat!
Soluționarea restricțiilor de date
Dacă pui întrebări unui model de limbaj, ești dependent de setul de date pe care a fost antrenat modelul. În general, aceasta este informația extrasă de pe internet. Sursele neremunerate probabil nu sunt în acest set de date. Folosind documentele tale ca sursă pentru chat, te asiguri că modelul deține informațiile de care ai nevoie pentru a răspunde la întrebările tale.
Posibilități cu documentele tale
Poți pune întrebări despre documentele tale, cum ar fi enunțarea punctelor principale ale unui document sau rezumarea documentului. De asemenea, poți rula analize specifice prin intermediul modelului de limbaj folosind propriul tău set de date.
Dezavantajele chat-ului pe bază de documente
Încărcarea documentelor și procesarea acestora implică pași suplimentari pe care nu trebuie să-i efectuezi dacă poți obține răspunsuri bune și fără contextul informațiilor specifice. De asemenea, durează mai mult să generezi un răspuns deoarece este necesar să extragi mai întâi informațiile din document înainte de a transmite cererea modelului de limbaj.
În spatele scenei a chat-ului cu documente
Textul din documentele pe care le încarci este extras din document și împărțit în fragmente. Aceste fragmente au un număr fix de caractere (1024 de caractere) iar am avut grijă să avem o suprapunere (128 de caractere) între fragmente. Fiecare bucată de text este stocată ca un vector într-o bază de date vectorială. La fiecare întrebare, din aceste date se face o selecție pe baza similitudinii cu întrebarea formulată.
Procesul de selecție a fragmentelor de document
Fragmentele de text au fost deja transformate în vectori. Vectorii au mai multe dimensiuni care indică cât de „aproape” este acest text de alte texte. Gândește-te la un sistem de culoare RGB. O culoare cu valoare RGB similară este tot o culoare similară, dar puțin diferită. Baza de date vectorială ne permite să recuperăm fragmentele de text ordonate și filtrate pe baza întrebării. Alegem maximum 100 fragmente de text de 1024 de caractere pentru a fi incluși în cerere.
Modele potrivite pentru chat-ul bazat pe documente
Am selectat modele cu un spațiu mare de context pentru a permite chat-ul cu documente. Ne dorim să putem trimite maximum 100 de fragmente de text de 1024 de caractere. Aceasta reprezintă peste 100.000 de caractere. Folosește, de preferință, un model lingvistic de înaltă calitate din catalogul central de modele.
Modelele potrivite sunt cele cu suficient spațiu de context și bună analiză a documentelor, cum ar fi modelele de înaltă calitate de la OpenAI, Claude, Google sau AI europeană.
Selectează unul sau mai multe documente
Poți activa modulul de fișier atingând paperclip-ul în partea dreaptă a barei de întrebări. Poți alege până la 10 fișiere pentru a conversa.
Fișierele pe care le încarci sunt procesate mai întâi. Odată ce procesarea este finalizată, conținutul poate fi utilizat de AI-School în chat, în asistenți și în fluxuri de lucru. Dacă procesarea eșuează, fișierul primește un status de eroare și trebuie să-l reîncarci sau să-l procesezi din nou.
În momentul în care începi să discuți cu documente, se verifică dacă modelul de limbaj este potrivit pentru chat-ul cu documente. Dacă nu este, se va selecta automat un model potrivit din catalogul curent.

Conversezi cu aceste documente atât timp cât modul de fișiere este activ.
Gestionarea fișierelor și re-procesarea
În Gestionare fișiere vezi fișierele pe care le-ai încărcat sau pe care le-a creat AI-School. Pentru fișiere PDF poți, din meniul de acțiuni, re-procesa un fișier. Aceasta va înlocui extragerea textului existentă cu o nouă procesare.
La PDF-uri AI-School poate utiliza fontul obișnuit de text și, când este necesar, poate efectua o analiză PDF mai cuprinzătoare. Aceasta analiză este utilă mai ales pentru:
- PDF-uri scanate
- formulare completate
- răspunsuri scrise de mână
- opțiuni încercuite sau subliniate
- tabele, figuri și alte informații vizuale
La fișiere mari, procesarea poate dura mai mult. AI-School împarte documentele mari, după cum este necesar, în părți, pentru a permite procesarea și pentru fișierele PDF mai lungi.
Alegerea fișierelor existente
Când un formular sau un flux de lucru solicită un fișier, nu numai să încarci fișiere noi, ci poți alege și fișiere existente prin managerul media. Astfel nu este nevoie să încarci de fiecare dată o lucrare, un model de corectură sau alt document de origine.
Fișierele adăugate printr-un astfel de formular apar în fișierele asistentului din chat. Ele nu sunt selectate automat pentru întrebări obișnuite de chat, decât dacă le activezi tu în acest scop.
Procesare per fișier
Pe lângă chat-ul cu documente, AI-School oferă și posibilitatea de a aplica un prompt separat fiecărui document și de a primi răspunsuri individuale. Această funcție se numește Procesare per fișier.

Această funcție poate fi utilizată în combinație cu „Chat cu fișiere”.
Scenariu posibil
Un exemplu practic de utilizare a „Procesare per fișier”:
- Încarci testul și modelul de răspuns și le activezi la Chat cu fișiere
- Încarci mai multe teste depuse și le activezi la Procesare per fișier
- Formulezi un prompt, care este aplicat tuturor fișierelor în mod individual
În acest fel poți, de exemplu, să evaluezi automat toate testele depuse pe baza modelului de răspuns.
Există o limită de 30 de fișiere pentru funcția „Procesare per fișier”.
Tipuri de fișiere acceptate
AI-School acceptă mai multe tipuri de fișiere pentru chat cu documente:
- fișiere PDF care se termină în .pdf
- fișiere Word care se termină în .docx
- fișiere CSV care se termină în .csv
- fișiere JSON care se termină în .json
- fișiere text care se termină în .txt
- fișiere Markdown care se termină în .md
- fișiere audio și video cu extensiile 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' sau 'webm'
Conversație cu fișiere audio sau video
Pentru chat-ul cu fișiere audio sau video, AI-School folosește modelul Whisper de la OpenAI.
După extragerea textului poate fi folosit un model de text potrivit pentru a verifica și corecta punctuația și ortografia.
Apoi urmează aceeași procedură ca pentru extragerea din documente PDF sau Word.
Whisper are o limită de 25 MB pe fișier audio sau video. Aplicăm aceeași limită la încărcarea noilor fișiere.