Chat cu documente

Următorul pas în procesarea informațiilor

În loc să te bazezi pe seturi de date publice și cunoștințe generale, „Chat cu Documente” generează răspunsuri și analize contextual specifice pe baza surselor tale interne de încredere. Încarcă documentele tale și folosește aceste documente ca bază pentru a răspunde la întrebările din chat!

Soluționarea restricțiilor de date

Dacă pui întrebări unui model de limbaj, ești dependent de setul de date pe care a fost antrenat modelul. În general, aceasta este informația extrasă de pe internet. Sursele neremunerate probabil nu sunt în acest set de date. Folosind documentele tale ca sursă pentru chat, te asiguri că modelul deține informațiile de care ai nevoie pentru a răspunde la întrebările tale.

Posibilități cu documentele tale

Poți pune întrebări despre documentele tale, cum ar fi enunțarea punctelor principale ale unui document sau rezumarea documentului. De asemenea, poți rula analize specifice prin intermediul modelului de limbaj folosind propriul tău set de date.

Dezavantajele chat-ului pe bază de documente

Încărcarea documentelor și procesarea acestora implică pași suplimentari pe care nu trebuie să-i efectuezi dacă poți obține răspunsuri bune și fără contextul informațiilor specifice. De asemenea, durează mai mult să generezi un răspuns deoarece este necesar să extragi mai întâi informațiile din document înainte de a transmite cererea modelului de limbaj.

În spatele scenei a chat-ului cu documente

Textul din documentele pe care le încarci este extras din document și împărțit în fragmente. Aceste fragmente au un număr fix de caractere (1024 de caractere) iar am avut grijă să avem o suprapunere (128 de caractere) între fragmente. Fiecare bucată de text este stocată ca un vector într-o bază de date vectorială. La fiecare întrebare, din aceste date se face o selecție pe baza similitudinii cu întrebarea formulată.

Procesul de selecție a fragmentelor de document

Fragmentele de text au fost deja transformate în vectori. Vectorii au mai multe dimensiuni care indică cât de „aproape” este acest text de alte texte. Gândește-te la un sistem de culoare RGB. O culoare cu valoare RGB similară este tot o culoare similară, dar puțin diferită. Baza de date vectorială ne permite să recuperăm fragmentele de text ordonate și filtrate pe baza întrebării. Alegem maximum 100 fragmente de text de 1024 de caractere pentru a fi incluși în cerere.

Modele potrivite pentru chat-ul bazat pe documente

Am selectat modele cu un spațiu mare de context pentru a permite chat-ul cu documente. Ne dorim să putem trimite maximum 100 de fragmente de text de 1024 de caractere. Aceasta reprezintă peste 100.000 de caractere. Folosește, de preferință, un model lingvistic de înaltă calitate din catalogul central de modele.

Modele potrivite

Modelele potrivite sunt cele cu suficient spațiu de context și bună analiză a documentelor, cum ar fi modelele de înaltă calitate de la OpenAI, Claude, Google sau AI europeană.

Selectează unul sau mai multe documente

Poți activa modulul de fișier atingând paperclip-ul în partea dreaptă a barei de întrebări. Poți alege până la 10 fișiere pentru a conversa.

Fișierele pe care le încarci sunt procesate mai întâi. Odată ce procesarea este finalizată, conținutul poate fi utilizat de AI-School în chat, în asistenți și în fluxuri de lucru. Dacă procesarea eșuează, fișierul primește un status de eroare și trebuie să-l reîncarci sau să-l procesezi din nou.

Modele de limbaj potrivite

În momentul în care începi să discuți cu documente, se verifică dacă modelul de limbaj este potrivit pentru chat-ul cu documente. Dacă nu este, se va selecta automat un model potrivit din catalogul curent.

Chat cu documente

Conversezi cu aceste documente atât timp cât modul de fișiere este activ.

Gestionarea fișierelor și re-procesarea

În Gestionare fișiere vezi fișierele pe care le-ai încărcat sau pe care le-a creat AI-School. Pentru fișiere PDF poți, din meniul de acțiuni, re-procesa un fișier. Aceasta va înlocui extragerea textului existentă cu o nouă procesare.

La PDF-uri AI-School poate utiliza fontul obișnuit de text și, când este necesar, poate efectua o analiză PDF mai cuprinzătoare. Aceasta analiză este utilă mai ales pentru:

PDF-uri scanate
formulare completate
răspunsuri scrise de mână
opțiuni încercuite sau subliniate
tabele, figuri și alte informații vizuale

La fișiere mari, procesarea poate dura mai mult. AI-School împarte documentele mari, după cum este necesar, în părți, pentru a permite procesarea și pentru fișierele PDF mai lungi.

Alegerea fișierelor existente

Când un formular sau un flux de lucru solicită un fișier, nu numai să încarci fișiere noi, ci poți alege și fișiere existente prin managerul media. Astfel nu este nevoie să încarci de fiecare dată o lucrare, un model de corectură sau alt document de origine.

Fișierele adăugate printr-un astfel de formular apar în fișierele asistentului din chat. Ele nu sunt selectate automat pentru întrebări obișnuite de chat, decât dacă le activezi tu în acest scop.

Procesare per fișier

Pe lângă chat-ul cu documente, AI-School oferă și posibilitatea de a aplica un prompt separat fiecărui document și de a primi răspunsuri individuale. Această funcție se numește Procesare per fișier.

Procesare per fișier

Această funcție poate fi utilizată în combinație cu „Chat cu fișiere”.

Scenariu posibil

Un exemplu practic de utilizare a „Procesare per fișier”:

Încarci testul și modelul de răspuns și le activezi la Chat cu fișiere
Încarci mai multe teste depuse și le activezi la Procesare per fișier
Formulezi un prompt, care este aplicat tuturor fișierelor în mod individual

În acest fel poți, de exemplu, să evaluezi automat toate testele depuse pe baza modelului de răspuns.

Număr maxim de fișiere

Există o limită de 30 de fișiere pentru funcția „Procesare per fișier”.

Tipuri de fișiere acceptate

AI-School acceptă mai multe tipuri de fișiere pentru chat cu documente:

fișiere PDF care se termină în .pdf
fișiere Word care se termină în .docx
fișiere CSV care se termină în .csv
fișiere JSON care se termină în .json
fișiere text care se termină în .txt
fișiere Markdown care se termină în .md
fișiere audio și video cu extensiile 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' sau 'webm'

Chat cu fișiere audio sau video

AI-School transcrie mai întâi fișierele audio și video cu furnizorul de transcriere configurat. În conversații, rezultatul poate conține intervale de timp și etichete de vorbitori. Apoi un model text potrivit poate corecta punctuația, ortografia, etichetele de vorbitori și termenii de specialitate. Fișierele lungi pot fi procesate diferit de cele scurte din cauza limitelor furnizorului și modelului.

Soluționarea restricțiilor de date​

Posibilități cu documentele tale​

Dezavantajele chat-ului pe bază de documente​

În spatele scenei a chat-ului cu documente​

Procesul de selecție a fragmentelor de document​

Modele potrivite pentru chat-ul bazat pe documente​

Selectează unul sau mai multe documente​

Gestionarea fișierelor și re-procesarea​

Alegerea fișierelor existente​

Procesare per fișier​

Scenariu posibil​

Tipuri de fișiere acceptate​

Chat cu fișiere audio sau video​

Soluționarea restricțiilor de date

Posibilități cu documentele tale

Dezavantajele chat-ului pe bază de documente

În spatele scenei a chat-ului cu documente

Procesul de selecție a fragmentelor de document

Modele potrivite pentru chat-ul bazat pe documente

Selectează unul sau mai multe documente

Gestionarea fișierelor și re-procesarea

Alegerea fișierelor existente

Procesare per fișier

Scenariu posibil

Tipuri de fișiere acceptate

Chat cu fișiere audio sau video