Chat z dokumentami
Kolejny krok w przetwarzaniu informacji
Zamiast polegać na publicznych zestawach danych i ogólnej wiedzy, "Chat z Dokumentami" generuje kontekstowo specyficzne odpowiedzi i analizy na podstawie twoich zaufanych źródeł wewnętrznych. Prześlij swoje dokumenty i używaj ich jako podstawy do odpowiadania na pytania w czacie!
Rozwiązywanie ograniczeń danych
Jeśli zadajesz pytania modelowi językowemu, polegasz na zestawie danych, na którym model został wytrenowany. Zazwyczaj są to informacje z internetu. Niepubliczne źródła prawdopodobnie nie znajdują się w tym zestawie danych. Korzystając z twoich dokumentów jako źródła do czatu, masz pewność, że model posiada informacje, których potrzebujesz do odpowiedzi na swoje pytania.
Możliwości dzięki twoim dokumentom
Możesz zadawać pytania dotyczące twoich dokumentów, takie jak wymienienie najważniejszych punktów dokumentu lub streszczenie dokumentu. Możesz też zlecić modelowi językowemu przeprowadzenie konkretnych analiz na twoich własnych zestawach danych.
Wady czatowania opartego na dokumentach
Przesyłanie dokumentów i ich przetwarzanie to dodatkowe kroki, których nie musisz podejmować, jeśli możesz uzyskać dobre odpowiedzi bez kontekstu konkretnych informacji. Ponadto generowanie odpowiedzi zajmuje dłużej, ponieważ najpierw trzeba pobrać niezbędne informacje z dokumentu, zanim żądanie trafi do modelu językowego.
Za kulisami czatowania z dokumentami
Tekst z dokumentów, które przesyłasz, jest wydzielany z dokumentu i dzielony na fragmenty. Te fragmenty mają stałą liczbę znaków (1024 znaki) i mamy również ustawiony nakład (128 znaków) między fragmentami. Każdy kawałek tekstu jest przechowywany jako wektor w bazie wektorów. Przy każdym pytaniu wybieramy z tych danych zestawienie oparte na podobieństwie do zadawanej kwestii.
Proces selekcji fragmentów dokumentu
Fragmenty tekstu zostały już przekształcone w wektory. Wektory mają wiele wymiarów, które określaj ą, jak „podobny” jest ten tekst do innego tekstu. Pomyśl o systemie kolorów RGB. Kolor o podobnej wartości RGB to również podobny kolor, ale inny. Baza wektorów umożliwia pobieranie fragmentów tekstu w porządku i z filtracją na podstawie pytania. Wybieramy maksymalnie 100 fragmentów tekstu po 1024 znaki, aby wysłać je razem z pytaniem.
Odpowiednie modele do czatowania z dokumentami
Wybraliśmy modele z dużą przestrzenią kontekstu, aby umożliwić czatowanie z dokumentami. Chcemy móc wysłać maksymalnie 100 fragmentów tekstu po 1024 znaki. To ponad 100 000 znaków. Do tego celu najlepiej użyć wysokiej jakości modelu językowego z centralnego katalogu modeli.
Odpowiednie modele to modele z wystarczającą przestrzenią kontekstową i dobrą analizą dokumentów, takie jak wysokiej jakości modele OpenAI, Claude, Google lub Europejskie AI.
Wybierz jeden lub więcej dokumentów
Możesz włączyć tryb pliku, klikając ikonę spinacza po prawej stronie pola pytania. Możesz wybrać do 10 plików do czatowania.
Pliki, które przesyłasz, najpierw są przetwarzane. Gdy przetwarzanie zakończy się, AI-School może wykorzystać ich treść w czacie, w asystentach i w przepływach pracy. Jeśli przetwarzanie się nie powiedzie, plik otrzyma status błędu i będziesz musiał ponownie go przesłać lub ponownie przetworzyć.
W momencie rozpoczęcia czatowania z dokumentami sprawdzane jest, czy wybrany model językowy jest odpowiedni do czatowania z dokumentami. Jeśli nie, automatycznie zostanie wybrany odpowiedni model z aktualnego katalogu.

Możesz czatować z tymi dokumentami tak długo, jak tryb pliku jest włączony.
Zarządzanie plikami i ponowne przetwarzanie
W Zarządzanie plikami widzisz pliki, które przesłałeś lub które zostały wygenerowane przez AI-School. W przypadku plików PDF możesz za pomocą menu akcji ponownie przetworzyć plik. To zastępuje istniejące wyodrębnianie tekstu nowym przetworzeniem.
W PDF-ach AI-School może użyć zwykłej warstwy tekstu i, gdy to konieczne, przeprowadzić obszerniejszą analizę PDF. Ta analiza jest szczególnie przydatna przy:
- zeskanowanych PDF-ach
- wypełnionych formularzach
- odręcznych odpowiedziach
- zakreślonych lub podkreślonych wyborach
- tabelach, rysunkach i innych informacjach wizualnych
Przy dużych PDF-ach przetwarzanie może zająć więcej czasu. AI-School dzieli duże dokumenty na części, gdy to konieczne, aby również dłuższe PDF-y mogły być przetwarzane.
Wybór istniejących plików
Gdy formularz lub przepływ pracy prosi o plik, możesz nie tylko przesyłać nowe pliki, ale także wybierać istniejące pliki przez menedżera mediów. Dzięki temu nie musisz za każdym razem przesyłać ponownie testów, modeli oceniania lub innego dokumentu źródłowego.
Pliki dodane za pomocą takiego formularza pojawiają się w asystencie plików czatu. Nie są automatycznie wybierane do zwykłych pytań czatu, chyba że sam je włączysz.
Przetwarzanie per plik
Oprócz czatowania z dokumentami, AI-School oferuje także opcję zastosowania osobnego promptu do każdego dokumentu i otrzymania indywidualnych odpowiedzi. Ta funkcja nosi nazwę Przetwarzanie per plik.

Ta funkcja może być używana w połączeniu z „Chatem z plikami”.
Scenariusz możliwy do zastosowania
Praktyczny przykład użycia „Przetwarzanie per plik”:
- Przesyłasz testy i model odpowiedzi i włączasz je w Chat z plikami
- Przesyłasz wiele złożonych testów i włączasz je w Przetwarzanie per plik
- Formułujesz prompt, który jest stosowany do wszystkich plików indywidualnie
W ten sposób możesz na przykład automatycznie oceniać wszystkie złożone testy na podstawie modelu odpowiedzi.
Obowiązuje maksymalnie 30 plików dla funkcji „Przetwarzanie per plik”.
Obsługiwane typy plików
AI-School obsługuje różne typy plików do czatowania z dokumentami:
- Pliki PDF o rozszerzeniu .pdf
- Pliki Word o rozszerzeniu .docx
- Pliki CSV o rozszerzeniu .csv
- Pliki JSON o rozszerzeniu .json
- Pliki tekstowe o rozszerzeniu .txt
- Pliki Markdown o rozszerzeniu .md
- Pliki audio i wideo z rozszerzeniami 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' lub 'webm'
Czatowanie z plikami audio lub wideo
Do czatowania z plikami audio lub wideo AI-School używa modelu Whisper OpenAI.
Po ekstrakcji tekstu można użyć odpowiedniego modelu tekstowego do sprawdzenia i poprawienia interpunkcji i pisowni.
Następnie następuje ta sama procedura co przy ekstrakcji z dokumentów PDF lub Word.
Whisper ma limit 25 MB na plik audio lub wideo. Dlatego stosujemy ten sam limit przy przesyłaniu nowych plików.