Chat com documentos

O próximo passo no processamento de informação

Em vez de depender de conjuntos de dados públicos e conhecimento geral, "Chat com Documentos" gera respostas e análises contextos-específicas com base nas suas fontes internas confiáveis. Carregue seus documentos e use-os como base para responder perguntas no chat!

Resolver limitações de dados

Se você faz perguntas a um modelo de linguagem, depende do conjunto de dados com que o modelo foi treinado. Geralmente são informações retiradas da internet. Fontes não públicas provavelmente não estarão nesse conjunto. Ao usar seus documentos como fonte para o chat, você tem certeza de que o modelo possui as informações de que precisa para responder às suas perguntas.

Possibilidades com seus documentos

Você pode fazer perguntas sobre seus documentos, como listar os pontos principais de um documento ou resumir o documento. Também pode solicitar análises específicas ao modelo de linguagem usando o seu próprio conjunto de dados.

Desvantagens do chat baseado em documentos

Carregar documentos e processá-los envolve etapas adicionais que não seriam necessárias se você pudesse obter respostas aceitáveis sem o contexto de informações específicas. Além disso, demora mais para gerar uma resposta, pois precisa extrair as informações necessárias do documento antes de enviar a solicitação ao modelo de linguagem.

Nos bastidores do chat com documentos

O texto dos documentos que você carrega é extraído do documento e dividido em trechos. Esses trechos têm um número fixo de caracteres (1024 caracteres) e também definimos uma sobreposição (128 caracteres) entre os trechos. Cada pedaço de texto é armazenado como um vetor em um banco de dados vetorial. A cada pergunta, selecionamos desses dados com base na similaridade com a pergunta feita.

Processo de seleção de fragmentos de documentos

Os trechos de texto já foram convertidos em vetores. Vetores possuem várias dimensões que indicam o quão “igual” esse texto é a outros textos. Pense no sistema de cores RGB. Uma cor com valor RGB semelhante é uma cor semelhante, mas não idêntica. O banco de vetores nos permite recuperar os trechos de texto em ordem e filtrados com base na pergunta. Selecionamos no máximo 100 trechos de 1024 caracteres para enviar junto com a pergunta.

Modelos adequados para chat baseado em documentos

Selecionamos modelos com grande janela de contexto para tornar possível conversar com documentos. Queremos poder enviar no máximo 100 trechos de 1024 caracteres. Isso soma mais de 100.000 caracteres. Prefira, para isso, um modelo de linguagem de alta qualidade a partir do catálogo central de modelos.

Modelos adequados

Modelos adequados são modelos com espaço de contexto suficiente e boa análise de documentos, como os modelos de alta qualidade da OpenAI, Claude, Google ou AI da UE.

Selecione um ou mais documentos

Você pode ativar o modo de arquivo clicando no clipe de papel no lado direito da barra de perguntas. Você pode escolher até 10 arquivos para conversar.

Arquivos que você carrega são processados primeiro. Assim que o processamento estiver pronto, o AI-School pode usar o conteúdo na chat, em assistentes e em fluxos de trabalho. Se o processamento falhar, o arquivo recebe um status de erro e você precisa fazer o upload novamente ou processá-lo novamente.

Modelos de linguagem adequados

No momento em que você começa a conversar com documentos, verifica-se se o modelo de linguagem é adequado para chat com documentos. Se não for, automaticamente um modelo adequado da catálogo atual é selecionado.

Chat com documentos

Converse com esses documentos enquanto o modo de arquivo estiver ativo.

Gerenciar arquivos e reprocessar

Em Gerenciamento de arquivos você vê os arquivos que você carregou ou que o AI-School criou. Para arquivos PDF, você pode, via menu de ações, reprocessar o arquivo. Isso substitui a extração de texto existente por uma nova.

Para PDFs, o AI-School pode usar a camada de texto comum e, quando necessário, realizar uma análise de PDF mais abrangente. Essa análise é especialmente útil para:

PDFs digitalizados
formulários preenchidos
respostas manuscritas
opções circuladas ou sublinhadas
tabelas, figuras e outras informações visuais

Em PDFs grandes, o processamento pode levar mais tempo. O AI-School divide documentos grandes quando necessário, para que PDFs maiores também possam ser processados.

Escolher arquivos existentes

Quando um formulário ou fluxo de trabalho solicita um arquivo, você pode não apenas carregar novos arquivos, mas também escolher arquivos existentes por meio do Gerenciador de Mídia. Assim, você não precisa carregar repetidamente uma prova, modelo de correção ou outro documento de origem.

Arquivos adicionados por meio de tal formulário aparecem como arquivos de assistente da chat. Eles não são selecionados automaticamente para perguntas gerais de chat, a menos que você os ative lá.

Processar por arquivo

Além de conversar com documentos, o AI-School também oferece a opção de aplicar um prompt separado a cada documento e receber respostas individualmente. Essa função é chamada de Processar por arquivo.

Processar por arquivo

Essa função pode ser usada em conjunto com “Chat com arquivos”.

Cenário possível

Um exemplo prático de uso de "Processar por arquivo":

Você carrega o teste e o modelo de resposta e os ativa em Chat com arquivos
Você carrega várias provas entregues e as ativa em Processar por arquivo
Você formula um prompt, que é aplicado a todos os arquivos individualmente

Dessa forma, você pode, por exemplo, avaliar automaticamente todas as provas entregues com base no modelo de resposta.

Número máximo de arquivos

Há um máximo de 30 arquivos para a função "Processar por arquivo".

Tipos de arquivo suportados

O AI-School suporta vários tipos de arquivo para chat com documentos:

Arquivos PDF com extensão .pdf
Arquivos Word com extensão .docx
Arquivos CSV com extensão .csv
Arquivos JSON com extensão .json
Arquivos de texto com extensão .txt
Arquivos Markdown com extensão .md
Arquivos de áudio e vídeo com as extensões 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' ou 'webm'

Conversar com arquivos de áudio ou vídeo

Para arquivos de áudio ou vídeo, AI-School primeiro transcreve o arquivo pelo provedor configurado, como OpenAI ou IA europeia. Os modelos concretos vêm do catálogo central de modelos.

Em conversas, a transcrição pode incluir blocos de tempo e rótulos de falantes quando o modelo escolhido oferece suporte. Depois, um modelo de texto adequado pode corrigir pontuação, ortografia, rótulos de falantes e termos especializados.

Após a transcrição, segue-se o mesmo processo usado para documentos PDF ou Word.

Modelos de áudio e vídeo têm limites de tamanho e duração que dependem do provedor e do modelo. Arquivos longos podem ser processados de forma diferente de arquivos curtos. Se o processamento falhar, confira o status do arquivo e tente novamente ou envie o arquivo em partes menores.

Arquivos que você pode baixar como exemplo

[Groot история document]https://drive.google.com/file/d/15qqXddz6eyaW2-9dqVunVBndkIH5S_Up/view?usp=sharing

Resolver limitações de dados​

Possibilidades com seus documentos​

Desvantagens do chat baseado em documentos​

Nos bastidores do chat com documentos​

Processo de seleção de fragmentos de documentos​

Modelos adequados para chat baseado em documentos​

Selecione um ou mais documentos​

Gerenciar arquivos e reprocessar​

Escolher arquivos existentes​

Processar por arquivo​

Cenário possível​

Tipos de arquivo suportados​

Conversar com arquivos de áudio ou vídeo​

Arquivos que você pode baixar como exemplo​

Resolver limitações de dados

Possibilidades com seus documentos

Desvantagens do chat baseado em documentos

Nos bastidores do chat com documentos

Processo de seleção de fragmentos de documentos

Modelos adequados para chat baseado em documentos

Selecione um ou mais documentos

Gerenciar arquivos e reprocessar

Escolher arquivos existentes

Processar por arquivo

Cenário possível

Tipos de arquivo suportados

Conversar com arquivos de áudio ou vídeo

Arquivos que você pode baixar como exemplo