メインコンテンツへスキップ

ドキュメントを使ったチャット

情報処理の次のステップ

公開データセットや一般的な知識に依存する代わりに、「ドキュメントを使ったチャット」は、信頼できる内部ソースに基づく文脈特有の回答と分析を生成します。ご自身のドキュメントをアップロードし、このドキュメントをチャットの質問回答の基礎として使用してください!

データ制限の解決

言語モデルに質問をすると、モデルが学習したデータセットに依存します。これは通常、インターネットから取得した情報です。非公開ソースはこのデータセットに含まれていない可能性があります。チャットのソースとしてご自身のドキュメントを使うことで、回答に必要な情報をモデルが保持していることを確実にできます。

あなたのドキュメントでの可能性

ドキュメントについて、主要点を挙げる、ドキュメントを要約する、などの質問をすることができます。また、独自のデータセットを使用して言語モデルに特定の分析を実行させることも可能です。

ドキュメントベースのチャットの欠点

ドキュメントをアップロードして処理するには追加の手順が必要です。特定の情報の文脈なしで回答できる場合は、これらの手順は不要です。また、ドキュメントから必要情報を取得して言語モデルへ送る処理が先に必要となるため、回答生成には時間がかかります。

ドキュメントを使ったチャットの裏側

アップロードしたドキュメントのテキストは文書から抽出され、一定の長さ(1024文字)のセクションに分割されます。またセクション間にはオーバーラップとして128文字を設定します。各テキスト片はベクターとしてベクターデータベースに保存されます。各質問に対して、これらのデータの中から質問と類似度に基づいて選択が行われます。

ドキュメント断片の選択プロセス

テキストの断片はすでにベクトル化されています。ベクトルは複数の次元を持ち、他のテキストとの「類似性」を示します。RGBカラー空間を想像してください。類似のRGB値を持つ色は類似の色ですが、少し異なります。ベクトルデータベースは、質問に対してテキスト片を整列・フィルターして取得する能力を提供します。我々は質問と最大100片のテキストを選択して質問と一緒に送ります。

ドキュメントベースのチャットに適したモデル

ドキュメントとチャットすることを可能にするため、十分なコンテキスト窓を持つモデルを選定しています。最大で100片の1024文字を同時に送信できるようにしたいのです。これを超えます。高品質な言語モデルを中央のモデルカタログから優先的に使用してください。

適したモデル

適切なモデルとは、コンテキスト空間が十分で、ドキュメント分析が優れているモデルのことです。OpenAI、Claude、Google、欧州AIの高品質モデルなど。

複数または1つのドキュメントを選択

質問ボックスの右側のクリップをクリックしてファイルモードを有効にできます。最大10ファイルまでチャットに使用できます。

アップロードしたファイルはまず処理されます。処理が完了すると、AI-School がチャット、アシスタント、ワークフローでその内容を使用できるようになります。処理が失敗した場合、ファイルはエラーステータスになり、再度アップロードまたは再処理が必要です。

適切な言語モデル

ドキュメントでチャットを開始すると、言語モデルがドキュメントチャットに適しているかを検証します。適切でない場合、最新カタログから自動的に適切なモデルが選択されます。

ドキュメントを使ったチャット

このドキュメントと、ファイルモードが有効な限り、チャットできます。

ファイルの管理と再処理

「ファイル管理」には、アップロードしたファイルやAI-School が作成したファイルが表示されます。PDFファイルの場合、アクションメニューからファイルを再処理できます。これにより、既存のテキスト抽出を新しい処理で置き換えます。

PDFでは、通常のテキスト層を使用し、必要に応じてより詳しいPDF分析を実行します。この分析は主に以下に有用です。

  • スキャン済みPDF
  • 記入済みフォーム
  • 手書きの回答
  • 囲まれたまたは下線付きの選択肢
  • 表、図、その他の視覚情報

大きなPDFは処理に時間がかかることがあります。AI-School は長いPDFも処理できるよう、必要に応じて大きな文書を分割します。

既存ファイルを選択

フォームやワークフローがファイルを必要とする場合、新規ファイルをアップロードすることだけでなく、メディアマネージャーを通じて既存ファイルを選択することもできます。これにより、テスト、採点モデル、その他の原本文書を毎回再アップロードする必要がなくなります。

そのようなフォームを通じて追加されたファイルは、チャットのアシスタントファイルとして表示されます。通常のチャット質問には自動的には選択されませんが、あなた自身が有効にすれば表示されます。

ファイルごとに処理

ドキュメントとのチャットに加えて、各ドキュメントに個別のプロンプトを適用して個別の回答を得る「ファイルごとに処理」機能も提供します。

ファイルごとに処理

この機能は「ファイル付きチャット」と組み合わせて使用できます。

可能なシナリオ

「ファイルごとに処理」機能の実用例:

  1. テストと回答モデルをアップロードし、「ファイル付きチャット」を有効化
  2. 複数の提出済みテストをアップロードし、「ファイルごとに処理」を有効化
  3. すべてのファイルに適用されるプロンプトを作成

この方法で、提出済みのテストを回答モデルに基づいて自動的に評価させることができます。

ファイル数の最大

「ファイルごとに処理」機能には最大30ファイルの制限があります。

サポートされているファイルタイプ

AI-School はドキュメントのチャットに以下のファイルタイプをサポートします。

  • PDF (.pdf)
  • Word (.docx)
  • CSV (.csv)
  • JSON (.json)
  • テキスト (.txt)
  • Markdown (.md)
  • オーディオ/ビデオ(拡張子:mp3, mp4, mpeg, mpga, m4a, wav, webm)

音声または動画ファイルでのチャット

音声・動画ファイルのチャットには、OpenAI の Whisper モデルを使用します。

テキスト抽出後、適切なテキストモデルを使って句読点やスペルを確認・修正します。

その後、PDFやWord文書の抽出と同じ手順を適用します。

Whisper の1ファイルあたりの上限は25 MBです。新規ファイルのアップロード時にも同様の上限を適用します。

ダウンロード用のサンプルファイル

Groot history document