評価は、LLM の回答を検証し、品質基準を満たしていることを確認するのに役立つテストの一種です。
Firebase Genkit は、プラグインを介してサードパーティの評価ツールをサポートしています。また、LLM を搭載したアプリケーションのランタイム状態に関する分析情報を提供する強力なオブザーバビリティ機能も備えています。Genkit ツールを使用すると、入力、出力、中間ステップの情報など、データを自動的に抽出して、LLM レスポンスをエンドツーエンドで評価し、システムの構成要素のパフォーマンスを把握できます。
たとえば、RAG フローがある場合、Genkit は取得ツールによって返されたドキュメントのセットを抽出します。これにより、Genkit の忠実度と回答の関連性に関する指標で、フローのコンテキストで実行されている取得ツールの品質を評価できます。
import { genkit } from 'genkit';
import { genkitEval, GenkitMetric } from '@genkit-ai/evaluator';
import { vertexAI, textEmbedding004, gemini15Flash } from '@genkit-ai/vertexai';
const ai = genkit({
plugins: [
vertexAI(),
genkitEval({
judge: gemini15Flash,
metrics: [GenkitMetric.FAITHFULNESS, GenkitMetric.ANSWER_RELEVANCY],
embedder: textEmbedding004, // GenkitMetric.ANSWER_RELEVANCY requires an embedder
}),
],
// ...
});
注: 上記の構成では、genkit
、@genkit-ai/google-ai
、@genkit-ai/evaluator
、@genkit-ai/vertexai
パッケージをインストールする必要があります。
npm install @genkit-ai/evaluator @genkit-ai/vertexai
まず、入力データセットとして使用する入力セットを testInputs.json
という名前で定義します。この入力データセットは、評価の出力の生成に使用するテストケースを表します。
["Cheese", "Broccoli", "Spinach and Kale"]
次に、eval:flow
コマンドを使用して、testInputs.json
で提供されているテストケースと比較してフローを評価できます。
genkit eval:flow menuSuggestionFlow --input testInputs.json
次を実行すると、デベロッパー UI で評価結果を確認できます。
genkit start
次に、localhost:4000/evaluate
に移動します。
または、出力ファイルを指定して、JSON ファイルで出力を検査することもできます。
genkit eval:flow menuSuggestionFlow --input testInputs.json --output eval-result.json
注: LLM を使用してテストケースを生成する方法の例を以下に示します。
サポートされている評価ツール
Genkit エバリュエータ
Genkit には、RAGES にインスパイアされた少数のネイティブ評価ツールが用意されており、すぐに使用できます。
- 忠実性
- 回答の関連性
- 悪意
評価プラグイン
Genkit は、プラグインを使用して追加の評価ツールをサポートしています。
- VertexAI プラグインを介した VertexAI Rapid Evaluator。
- LangChain プラグインによる LangChain 条件評価。
高度な使用方法
eval:flow
は、フローをすばやく評価するのに便利な方法ですが、評価ステップをより細かく制御する必要がある場合があります。これは、別のフレームワークを使用しており、評価する出力がすでにある場合に発生することがあります。eval:flow
が実行するすべての手順を半手動で実行できます。
Genkit フローをバッチで実行し、実行に一意のラベルを追加して、評価データセット(入力、出力、コンテキストのセット)の抽出に使用できます。
テスト入力に対してフローを実行します。
genkit flow:batchRun myRagFlow test_inputs.json --output flow_outputs.json --label customLabel
評価データを抽出します。
genkit eval:extractData myRagFlow --label customLabel --output customLabel_dataset.json
エクスポートされたデータは、各 testCase が次の形式の JSON ファイルとして出力されます。
[
{
"testCaseId": string,
"input": string,
"output": string,
"context": array of strings,
"traceIds": array of strings,
}
]
データ抽出ツールは、取得ツールを自動的に検出し、生成されたドキュメントをコンテキスト配列に追加します。デフォルトでは、eval:run
は構成されたすべてのエバリュエータに対して実行されます。eval:flow
と同様に、eval:run
の結果は、デベロッパー UI の評価ページ(localhost:4000/evaluate
)に表示されます。
カスタム エクストラクタ
eval:extractData
コマンドと eval:flow
コマンドで使用するカスタム抽出ツールを指定することもできます。カスタム エクストラクタを使用すると、デフォルトの抽出ロジックをオーバーライドして、データセットの作成と評価を強化できます。
カスタム抽出ツールを構成するには、genkit-tools.conf.js
という名前のツール構成ファイルをプロジェクトのルートに追加します(まだない場合)。
cd $GENKIT_PROJECT_HOME
touch genkit-tools.conf.js
ツールの構成ファイルに、次のコードを追加します。
module.exports = {
evaluators: [
{
actionRef: '/flow/myFlow',
extractors: {
context: { outputOf: 'foo-step' },
output: 'bar-step',
},
},
],
};
このサンプルでは、myFlow
フローのエクストラクタを構成します。この構成は、context
フィールドと output
フィールドのエクストラクタをオーバーライドし、input
フィールドにデフォルトのロジックを使用します。
評価エクストラクタの仕様は次のとおりです。
evaluators
フィールドには、flowName
によってスコープされた EvaluatorConfig オブジェクトの配列を指定します。extractors
は、抽出ツールのオーバーライドを指定するオブジェクトです。extractors
で現在サポートされているキーは[input, output, context]
です。使用できる値の型は次のとおりです。string
- ステップ名を文字列で指定します。このステップの出力は、この鍵用に抽出されます。{ inputOf: string }
または{ outputOf: string }
- これらのオブジェクトは、ステップの特定のチャネル(入力または出力)を表します。たとえば、{ inputOf: 'foo-step' }
は、このキーのステップfoo-step
の入力を抽出します。(trace) => string;
- 柔軟性を高めるために、Genkit トレースを受け取ってstring
を返す関数を指定し、この関数内に抽出ロジックを指定できます。正確な TraceData スキーマについては、genkit/genkit-tools/common/src/types/trace.ts
をご覧ください。
注: これらのすべての手順で抽出されるデータは JSON 文字列になります。この JSON 文字列は、評価時にツールによって自動的に解析されます。関数抽出ツールを指定する場合は、出力が有効な JSON 文字列であることを確認してください。たとえば、"Hello, world!"
は有効な JSON ではありませんが、"\"Hello, world!\""
は有効です。
既存のデータセットでの実行
すでに抽出されたデータセットに対して評価を実行するには:
genkit eval:run customLabel_dataset.json
別の場所に出力するには、--output
フラグを使用します。
genkit eval:flow menuSuggestionFlow --input testInputs.json --output customLabel_evalresult.json
構成済みのエバリュエータのサブセットで実行するには、--evaluators
フラグを使用して、エバリュエータの名前をカンマ区切りで指定します。
genkit eval:run customLabel_dataset.json --evaluators=genkit/faithfulness,genkit/answer_relevancy
LLM を使用してテストデータを合成する
以下は、PDF ファイルを使用して、ユーザーが PDF について尋ねる可能性のある質問を生成するフローのサンプルです。
import { genkit, run, z } from "genkit";
import { googleAI, gemini15Flash } from "@genkit-ai/googleai";
import { chunk } from "llm-chunk";
const ai = genkit({ plugins: [googleAI()] });
export const synthesizeQuestions = ai.defineFlow(
{
name: "synthesizeQuestions",
inputSchema: z.string().describe("PDF file path"),
outputSchema: z.array(z.string()),
},
async (filePath) => {
filePath = path.resolve(filePath);
const pdfTxt = await run("extract-text", () => extractText(filePath));
const chunks = await run("chunk-it", async () =>
chunk(pdfTxt, chunkingConfig)
);
const questions: string[] = [];
for (var i = 0; i < chunks.length; i++) {
const qResponse = await ai.generate({
model: gemini15Flash,
prompt: {
text: `Generate one question about the text below: ${chunks[i]}`,
},
});
questions.push(qResponse.text);
}
return questions;
}
);
このコマンドを使用してデータをファイルにエクスポートし、評価に使用できます。
genkit flow:run synthesizeQuestions '"my_input.pdf"' --output synthesizedQuestions.json