Evaluation

3件

LATEST DROP

LLMアプリ評価指標と実装ガイド【2025年版】：自動評価・人手評価・オンライン評価の設計

RAG/対話/要約/分類などLLMアプリの品質評価を、オフライン自動評価・人手評価・本番オンライン評価の3層で設計。メトリクス、ゴールドデータ作り、評価プロンプト、A/Bテスト、コスト管理まで。

13 September, 2025

気になるテーマをショートリストでチェック

RAG/要約/対話の評価をGitHub ActionsなどのCIで自動実行。ゴールドデータ管理、評価プロンプト、基準値ゲート、レポート生成、トレンド可視化まで。テンプレWorkfl…

品質（正確性/有用性）とコスト（トークン/レイテンシ）を同時に改善する多目的最適化フレーム。Paretoフロントの作り方、グリッド探索、ナッジ（ゲート/しきい値）、意思決定手順をコ…

よく読まれているテーマから深掘り