方針
オフライン自動評価を毎夜走らせ、精度/事実性/有害性などのスコアを可視化。閾値を割ったPRをブロックし、回帰を早期検知します。
ベストマッチ
最短で課題解決する一冊
この記事の内容と高い親和性が確認できたベストマッチです。早めにチェックしておきましょう。
データと評価器
data/cases.jsonlに評価ケースを管理- Judge LLM/規則ベースでスコア化し、
reports/*.jsonを出力
さらに理解を深める参考書
関連記事と相性の良い実践ガイドです。手元に置いて反復しながら進めてみてください。
ワークフロー(概略)
name: nightly-eval
on:
schedule: [{ cron: '0 18 * * *' }] # 毎日UTC18時
jobs:
run:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- uses: actions/setup-node@v4
with: { node-version: 20 }
- run: npm ci
- run: node scripts/eval.js > reports/$(date +%F).json
- run: node scripts/assert.js reports/$(date +%F).json # 閾値ゲート
- uses: actions/upload-artifact@v4
with: { name: eval-report, path: reports/*.json }さらに理解を深める参考書
関連記事と相性の良い実践ガイドです。手元に置いて反復しながら進めてみてください。
ゲートの例
// scripts/assert.js(概念)
const report = JSON.parse(fs.readFileSync(process.argv[2], 'utf-8'));
if (report.faithfulness.p50 < 0.8) { console.error('fail: faithfulness'); process.exit(1); }さらに理解を深める参考書
関連記事と相性の良い実践ガイドです。手元に置いて反復しながら進めてみてください。
まとめ
CIに評価を組み込むと、モデル/プロンプト/データ変更のリスクを可視化できます。品質指標を“テスト”として扱い、継続的に改善しましょう。
さらに理解を深める参考書
関連記事と相性の良い実践ガイドです。手元に置いて反復しながら進めてみてください。
この記事をシェア



