/04—Evaluations

Evaluation runs

Every candidate is measured against its baseline. Runs are flagged when a candidate underperforms or regresses on rubric criteria.

Coverage

94%

▲ 2.1 pts · 30d

Avg cases per run

186

contract-corpus largest

Regressions · 24h

Contract Clause Reviewer

Median runtime

28s

▼ 4s vs last week

Skill / Version	Dataset	Cases	Pass	Δ	Status	Started
Contract Clause Reviewerv2.4.0-rc.2	contract-corpus-v9	248	242−6	▲ 0.6	6 regressions	58m ago
Incident Triagev3.1.0-rc.4	sev-2-corpus-v3	132	124−8	▲ 0.4	running	1h ago
Quarterly Earnings Summaryv0.5.3-rc.1	earnings-q3-v1	84	79−5	▲ 0.2	passed	1h ago
PR Summarizerv1.8.3-rc.1	pr-corpus-v6	320	314−6	▲ 0.3	passed	2h ago
SOC 2 Evidence Drafterv1.2.0	soc-2-corpus-v2	96	92−4	▲ 0.1	passed	4h ago
Engineering RFC Reviewerv2.0.0	rfc-corpus-v4	156	154−2	▲ 0.5	passed	6h ago
Customer Email Tone Passv1.0.4	email-tone-v2	280	268−12	▼ 0.2	passed	9h ago
Vendor Onboarding Memov0.4.1	vendor-corpus-v1	64	55−9	▼ 0.4	passed	1d ago
RFP Response Drafterv0.9.0	rfp-corpus-v1	72	62−10	baseline	baseline set	1d ago
Contract Clause Reviewerv2.3.7	contract-corpus-v9	248	246−2	▲ 0.4	passed	6d ago

Queue · running

Incident Triage98%

v3.1.0-rc.4 · sev-2-corpus-v3

124/132 cases · ~14s remaining

Eval workers2 / 4 active

Coverage by tier

Skills with active eval suites

T1Tier 1

100%

T2Tier 2

94%

T3Tier 3

71%

Top failure modes · 30d

Off-policy response42

Missing risk-flag31

Format / schema drift18

Latency p95 over budget14

Tone compliance8