Cases

Benchmark cases

Task-level reliability across all models and runs.

Case	Score	Passed	Failed	Models
find-file	81.7%	49	11	6
read-exact-file	83.3%	50	10	6
read-exact-file-with-at-reference	86.7%	52	8	6
read-file	63.3%	38	22	6
use-skill	55.0%	33	27	6
use-skill-with-refs	55.0%	33	27	6
use-skill-with-scripts	46.7%	28	32	6