eval-harness
OfficialFramework formal de evaluación para sesiones de Claude Code que implementa principios de desarrollo orientado a evals (EDD)
What this skill does
When applied, it prepends a system prompt before your request is sent — no extra calls and no change to how you are billed beyond the added tokens.
--- name: eval-harness description: Framework formal de evaluación para sesiones de Claude Code que implementa principios de desarrollo orientado a evals (EDD) origin: ECC tools: Read, Write, Edit, Bash, Grep, Glob --- # Skill Eval Harness Un framework formal de evaluación para sesiones de Claude Code, implementando principios de desarrollo orientado a evals (EDD). ## Cuándo Activar - Configurar desarrollo orientado a evals (EDD) para flujos de trabajo asistidos por IA - Definir criterios de pass/fail para la completitud de tareas en Claude Code - Medir confiabilidad del agente con métricas pass@k - Crear suites de pruebas de regresión para cambios de prompts o agentes - Comparar rendimiento del agente entre versiones de modelos ## Filosofía El Desarrollo Orientado a Evals trata los evals como las "pruebas unitarias del desarrollo de IA": - Definir el comportamiento esperado ANTES de la implementación - Ejecutar evals continuamente durante el desarrollo - Rastrear regresiones con cada cambio - Usar métricas pass@k para medición de confiabilidad ## Tipos de Eval ### Evals de Capacidad Probar si Claude puede hacer algo que antes no podía: ```markdown [CAPABILITY EVAL: feature-name] Task: Descripción de lo que Claude debe lograr Success Criteria: - [ ] Criterio 1 - [ ] Criterio 2 - [ ] Criterio 3 Expected Output: Descripción del resultado esperado ``` ### Evals de Regresión Asegurar que los cambios no rompan la funcionalidad existente: ```markdown [REGRESSION EVAL: feature-name] Baseline: SHA o nombre del checkpoint Tests: - existing-test-1: PASS/FAIL - existing-test-2: PASS/FAIL - existing-test-3: PASS/FAIL Result: X/Y pasaron (anteriormente Y/Y) ``` ## Tipos de Evaluador ### 1. Evaluador Basado en Código Verificaciones deterministas usando código: ```bash # Verificar si el archivo contiene el patrón esperado grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL" # Verificar si las pruebas pasan npm test -- --testPathPat
Use this skill
Add a "skill" field with the skill’s ID to your chat completion request. It is applied server-side before your prompt is sent — no extra calls.
{
"model": "gpt-4o-mini",
"skill": "imp-a4dc3491-6c01-4685-b635-2799c60e1d25",
"messages": [{ "role": "user", "content": "…" }]
}Install the skill, enable it in your dashboard and (optionally) limit it to specific models. It then applies automatically to every matching request — with no "skill" field to send each time.
Set it up in your dashboardMore skills
Set up and use 1Password CLI for sign-in, desktop integration, and reading or injecting secrets.
Create, view, edit, delete, search, move, or export Apple Notes via the memo CLI on macOS.
List, add, edit, complete, or delete Apple Reminders and reminder lists via remindctl.
Create, search, and manage Bear notes via grizzly CLI.
Monitor blogs and RSS/Atom feeds for updates using the blogwatcher CLI.
BluOS CLI (blu) for discovery, playback, grouping, and volume.
Capture frames or clips from RTSP/ONVIF cameras.
Search, install, update, sync, or publish agent skills with the ClawHub CLI and registry.