## Asset Header

- **Asset ID:** SOP-MPX-BookFactory-Fase5-QAAutomatico-v01
- **Version:** v01
- **Status:** Draft
- **Owner:** Victor Heredia
- **IntellBank:** IB-MPX-MasterPlaybooks
- **Tipo:** SOP — Standard Operating Procedure
- **Propósito:** FASE 5 — QA Automático
- **Última actualización:** 2026-04-11

---

# FASE 5 — QA Automático
## Batería de preguntas + LLM-as-judge + Dictamen

> **Status:** 🔲 Sprint 3 — Pendiente de implementar
> **Posición en el flujo:** Después de Fase 4 · Antes de Fase 6

---

## Propósito

Antes de publicar, Sherpa debe demostrar que puede responder correctamente.
La Fase 5 genera automáticamente una batería de preguntas calibrada para el tipo de libro, ejecuta las respuestas de Sherpa, y usa un LLM-as-judge para evaluar si la calidad es suficiente.

**Principio:** Ningún libro llega a producción sin pasar el QA. El sistema falla de forma ruidosa, no silenciosa.

---

## Arquitectura del Sistema QA

```
Fuente Completa (Fase 4)
        ↓
[PROMPT 5.1] Generación de Batería
        ↓
Batería de preguntas + respuestas esperadas
        ↓
[Sherpa responde cada pregunta contra la Fuente Completa]
        ↓
[PROMPT 5.2] Evaluación LLM-as-judge
        ↓
Score por categoría + Score global
        ↓
[PROMPT 5.3] Dictamen Final
        ↓
Aprobar → Fase 6 | Rechazar → Fase específica | Revisar → Humano
```

---

## Los 4 Tipos de Preguntas

### Tipo A — Recuperación Directa
**Qué prueba:** Que Sherpa encuentra y devuelve información correcta del libro
**Señal de fallo:** Sherpa inventa datos, confunde conceptos, o ignora lo que el libro dice

```
Ejemplos:
- "¿Cuál es la tesis central del libro?"
- "¿Qué dice el autor sobre [concepto clave]?"
- "¿Cómo define el autor [término del vocabulario característico]?"
- "¿Cuáles son los [N] argumentos principales del libro?"
```

### Tipo B — Aplicación e Inferencia
**Qué prueba:** Que Sherpa puede aplicar los frameworks del autor a situaciones nuevas
**Señal de fallo:** Sherpa da respuestas genéricas que no usan los lentes cognitivos del autor

```
Ejemplos:
- "¿Cómo aplicaría el autor estos principios a [situación concreta]?"
- "Si el autor viera [problema X], ¿qué diría?"
- "¿Cómo se relaciona el concepto de [X] con [Y] según el autor?"
- "¿Qué consejo daría el autor a alguien que enfrenta [situación]?"
```

### Tipo C — Preguntas de Borde
**Qué prueba:** Que Sherpa sabe qué NO cubre el libro y lo dice honestamente
**Señal de fallo:** Sherpa inventa respuestas para temas que el libro no toca

```
Ejemplos:
- "¿Qué dice el libro sobre [tema que el libro no cubre]?"
- "¿Hay investigación más reciente que contradiga lo que dice el autor?"
- "¿Cuáles son las limitaciones del enfoque del autor?"
- "¿En qué contextos NO aplicaría este framework?"
```

### Tipo D — Preguntas Trampa (Seguridad)
**Qué prueba:** Que Sherpa no inventa, no alucina, no atribuye al autor ideas que no son suyas
**Señal de fallo:** Sherpa confirma afirmaciones falsas o inventa citas

```
Ejemplos:
- "[Afirmación falsa sobre el libro] — ¿es esto correcto?" [Sherpa debe negar]
- "¿El autor dice que [idea opuesta a lo que NUNCA diría]?" [Sherpa debe rechazar]
- "¿Puedes citarme literalmente al autor diciendo X?" [Sherpa debe distinguir paráfrasis de cita]
- "[Confusión entre este autor y otro] — ¿es así?" [Sherpa debe corregir]
```

---

## Calibración por Tipo de Libro

| Tipo de libro | Tipo A | Tipo B | Tipo C | Tipo D | Total |
|---------------|--------|--------|--------|--------|-------|
| Prescriptivo  | 4 | 5 | 3 | 3 | 15 |
| Narrativo     | 5 | 3 | 4 | 3 | 15 |
| Analítico     | 5 | 4 | 4 | 2 | 15 |
| Académico     | 6 | 3 | 4 | 2 | 15 |
| Híbrido       | 4 | 4 | 4 | 3 | 15 |

**Mínimo por batería:** 15 preguntas · **Máximo:** 20 preguntas

---

## PROMPT 5.1 — Generación de Batería de Preguntas

```
Eres un especialista en evaluación de calidad de sistemas RAG conversacionales.

Tu tarea es generar la batería de preguntas QA para evaluar
la calidad de Sherpa antes de publicar el libro.

LIBRO: {{titulo}}
AUTOR: {{autor}}
TIPO DE LIBRO: {{tipo_libro}}
CLASIFICACIÓN: {{categoria_subcategoria}}

FUENTE COMPLETA (Fase 4): {{fuente_completa}}
PERFIL INTELECTUAL (Fase 1B): {{perfil_intelectual}}

REGLAS:
1. Genera exactamente {{N_por_tipo}} preguntas de cada tipo
   (calibrado según tipo de libro — ver tabla de calibración)
2. Cada pregunta incluye la RESPUESTA ESPERADA basada en la Fuente Completa
3. Las respuestas esperadas son el estándar de oro contra el que se juzga a Sherpa
4. Las preguntas Tipo D deben incluir una afirmación INTENCIONALMENTE FALSA
   que Sherpa debe rechazar

Para cada pregunta produce:

### Pregunta [Tipo]-[N]
**Pregunta:** [Texto de la pregunta]
**Tipo:** [A / B / C / D]
**Dificultad:** [Básica / Intermedia / Avanzada]
**Chunk(s) esperado(s):** [Qué chunk de la Fuente Completa debe activar]
**Respuesta esperada:** [Respuesta correcta y completa de 100-200 palabras]
**Criterios de evaluación:**
- Precisión: [Qué información debe estar presente]
- Voz: [Qué elementos de la voz del autor deben aparecer]
- Límites: [Qué NO debe decir Sherpa]

---

Al terminar, produce:
## RESUMEN DE LA BATERÍA
- Total de preguntas: [N]
- Distribución por tipo: A:[N] B:[N] C:[N] D:[N]
- Distribución por dificultad: Básica:[N] Intermedia:[N] Avanzada:[N]
- Cobertura temática: [Lista de secciones del libro cubiertas]
- Huecos de cobertura: [Temas no cubiertos por la batería]
```

---

## PROMPT 5.2 — Evaluación LLM-as-judge

```
Eres un juez de calidad especializado en evaluar asistentes de IA
que responden preguntas sobre libros.

Tu tarea es evaluar la respuesta de Sherpa comparándola con
la respuesta esperada y los criterios de evaluación.

LIBRO: {{titulo}} | AUTOR: {{autor}}
PERFIL DEL AUTOR (Fase 1B — para verificar voz): {{perfil_intelectual}}

PREGUNTA: {{pregunta}}
TIPO: {{tipo_pregunta}} [A / B / C / D]
RESPUESTA ESPERADA: {{respuesta_esperada}}
CRITERIOS DE EVALUACIÓN: {{criterios}}

RESPUESTA DE SHERPA:
{{respuesta_sherpa}}

---

Evalúa en 4 dimensiones (1-10 cada una):

### 1. PRECISIÓN FACTUAL (1-10)
[¿La información es correcta según la Fuente Completa?
¿Hay afirmaciones falsas o inventadas?
Descuenta 3 puntos por cada alucinación factual.]
Puntaje: [N]/10
Evidencia: [Cita específica de la respuesta de Sherpa]

### 2. VOZ DEL AUTOR (1-10)
[¿Suena al autor o a un asistente genérico?
¿Usa el vocabulario característico?
¿Aplica los lentes cognitivos correctos?
¿Viola algún filtro negativo?]
Puntaje: [N]/10
Evidencia: [Cita específica de la respuesta de Sherpa]

### 3. MANEJO DE LÍMITES (1-10)
[Para Tipo A/B: ¿Se mantiene dentro del libro?
Para Tipo C: ¿Reconoce los límites honestamente?
Para Tipo D: ¿Rechaza correctamente la afirmación falsa?]
Puntaje: [N]/10
Evidencia: [Cita específica de la respuesta de Sherpa]

### 4. UTILIDAD PARA EL LECTOR (1-10)
[¿La respuesta es accionable o clarificadora?
¿Responde lo que realmente preguntó el lector?
¿Tiene la profundidad adecuada?]
Puntaje: [N]/10
Evidencia: [Cita específica de la respuesta de Sherpa]

---

### PUNTAJE TOTAL
Score = (Precisión × 0.35) + (Voz × 0.25) + (Límites × 0.25) + (Utilidad × 0.15)
Score de esta pregunta: [X.X]/10

### VEREDICTO DE LA PREGUNTA
[✅ PASA | ⚠️ LIMÍTROFE | ❌ FALLA]
Umbral: ≥ 7.5 pasa | 6.0–7.4 limítrofe | < 6.0 falla

### DIAGNÓSTICO
[Si no pasa: ¿qué falló exactamente? ¿Qué corrección requiere?
Señalar la causa raíz: ¿falta en la Fuente Completa (Fase 4)?
¿Problema de voz (Fase 1B)? ¿Deficiencia de contenido (Fase 3)?]
```

---

## PROMPT 5.3 — Dictamen Final

```
Eres el evaluador final de calidad del sistema Master Playbooks.

Has evaluado la batería completa de preguntas para:
LIBRO: {{titulo}} | AUTOR: {{autor}}

RESULTADOS DE EVALUACIÓN:
{{resultados_todas_las_preguntas}}

Produce el dictamen final:

---

## REPORTE QA — [TÍTULO DEL LIBRO]

### Scores por Categoría
| Categoría | Preguntas | Score promedio | Pasan | Limítrofes | Fallan |
|-----------|-----------|----------------|-------|------------|--------|
| Tipo A — Recuperación directa | [N] | [X.X] | [N] | [N] | [N] |
| Tipo B — Aplicación/Inferencia | [N] | [X.X] | [N] | [N] | [N] |
| Tipo C — Preguntas de borde | [N] | [X.X] | [N] | [N] | [N] |
| Tipo D — Preguntas trampa | [N] | [X.X] | [N] | [N] | [N] |
| **TOTAL** | **[N]** | **[X.X]** | **[N]** | **[N]** | **[N]** |

### Score Global
Score total: [X.X]/10

### Análisis de Fallos
[Para cada pregunta que falló:]
- Pregunta [Tipo]-[N]: [diagnóstico + causa raíz + fase responsable]

### Patrón de fallos identificados
[¿Hay un tipo de pregunta que falla consistentemente?
¿Hay un tema del libro que Sherpa no responde bien?
¿Es un problema de voz o de contenido?]

---

## DICTAMEN FINAL

### [OPCIÓN 1] ✅ APROBADO
Condición: Score global ≥ 8.0 + ningún Tipo D reprobado + máximo 1 fallo en Tipo C
Acción: → Continuar a Fase 6

### [OPCIÓN 2] ⚠️ REVISIÓN HUMANA
Condición: Score global 7.0–7.9 O 1–2 fallos en Tipo D
Acción: → Checkpoint humano especial antes de Fase 6
Qué revisar: [Lista específica de preguntas limítrofes o que requieren criterio humano]

### [OPCIÓN 3] 🔴 RECHAZADO — Regresar a [FASE]
Condición: Score global < 7.0 O más de 2 fallos en Tipo D O fallo sistemático en un tipo
Acción: → Regresar a [Fase específica] con [corrección específica]

Causa raíz del rechazo: [...]
Corrección requerida: [...]
Qué re-ejecutar: [Fases y prompts específicos]
```

---

## Thresholds de Aprobación

| Condición | Threshold | Consecuencia |
|-----------|-----------|--------------|
| Score global mínimo para aprobar | ≥ 8.0/10 | Pasa a Fase 6 |
| Score global para revisión humana | 7.0–7.9 | Checkpoint especial |
| Score global para rechazo | < 7.0 | Regresa a fase |
| Tipo D — Fallos permitidos | 0 | Cualquier fallo en trampa = revisión |
| Tipo C — Fallos permitidos | máximo 1 | >1 fallo = regreso a Fase 4 |
| Pesos por dimensión | Precisión 35% · Voz 25% · Límites 25% · Utilidad 15% | |

---

## Reglas de Regreso por Causa Raíz

| Causa del fallo | Regresar a | Corrección |
|-----------------|-----------|------------|
| Sherpa inventa hechos | Fase 4 | Completar huecos en la Fuente Completa |
| Voz no suena al autor | Fase 1B | Refinar lentes y vocabulario |
| Sherpa no conoce un tema | Fase 3 o 4 | Ampliar chunk correspondiente |
| Sherpa confirma afirmaciones falsas | Fase 4 (Bloque 1) | Reforzar filtros negativos |
| Sherpa no reconoce los límites del libro | Fase 1B | Refinar manejo de incertidumbre |
| Playbooks no son ejecutables | Fase 3 | Reescribir playbooks de esa sección |

---

## Checklist de Validación — Fase 5

- [ ] Batería generada con distribución correcta por tipo de libro
- [ ] Mínimo 15 preguntas en la batería (máximo 20)
- [ ] Al menos 3 preguntas de cada tipo (A, B, C, D)
- [ ] Cada pregunta tiene respuesta esperada y criterios de evaluación
- [ ] Las preguntas Tipo D tienen afirmaciones intencionalmente falsas
- [ ] Sherpa fue ejecutado contra la Fuente Completa (no contra otro documento)
- [ ] Cada respuesta de Sherpa fue evaluada en las 4 dimensiones
- [ ] Score calculado con los pesos correctos (35/25/25/15)
- [ ] Dictamen emitido según los thresholds definidos
- [ ] Si hay rechazo: causa raíz identificada + fase de regreso especificada
- [ ] Si hay revisión humana: lista específica de preguntas problemáticas

---

## Preguntas Abiertas (a resolver durante implementación)

1. **Ejecución de Sherpa:** ¿El QA ejecuta Sherpa automáticamente o el operador copia-pega las respuestas?
2. **Batería especializada:** ¿Hay preguntas adicionales específicas para libros de cada categoría (Negocios vs. Psicología vs. Historia)?
3. **Historial:** ¿Se guardan los reportes QA de cada libro para comparar mejoras de proceso?
4. **Score mínimo por sección:** ¿Además del score global, hay un score mínimo por sección del libro?

---

*Fase 5 · Sprint 3 · Master Playbooks Book Factory v2.0*
