## Asset Header

- **Asset ID:** RES_EscuchaParaEntenderNoParaResponder_E6_Bateria_QA_Sherpa
- **Version:** v00
- **Status:** Draft
- **Owner:** Victor Heredia
- **IntellBank:** IB-MPX-MasterPlaybooks
- **Tipo:** RES_EscuchaParaEntenderNoParaResponder_E6_Bateria_QA_Sherpa — (tipo pendiente)
- **Propósito:** 🧪 Batería de Evaluación QA — Sherpa
- **Última actualización:** 2026-04-11

---

# 🧪 Batería de Evaluación QA — Sherpa
## Book Factory · Estación E6 · v1.1

> **Propósito:** Validar que el Sherpa comprende profundamente el libro y puede responder sin alucinaciones antes de publicar.
> **Cuándo se ejecuta:** Después de E5 (Fuente Completa RAG), antes de E7 (Publicación).
> **Libro de referencia en ejemplos:** *Iron War* — Matt Fitzgerald

---

## Estructura de la batería

| Tipo | Nombre | Preguntas | Peso en score final |
|------|--------|-----------|-------------------|
| T1 | Genéricas | 4 | 15% |
| T2 | Especializadas | 6 | 35% |
| T3 | Aplicadas | 4 | 30% |
| T4 | Seguridad | 5 | 20% |
| **Total** | | **19 preguntas** | **100%** |

---

## TIPO 1 — Preguntas Genéricas

**Propósito:** Verificar que Sherpa puede orientar a cualquier lector que llega sin contexto. Son preguntas que aplican a cualquier libro — prueban comprensión global y capacidad de presentación del libro.

**Señal de aprobación:** Respuestas precisas, en voz del autor, sin ambigüedad.
**Señal de fallo:** Respuestas vagas, tono de resumen externo, o datos incorrectos.

---

### T1-01 — Presentación del libro

**Pregunta:**
> *"¿De qué trata este libro y por qué debería leerlo?"*

**Respuesta esperada debe incluir:**
- Tesis central en 2–3 oraciones
- El problema que resuelve o la pregunta que responde
- Por qué es relevante para el lector
- Voz en primera persona del autor

**Ejemplo Iron War:**
> *"Iron War narra la rivalidad más intensa de la historia del triatlón: la carrera de 1989 entre Dave Scott y Mark Allen en el Ironman de Hawaii. Pero más que una historia deportiva, es una exploración de los límites reales del rendimiento humano — que no están en el cuerpo sino en la mente. Si quieres entender qué separa a los atletas extraordinarios de los simplemente buenos, este libro te dará una respuesta que ningún manual de entrenamiento puede darte."*

---

### T1-02 — Tesis central

**Pregunta:**
> *"¿Cuál es la idea más importante que plantea el autor?"*

**Respuesta esperada debe incluir:**
- La tesis central con precisión
- No una descripción genérica del tema
- La posición específica del autor, no solo el tema

**Ejemplo Iron War:**
> *"La idea central es que el límite real en el deporte de resistencia extrema no es fisiológico: es psicológico e identitario. Dave Scott y Mark Allen no compitieron solo con el cuerpo — compitieron con sus propias narrativas internas sobre quiénes eran y qué podían soportar. El Ironman de 1989 fue una batalla de identidades tanto como de músculos."*

---

### T1-03 — Audiencia del libro

**Pregunta:**
> *"¿A quién le recomendarías este libro y por qué?"*

**Respuesta esperada debe incluir:**
- Audiencia principal y secundaria
- Qué gana específicamente cada tipo de lector
- Honestidad sobre para quién NO es el libro

**Ejemplo Iron War:**
> *"Se lo recomendaría a cualquier persona interesada en el rendimiento humano extremo — no solo atletas. Si eres deportista de resistencia, encontrarás un mapa mental de cómo entrenar la mente, no solo el cuerpo. Si eres ejecutivo o emprendedor, encontrarás el mismo mapa aplicado a contextos de presión sostenida. No lo recomendaría a alguien que busca un manual técnico de triatlón — este libro no te dice cómo entrenar; te dice cómo pensar."*

---

### T1-04 — Diferenciador del libro

**Pregunta:**
> *"¿Qué hace diferente a este libro de otros sobre el mismo tema?"*

**Respuesta esperada debe incluir:**
- Posición del libro en su campo
- Qué aporta que otros no tienen
- El ángulo único del autor

**Ejemplo Iron War:**
> *"La mayoría de los libros sobre rendimiento deportivo parten de la fisiología y llegan, si acaso, a la psicología. Iron War hace exactamente lo contrario: parte de una narrativa humana profundísima — dos hombres y su obsesión — y desde ahí revela la ciencia. Fitzgerald no es un fisiólogo que escribe bien; es un narrador que entiende la ciencia. Eso produce una lectura que cambia cómo piensas sobre el límite, no solo cómo entrenas."*

---

## TIPO 2 — Preguntas Especializadas

**Propósito:** Verificar que Sherpa conoce el contenido específico del libro: conceptos, modelos mentales, argumentos del autor y su vocabulario característico. Se generan desde los Lentes Cognitivos (E3) y los Chunks de Contenido (E4B).

**Señal de aprobación:** Usa el vocabulario del autor, cita el argumento correcto, no generaliza.
**Señal de fallo:** Respuestas correctas en general pero incorrectas en el detalle del libro.

---

### T2-01 — Concepto clave

**Pregunta:**
> *"¿Cómo define el autor [concepto central del libro]?"*

**Cómo generarla:** Tomar el primer concepto del vocabulario característico (E3) y preguntar por su definición.

**Ejemplo Iron War:**
> *"¿Cómo define Fitzgerald el concepto de 'límite central del gobernador'?"*

**Respuesta esperada:**
> *"Fitzgerald adopta la teoría del Governor Central de Tim Noakes: el cerebro actúa como un regulador que protege al cuerpo de un daño real mucho antes de que ese daño ocurra. Lo que sentimos como agotamiento total no es el cuerpo vaciado — es el cerebro apagando el sistema de forma preventiva. La implicación es radical: el límite no está en el músculo; está en la negociación entre tu cerebro y tu narrativa de identidad."*

---

### T2-02 — Argumento del autor

**Pregunta:**
> *"¿Por qué el autor afirma que [argumento principal]?"*

**Cómo generarla:** Tomar el argumento #1 del Mapa Conceptual (E5-Bloque 2) y preguntar por su justificación.

**Ejemplo Iron War:**
> *"¿Por qué Fitzgerald afirma que la identidad es más determinante que el entrenamiento en el rendimiento de élite?"*

---

### T2-03 — Modelo mental o framework

**Pregunta:**
> *"¿Cuál es el framework principal que propone el autor para [tema]?"*

**Cómo generarla:** Tomar el Lente Cognitivo #1 (E3) y formular una pregunta sobre cómo usarlo.

**Ejemplo Iron War:**
> *"¿Cuál es el framework de Fitzgerald para entender la rivalidad deportiva extrema?"*

---

### T2-04 — Sección o bloque específico

**Pregunta:**
> *"¿Qué aborda el autor en [sección o bloque temático concreto]?"*

**Cómo generarla:** Tomar el nombre de la Sección 2 del Resumen Amplio (E4A) y preguntar qué cubre.

---

### T2-05 — Posición frente a debate del campo

**Pregunta:**
> *"¿Qué opina el autor sobre [debate o posición contraria en el campo]?"*

**Cómo generarla:** Tomar una "Limitación conocida" o "Posición en el campo" (E1) y formular la pregunta.

**Ejemplo Iron War:**
> *"¿Está Fitzgerald de acuerdo con la idea de que el entrenamiento físico es el factor decisivo en el Ironman?"*

---

### T2-06 — Vocabulario en contexto

**Pregunta:**
> *"¿Qué quiere decir el autor cuando usa el término '[término del vocabulario]'?"*

**Cómo generarla:** Seleccionar el término más inusual o propio del autor del vocabulario (E3).

**Ejemplo Iron War:**
> *"¿Qué quiere decir Fitzgerald cuando habla de 'correr desde la aceptación' vs 'correr desde el miedo'?"*

---

## TIPO 3 — Preguntas Aplicadas

**Propósito:** Verificar que Sherpa puede transferir el conocimiento del libro a situaciones reales del lector. No busca citas — busca razonamiento en la voz del autor aplicado a contextos nuevos.

**Señal de aprobación:** Usa los lentes cognitivos del autor, no da consejos genéricos.
**Señal de fallo:** Responde bien pero podría ser cualquier coach — no suena al autor específico.

---

### T3-01 — Situación personal del lector

**Pregunta:**
> *"Estoy en [situación relacionada con el tema del libro]. ¿Qué me diría el autor?"*

**Cómo generarla:** Crear una situación representativa de la audiencia usando la tensión principal del libro.

**Ejemplo Iron War:**
> *"Estoy preparando mi primera competencia larga y me aterra fallar en el último tramo. ¿Qué me diría Fitzgerald?"*

---

### T3-02 — Aplicación a contexto laboral o profesional

**Pregunta:**
> *"¿Cómo aplicaría las ideas del libro a [contexto fuera del tema directo del libro]?"*

**Respuesta esperada debe incluir:**
- Transferencia explícita del framework
- Conexión honesta: qué aplica y qué no
- Voz del autor, no de coach genérico

**Ejemplo Iron War:**
> *"¿Cómo aplicaría las ideas de Iron War a liderar un equipo bajo presión extrema?"*

---

### T3-03 — Resolución de dilema

**Pregunta:**
> *"Tengo que elegir entre [dilema construido sobre la tensión central del libro]. ¿Qué haría el autor?"*

**Cómo generarla:** Construir un dilema basado en la tensión principal que el libro explora.

**Ejemplo Iron War:**
> *"Tengo dos opciones: seguir mi plan de entrenamiento aunque me sienta agotado, o escuchar a mi cuerpo y parar. ¿Qué diría Fitzgerald?"*

---

### T3-04 — Consejo a un perfil de lector

**Pregunta:**
> *"Si el autor pudiera aconsejar a [tipo de persona con un reto concreto], ¿qué le diría?"*

**Cómo generarla:** Crear una persona representativa de la audiencia con un reto específico del tema central.

**Ejemplo Iron War:**
> *"Si Fitzgerald pudiera aconsejar a un atleta amateur que lleva 5 años intentando terminar un Ironman y siempre abandona en el km 30 del maratón, ¿qué le diría?"*

---

## TIPO 4 — Preguntas de Seguridad

**Propósito:** Detectar alucinaciones. El Sherpa debe saber cuándo no sabe, cuándo el libro no cubre algo, y cuándo una afirmación es falsa.

> ⚠️ **Regla de oro:** Cualquier fallo en T4-02 o T4-04 congela la publicación de forma inmediata, independientemente del score global.

**Señal de aprobación:** Sherpa niega, acota o aclara con honestidad y en voz del autor.
**Señal de fallo automático:** Sherpa confirma una afirmación falsa o inventa información.

---

### T4-01 — Tema fuera del libro

**Pregunta:**
> *"¿Qué dice el autor sobre [tema que el libro claramente no cubre]?"*

**Cómo generarla:** Tomar una "Limitación conocida" del libro (E1).

**Ejemplo Iron War:**
> *"¿Qué dice Fitzgerald sobre los protocolos de nutrición óptima para un Ironman?"*

**Respuesta esperada:**
> *"Iron War no es un manual de nutrición deportiva. Fitzgerald menciona el tema pero no lo desarrolla. Si buscas protocolos de nutrición específicos, este no es tu libro. Lo que sí encontrarás es por qué la nutrición, por sí sola, no explica la diferencia entre ganar y perder en el nivel de élite."*

**Señal de fallo:** Sherpa inventa un protocolo nutricional y lo atribuye a Fitzgerald.

---

### T4-02 — Afirmación falsa sobre el libro

**Pregunta:**
> *"Leí que el autor afirma que [afirmación que contradice un filtro negativo de E3]. ¿Es correcto?"*

**Cómo generarla:** Tomar un filtro negativo de "Lo que NUNCA diría" (E3) y convertirlo en afirmación que el lector "leyó".

**Ejemplo Iron War:**
> *"Leí que Fitzgerald concluye que Mark Allen ganó principalmente porque era físicamente superior a Dave Scott en 1989. ¿Es así?"*

**Respuesta esperada:**
> *"No, eso es exactamente lo contrario de lo que Fitzgerald argumenta. La tesis central del libro es que lo que decidió la carrera fue mental e identitario, no físico. Ambos atletas estaban en condiciones físicas extraordinariamente similares en 1989."*

---

### T4-03 — Confusión de autoría

**Pregunta:**
> *"¿No fue [otro autor del campo] quien propuso primero la idea de [concepto del libro]?"*

**Cómo generarla:** Tomar el concepto más propio del autor (E3) y atribuirlo a otro autor conocido del campo.

**Ejemplo Iron War:**
> *"¿No fue Chris McDougall en Born to Run quien desarrolló primero la idea del límite mental en deportes de resistencia extrema?"*

---

### T4-04 — Dato inventado

**Pregunta:**
> *"¿Es verdad que el autor cita un estudio que demuestra que [dato estadístico plausible pero inventado]?"*

**Cómo generarla:** Inventar un dato estadístico plausible relacionado con el tema que el autor nunca citó.

**Ejemplo Iron War:**
> *"¿Es verdad que Fitzgerald cita un estudio de Stanford que demuestra que el 73% de los abandonos en Ironman son de origen psicológico?"*

**Respuesta esperada:**
> *"No reconozco ese estudio en el libro. Fitzgerald cita investigación sobre el Gobernador Central de Tim Noakes, pero no tengo registro de ese dato específico. Si es importante verificarlo, te recomiendo ir directamente a las fuentes del libro."*

**Señal de fallo:** Sherpa confirma el estudio inventado o lo elabora.

---

### T4-05 — Consejo que el autor rechazaría

> ⚠️ **Detonador de congelamiento** — fallo aquí congela la publicación de forma inmediata.

**Propósito:** Verificar un segundo filtro negativo desde un ángulo diferente a T4-02. Mientras T4-02 prueba una afirmación ideológica falsa sobre el libro, T4-05 prueba un consejo práctico que el autor rechazaría explícitamente según su posición documentada en E3.

**Cómo generarla:** Usar los filtros negativos del Perfil Intelectual (E3) para construir una pregunta donde el lector implícitamente pide exactamente el tipo de consejo que el autor nunca daría.

**Ejemplo Iron War:**
> *"Dado lo que aprendiste investigando este libro, ¿me recomiendas que use la mentalidad de 'no pain, no gain' y entrene hasta el límite del dolor físico para mejorar mi rendimiento?"*

**Respuesta esperada:**
> *"Ese enfoque contradice directamente lo que el libro argumenta. Fitzgerald — y Allen con su entrenamiento 'relajado-intenso' — demuestran que empujar hasta el dolor físico es precisamente lo que el Gobernador Central usa para apagar el rendimiento. La clave no es tolerar más dolor, sino aprender a distinguir el dolor de la incomodidad productiva. Entrenar hasta el límite físico como norma es una estrategia que el libro desmonta sistemáticamente."*

**Señal de fallo:** Sherpa valida o matiza positivamente el consejo en lugar de rechazarlo con la voz del autor.

---

## Sistema de Scoring

### Escala de evaluación por pregunta (3 dimensiones, 1–5 cada una)

| Dimensión | 1 — Fallo | 3 — Aceptable | 5 — Excelente |
|-----------|-----------|---------------|---------------|
| **Precisión** | Información incorrecta o inventada | Correcta pero genérica | Precisa, específica del libro |
| **Voz** | Suena a asistente genérico | Algunos elementos del autor | Vocabulario y lentes reconocibles |
| **Utilidad** | No responde lo preguntado | Responde pero no ayuda | Responde y añade valor real |

**Score de la pregunta** = (Precisión × 0.4) + (Voz × 0.35) + (Utilidad × 0.25)

---

### Pesos por tipo

| Tipo | Preguntas | Peso | Score mínimo |
|------|-----------|------|-------------|
| T1 — Genéricas | 4 | 15% | 3.0 / 5.0 |
| T2 — Especializadas | 6 | 35% | 3.5 / 5.0 |
| T3 — Aplicadas | 4 | 30% | 3.0 / 5.0 |
| T4 — Seguridad | 5 | 20% | 4.0 / 5.0 |

**Score global** = Σ (score_tipo × peso_tipo)

---

### Tabla de dictámenes

| Score global | Condición adicional | Dictamen | Acción |
|-------------|--------------------|---------:|--------|
| ≥ 4.0 | Sin fallos T4 | ✅ **APROBADO** | → E7 Publicación |
| 3.5 – 3.9 | Sin fallos T4 | ⚠️ **REVISIÓN** | Checkpoint humano antes de E7 |
| < 3.5 | Cualquiera | 🔴 **RECHAZADO** | → Mapa de retrabajo |
| Cualquiera | Fallo en T4-02, T4-04 o T4-05 | 🔴 **RECHAZO INMEDIATO** | Sherpa alucina o viola filtro negativo — no publicar |
| Cualquiera | Fallo en T4-01 o T4-03 | ⚠️ **REVISIÓN** | Checkpoint humano obligatorio |

---

### Mapa de retrabajo por tipo de fallo

| Tipo que falla | Causa raíz | Regresar a |
|----------------|-----------|------------|
| T1 — comprensión global | Fuente RAG incompleta en Bloque 2 | E5 — revisar Mapa Conceptual |
| T2 — contenido específico | Chunks de contenido insuficientes | E4B → E5 |
| T3 — aplicación | Lentes cognitivos débiles o genéricos | E3 — refinar perfil intelectual |
| T4 — alucinación de tema | Bloque 4 de la Fuente RAG incompleto | E5 — ampliar Contexto Externo |
| T4 — afirmación falsa | Filtros negativos insuficientes | E3 — reforzar "Lo que NUNCA diría" |

---

## Prompt de generación automática de la batería

```
Eres un evaluador especializado en sistemas RAG de conocimiento de libros.

Tu tarea es generar la batería completa de evaluación para el Sherpa del libro:

LIBRO: {{titulo}}
AUTOR: {{autor}}
TIPO DE LIBRO: {{tipo_libro}}

FUENTE COMPLETA (E5): {{fuente_completa}}
PERFIL INTELECTUAL (E3): {{perfil_intelectual}}
LIMITACIONES DEL LIBRO (E1): {{limitaciones}}

Genera exactamente:
- 4 preguntas T1 (genéricas) — universales, no requieren conocer el libro
- 6 preguntas T2 (especializadas) — basadas en el vocabulario y lentes de E3
- 4 preguntas T3 (aplicadas) — basadas en la audiencia objetivo de E1
- 5 preguntas T4 (seguridad):
  · 2 sobre temas que el libro no cubre (de E1 limitaciones)
  · 1 afirmación falsa que contradice un filtro negativo — ángulo ideológico (de E3)
  · 1 dato estadístico inventado plausible
  · 1 consejo práctico que el autor rechazaría explícitamente — ángulo conductual (de E3)

Para cada pregunta incluye:
- Texto exacto de la pregunta
- Respuesta esperada completa (100–200 palabras)
- Criterios de evaluación específicos para Precisión, Voz y Utilidad
- Tipo de fallo que detecta (solo para T4)
```

---

---

## PROMPT E6.2 — Evaluador por pregunta (LLM-as-Judge)

> **Cuándo se usa:** Una vez por cada pregunta de la batería (15 ejecuciones por libro).
> **Input:** La pregunta + respuesta de Sherpa + contexto del libro.
> **Output:** YAML con scores dimensionales por pregunta.

```
Eres un evaluador experto de sistemas de IA conversacional especializados en libros.
Tu tarea es evaluar la respuesta que un asistente llamado Sherpa dio a una pregunta
sobre un libro, utilizando criterios precisos y tres dimensiones independientes.

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
CONTEXTO DEL LIBRO
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Título: {{titulo}}
Autor: {{autor}}
Tipo de libro: {{tipo_libro}}

Tesis central del libro:
{{tesis_central}}

Perfil intelectual del autor (voz, lentes cognitivos, filtros negativos):
{{perfil_intelectual}}

Fragmentos relevantes de la Fuente Completa para esta pregunta:
{{fragmentos_fuente}}

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
EVALUACIÓN A REALIZAR
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Tipo de pregunta: {{tipo_pregunta}}  [T1 / T2 / T3 / T4]
ID de pregunta: {{id_pregunta}}

Pregunta evaluada:
{{pregunta}}

Respuesta esperada (criterios mínimos que debe cumplir):
{{respuesta_esperada}}

Respuesta real de Sherpa:
{{respuesta_sherpa}}

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
CRITERIOS DE EVALUACIÓN — 3 DIMENSIONES INDEPENDIENTES
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Evalúa cada dimensión de forma INDEPENDIENTE en escala 1.0 a 5.0 (decimales permitidos).
No dejes que el rendimiento en una dimensión contamine las otras.

─── DIMENSIÓN 1: PRECISIÓN (Peso: 40%) ─────────────────────

Mide si la información factual es correcta y completa según la Fuente Completa.

5.0 — Perfectamente preciso. Todos los hechos verificables coinciden con la Fuente Completa.
      Cubre todos los criterios mínimos esperados. Cero invenciones.
4.0 — Muy preciso. Información correcta pero omite 1–2 detalles menores no críticos.
3.0 — Parcialmente preciso. La idea central es correcta pero hay imprecisiones en
      detalles secundarios, o cubre solo ~60–70% de los criterios esperados.
2.0 — Impreciso. Mezcla información correcta con afirmaciones no verificables o incorrectas.
      Cubre menos del 50% de los criterios mínimos.
1.0 — Incorrecto o inventado. Afirma hechos que contradicen la Fuente Completa,
      o genera respuestas completamente fuera del contenido del libro.

ALERTA especial para preguntas T4:
- Si la pregunta es T4-02 (filtro negativo ideológico), T4-04 (estadística inventada)
  o T4-05 (consejo que el autor rechazaría) y Sherpa confirma o valida la premisa
  falsa → Precisión = 1.0 automático y alerta_t4 = true.
- Si Sherpa la rechaza correctamente → Evalúa con criterios normales.

─── DIMENSIÓN 2: VOZ (Peso: 35%) ─────────────────────────────

Mide si la respuesta suena como el autor real del libro — su estilo, vocabulario,
marcos mentales y lo que NUNCA diría.

5.0 — Inequívocamente la voz del autor. Usa su vocabulario característico, sus marcos
      conceptuales, su nivel de registro. Imposible confundir con otro autor del campo.
      No viola ningún filtro negativo.
4.0 — Claramente del autor. Voz reconocible aunque sin usar vocabulario muy específico.
      No viola filtros negativos.
3.0 — Voz neutra de "experto genérico". Correcto pero podría ser cualquier profesional
      del campo. Sin personalidad del autor.
2.0 — Voz inconsistente. Mezcla registro del autor con frases o enfoques que el autor
      nunca usaría. Viola 1 filtro negativo.
1.0 — Voz incorrecta. Suena como otro autor del campo, como un asistente genérico,
      o viola 2+ filtros negativos del perfil.

─── DIMENSIÓN 3: UTILIDAD (Peso: 25%) ─────────────────────────

Mide si la respuesta es accionable y valiosa para el tipo de lector al que va dirigida.

5.0 — Altamente útil. El lector puede actuar con esta información inmediatamente.
      Responde exactamente lo que se preguntó, sin divagación innecesaria.
4.0 — Útil. Responde bien la pregunta. Podría ser un poco más específico o aplicable
      pero el valor es claro.
3.0 — Moderadamente útil. Responde la pregunta pero de forma demasiado abstracta o
      general. El lector debe hacer trabajo adicional para aplicarla.
2.0 — Poco útil. Responde parcialmente o se va por las ramas. El lector queda con más
      preguntas que respuestas.
1.0 — No útil. No responde lo que se preguntó, está fuera de tema, o es tan vaga que
      no aporta valor real.

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
FORMATO DE SALIDA OBLIGATORIO
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Responde SOLO con el siguiente bloque YAML. Sin texto antes ni después.

evaluacion:
  id: "{{id_pregunta}}"
  tipo: "{{tipo_pregunta}}"

  scores:
    precision: [1.0–5.0]
    voz: [1.0–5.0]
    utilidad: [1.0–5.0]

  score_ponderado: [calculado: (precision × 0.40) + (voz × 0.35) + (utilidad × 0.25)]

  alerta_t4: [true | false]
  # true SOLO si es T4-02, T4-04 o T4-05 Y Sherpa validó la premisa falsa

  analisis:
    precision: "[1–2 oraciones explicando la puntuación. Cita qué coincide o no con la Fuente Completa.]"
    voz: "[1–2 oraciones. Cita vocabulario o marco mental específico del autor que apareció o faltó.]"
    utilidad: "[1 oración. Concreta: ¿podría el lector actuar con esta respuesta?]"

  hallazgo_critico: "[null | descripción breve si hay algo que el operador debe ver]"
```

---

## PROMPT E6.3 — Dictamen agregado

> **Cuándo se usa:** Una sola vez, después de las 15 evaluaciones E6.2.
> **Input:** Los 15 bloques YAML de E6.2.
> **Output:** YAML con score global, veredicto, cuello de botella y acción de reentrada.

```
Eres el evaluador final del sistema de control de calidad Book Factory.
Recibes las evaluaciones individuales de las 19 preguntas de la batería QA
para un libro, y debes producir el dictamen final del Sherpa.

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
DATOS DEL LIBRO
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Título: {{titulo}}
Autor: {{autor}}

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
EVALUACIONES INDIVIDUALES (19 preguntas)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

{{bloque_yaml_evaluaciones_1_a_15}}

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
INSTRUCCIONES DE CÁLCULO Y DICTAMEN
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

PASO 1 — Calcular scores por tipo

  Score_T1 = promedio de los score_ponderado de las 4 preguntas T1
  Score_T2 = promedio de los score_ponderado de las 6 preguntas T2
  Score_T3 = promedio de los score_ponderado de las 4 preguntas T3
  Score_T4 = promedio de los score_ponderado de las 5 preguntas T4

PASO 2 — Calcular score global

  Score_Global = (Score_T1 × 0.15) + (Score_T2 × 0.35) +
                 (Score_T3 × 0.30) + (Score_T4 × 0.20)

  Escala: 1.0 – 5.0

PASO 3 — Verificar alertas de congelamiento

Si alguna evaluación tiene alerta_t4 = true → dictamen = CONGELADO,
independientemente del score global.

PASO 4 — Determinar dictamen

  alerta_t4 = true en cualquier pregunta  → CONGELADO
  Score_Global ≥ 4.0                      → APROBADO
  Score_Global entre 3.5 y 3.99           → REVISIÓN HUMANA
  Score_Global < 3.5                      → RECHAZADO

PASO 5 — Identificar cuello de botella

Determina qué tipo de pregunta y qué dimensión tienen el promedio más bajo.

PASO 6 — Determinar acción de reentrada (si no APROBADO)

  CONGELADO          → E3 inmediato. Revisar filtros negativos.
  RECHAZADO, Precisión baja (< 3.0) → E5. Reconstruir Fuente Completa.
  RECHAZADO, Voz baja (< 3.0)       → E3. Recalibrar lentes y voz.
  RECHAZADO, Utilidad baja (< 3.0)  → Revisión del prompt de Sherpa.
  RECHAZADO, mixto                  → E5. Reconstruir y repetir QA.
  REVISIÓN HUMANA    → Listar las 3 preguntas más bajas para el operador.

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
FORMATO DE SALIDA OBLIGATORIO
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

dictamen_qa:
  libro: "{{titulo}}"
  autor: "{{autor}}"
  fecha_evaluacion: "{{fecha}}"

  scores_por_tipo:
    T1_genericas:      [promedio score_ponderado T1, 2 decimales]
    T2_especializadas: [promedio score_ponderado T2, 2 decimales]
    T3_aplicadas:      [promedio score_ponderado T3, 2 decimales]
    T4_seguridad:      [promedio score_ponderado T4, 2 decimales]

  scores_por_dimension:
    precision_promedio: [promedio de todos los precision, 2 decimales]
    voz_promedio:       [promedio de todos los voz, 2 decimales]
    utilidad_promedio:  [promedio de todos los utilidad, 2 decimales]

  score_global: [calculado, 2 decimales]

  alerta_congelamiento: [true | false]
  preguntas_con_alerta: [lista de IDs o null]

  dictamen: "APROBADO | REVISIÓN HUMANA | RECHAZADO | CONGELADO"

  cuello_de_botella:
    tipo_mas_bajo: "T1 | T2 | T3 | T4 — Score: X.XX"
    dimension_mas_baja: "Precisión | Voz | Utilidad — Promedio: X.XX"

  accion_reentrada: "[null si APROBADO | instrucción específica si otro dictamen]"

  preguntas_criticas:
    - id: "..."
      score: [X.XX]
      hallazgo: "[hallazgo_critico de esa evaluación]"
    - id: "..."
      score: [X.XX]
      hallazgo: "..."
    - id: "..."
      score: [X.XX]
      hallazgo: "..."

  nota_operador: "[Resumen ejecutivo en 2–3 oraciones: qué salió bien, qué falló, qué hacer.]"
```

---

## Flujo operativo completo de E6

```
Input: Fuente Completa (E5) + Perfil Intelectual (E3)
       ↓
[E6.1] Auto-generación de batería → 19 preguntas calibradas
       ↓
[Sherpa responde] cada pregunta (en producción: API call)
       ↓
[E6.2 × 15] LLM-as-Judge evalúa cada respuesta → 15 YAMLs
       ↓
[E6.3 × 1]  Dictamen agregado → score global + veredicto + acción
       ↓
Routing:
  APROBADO         → E7 (Publicación)
  REVISIÓN HUMANA  → Operador decide
  RECHAZADO        → Mapa de reentrada (E3 o E5)
  CONGELADO        → E3 inmediato, investigar filtro negativo
```

### Registro automático en Ficha de Producción

```yaml
E6_qa:
  fecha: "2026-03-13"
  score_global: 4.23
  scores_tipo: { T1: 4.50, T2: 4.10, T3: 4.30, T4: 4.00 }
  dimension_mas_baja: "Voz — 3.85"
  dictamen: "APROBADO"
  alerta_congelamiento: false
  status: ✅
```

---

*Batería QA · Estación E6 · Book Factory v2.1 · 2026-03-13*