## Asset Header - **Asset ID:** MiPg-BVH-MinimizaTokens-v01 - **Version:** v01 - **Status:** Draft - **Owner:** Victor Heredia - **IntellBank:** IB-BVH-Publications - **Tipo:** MiPg — Mini Page - **Propósito:** NIVEL 1: CRÍTICO (La mayor fuga de tokens) - **Última actualización:** 2026-04-11 --- Aquí tienes el **MasterPlaybook Definitivo** para reducir drásticamente el consumo de tokens en el ecosistema de Claude (aplicable a Claude Code, interfaces de chat y entornos de agentes). He clasificado estos tips y hacks desde el nivel crítico (los que más tokens queman sin que te des cuenta) hasta los niveles tácticos de configuración, basándome en los hábitos de usuarios avanzados. --- Que tiene que ver ### NIVEL 1: CRÍTICO (La mayor fuga de tokens) **1. Conversión Obligatoria a Markdown (Cero PDFs/Imágenes crudas)** - **Descripción:** Arrastrar archivos crudos como PDFs al chat es uno de los mayores desperdicios. El modelo procesa todo el formato, metadatos, fuentes y estructuras binarias como tokens de entrada, convirtiendo 4,500 palabras de texto en más de 100,000 tokens. - **Pasos a seguir:** 1. Antes de subir cualquier documento, conviértelo a formato Markdown (puedes pedirle a Claude que lo haga en un chat separado o usar herramientas web gratuitas). 2. Sube únicamente el archivo `.md` limpio a tu sesión de trabajo principal. - **Comentario adicional:** Mantener esos 100,000 tokens en el historial significa que la IA los releerá en cada mensaje, devorando tu límite de uso rápidamente. En Markdown, ese mismo documento puede pesar solo 5,000 tokens. **2. Higiene del Historial de Conversación (Evitar el efecto compuesto)** - **Descripción:** Los modelos de lenguaje son "sin estado" (stateless). En cada nuevo mensaje, la IA tiene que releer todo el historial de la conversación desde el principio. El 98.5% de los tokens consumidos en chats largos provienen de esta relectura constante. - **Pasos a seguir:** 1. Usa el comando `/clear` cada vez que cambies de tarea para iniciar con un contexto limpio. 2. Ejecuta `/compact` cuando tu ventana de contexto llegue al 60% de su capacidad. Esto resume la conversación reteniendo lo esencial. 3. Si llegas a unos 10-15 mensajes, pide un resumen, borra el chat y pégalo en una sesión nueva. - **Comentario adicional:** En lugar de mandar 3 mensajes separados ("resume esto", "busca errores", "sugiere solución"), agrupa todo en un solo _prompt_. Además, si Claude se equivoca, **edita** tu mensaje original en lugar de enviar una corrección adicional, ya que esto evita inflar el historial. **3. Auditoría y Desconexión de Servidores MCP (Model Context Protocol)** - **Descripción:** Los MCPs y plugins cargan automáticamente todas sus definiciones de herramientas en tu ventana de contexto al inicio de cada mensaje, creando un impuesto de tokens silencioso e invisible. - **Pasos a seguir:** 1. Revisa qué MCPs tienes activos. 2. Desconecta aquellos que no estés usando para tu proyecto actual. 3. Cuando sea posible, prefiere usar CLIs (Interfaces de Línea de Comandos) en lugar de MCPs (ej. usa el CLI de Google Workspace en vez del MCP). - **Comentario adicional:** Cargar un solo MCP como Playwright añade 17.6K tokens fijos a _cada_ mensaje. Si sumas otro como Supabase, el peaje sube a 38.5K tokens constantes. --- ### NIVEL 2: ESTRATÉGICO (Agentes y Navegación de Código) **4. Arquitectura de `claude.md` Ultra Ligera** - **Descripción:** Claude lee el archivo `claude.md` automáticamente al inicio de cada chat como contexto del sistema. Si es enorme, pagarás por leerlo en cada simple saludo. - **Pasos a seguir:** 1. Mantén este archivo por debajo de las 200 líneas. 2. Trátalo como un **índice** o mapa. No pongas todo el contenido ahí, simplemente dile a Claude dónde encontrar las guías de estilo o reglas si las llega a necesitar. 3. Añade la regla del "Modo de Planificación": "_No hagas cambios hasta que tengas un 95% de confianza en lo que necesitas construir. Hazme preguntas de seguimiento hasta alcanzar ese nivel._". - **Comentario adicional:** Dejar que Claude empiece a codificar ciegamente y se equivoque es la mayor fuente de pérdida de tokens. Esta regla previene que se vaya por el camino equivocado. **5. Uso Quirúrgico de Referencias (Cero exploración libre)** - **Descripción:** Darle a la IA acceso a todo el repositorio y decirle "busca el error" hace que analice código irrelevante, quemando saldo masivamente. - **Pasos a seguir:** 1. No adjuntes directorios completos si no es necesario. 2. Sé extremadamente específico. Ejemplo: "Revisa la función _verify user_ dentro del archivo _Auth.js_". 3. Usa la arroba (`@filename`) para apuntar solo a los archivos estrictamente requeridos. - **Comentario adicional:** Claude debe ser preciso al leer, pero tú debes ser preciso con lo que le das para alimentarse. **6. Selección Dinámica de Modelos y "Niveles de Esfuerzo"** - **Descripción:** No uses Opus (el modelo más caro) para tareas que modelos más ligeros pueden resolver. - **Pasos a seguir:** 1. Usa **Haiku** para investigación sub-agente, formateo de texto, procesamiento de datos simples o resúmenes. 2. Usa **Sonnet** (default) para el 80% del trabajo de programación estándar. 3. Reserva **Opus** exclusivamente para depuración profunda, refactorizaciones críticas o arquitectura de alto nivel. 4. Si usas equipos de IA, baja el nivel de "esfuerzo" (effort) en el orquestador principal a bajo o medio, ya que su única labor es delegar. - **Comentario adicional:** Utilizar un Ferrari para ir al supermercado es un desperdicio. Adecuar el modelo a la complejidad de la tarea multiplica la vida de tu sesión. --- ### NIVEL 3: TÁCTICO (Control de Contexto y APIs) **7. Precaución Máxima con los Sub-agentes** - **Descripción:** Los flujos de trabajo con múltiples agentes consumen entre 7 y 10 veces más tokens que una sesión normal. ¿La razón? Cada agente se despierta con su propia ventana de contexto desde cero, recargando todos los archivos y herramientas del sistema. - **Pasos a seguir:** 1. Utiliza sub-agentes con moderación. 2. Dale a cada agente **solo el contexto mínimo viable**. Un agente de edición no necesita el roadmap del proyecto, y un agente planificador no necesita todo el código fuente. 3. Pre-procesa y resume la información antes de pasársela a un agente. - **Comentario adicional:** Forzar a un agente a procesar documentos crudos solo para orientarse es irresponsable a nivel de arquitectura. **8. Aprovechamiento del "Prompt Caching" (Caché de Contexto)** - **Descripción:** El sistema guarda en caché el contexto estático (archivos de referencia, system prompts, herramientas), reduciendo los costos hasta en un 90% para consultas repetidas. - **Pasos a seguir:** 1. Asegúrate de que tus documentos estáticos estén configurados para guardarse en caché (crítico si usas la API o construyes agentes). 2. ¡Cuidado con las pausas! El caché tiene un tiempo límite de **5 minutos**. Si te alejas de la computadora y vuelves 6 minutos después, tu siguiente mensaje reprocesará TODO desde cero a precio completo. - **Comentario adicional:** Si vas a tomar un descanso largo, haz un `/compact` o `/clear` antes de dejar la computadora para no pagar el precio completo de re-procesamiento cuando vuelvas. **9. Control del "Bloat" en la Terminal (Comandos Bash)** - **Descripción:** Cuando Claude ejecuta comandos de consola (shell), la salida completa del comando entra a tu ventana de contexto. - **Pasos a seguir:** 1. Restringe los permisos de terminal de Claude en proyectos específicos si sabes que no los necesita. 2. Evita dejar que corra comandos que devuelvan listas inmensas (ej. mostrar el registro de 200 _commits_ de git). - **Comentario adicional:** Esto suele ser tokens "invisibles", ya que en la interfaz puedes ver solo una línea, pero en el fondo el modelo consumió miles de tokens leyendo la salida completa del sistema. --- ### NIVEL 4: HÁBITOS Y OPERACIONES **10. Búsqueda Externa Optimizada (Evitar Claude Web Search)** - **Descripción:** Dejar que Claude haga investigaciones abiertas en la web nativamente consume bastantes tokens. - **Pasos a seguir:** 1. Para búsquedas o investigaciones pesadas, delega la tarea a herramientas dedicadas como **Perplexity** usando un MCP o CLI. - **Comentario adicional:** Realizar una búsqueda mediante el conector de Perplexity puede ahorrar entre 10,000 y 50,000 tokens por búsqueda, además de ser 5 veces más rápido y proveer citaciones estructuradas. **11. Visibilidad y Monitoreo Permanente** - **Descripción:** No puedes optimizar lo que no mides. La mayoría de los usuarios no saben en qué se van sus tokens. - **Pasos a seguir:** 1. Usa `/context` en tu terminal para ver qué categorías (historial, archivos, MCPs) están consumiendo tokens y `/cost` para ver el gasto de la sesión. 2. Configura una "línea de estado" (Status Line) en tu terminal mediante el comando `/status line` para tener una barra visual de tu porcentaje de tokens y modelo activo en todo momento. - **Comentario adicional:** Mantén tu dashboard de uso abierto en otra pestaña para gestionar tu ritmo de consumo. **12. Organización por "Sprints" y Horas Valle** - **Descripción:** El ecosistema de Claude ajusta dinámicamente cómo se drena tu límite basado en la demanda del servidor. Las "Horas Pico" son de 8:00 AM a 2:00 PM (Hora del Este / ET) en días de semana. - **Pasos a seguir:** 1. Planifica grandes refactorizaciones, sesiones con múltiples agentes o proyectos masivos para las **horas valle** (tardes, noches y fines de semana). 2. Trata cada ventana de 5 horas como un "Sprint". Define tus tareas antes de empezar y ejecútalas agrupadas para evitar distracciones que expandan el contexto. - **Comentario adicional:** Si te acercas a un reinicio de cuota y tienes tokens disponibles, úsalos intensamente sin miedo. Si estás cerca de tu límite y aún falta mucho para el reinicio, detente a descansar en vez de quedarte a la mitad de una tarea.