07. Escalabilidad y eficiencia

Este es el capítulo que hace los cálculos.

Una afirmación central de ingeniería sobre Refery es que la plataforma produce una salida de calidad del top 1% de reclutadores mientras consume aproximadamente el 1% del cómputo que quemaría una arquitectura ingenua de "el LLM evalúa cada par". No es una afirmación de marketing. Las cifras de abajo son conservadoras, calculadas a partir del dimensionamiento real de la carga de trabajo, y las decisiones arquitectónicas que las producen se describen componente por componente.

Las mismas decisiones arquitectónicas que impulsan la eficiencia de costes también impulsan la eficiencia energética. El cómputo de IA, en particular la inferencia de modelos grandes, tiene un impacto de carbono medible. El diseño de Refery produce un consumo de energía drásticamente menor por decisión de contratación que una plataforma ingenua de reclutamiento con IA, y ese delta escala de forma lineal con el uso de la plataforma.

La línea base ingenua

Para calcular la ventaja de eficiencia de Refery primero necesitamos una línea base creíble. Considérese una plataforma de "reclutador con IA ingenuo" que hace lo más simple: para cada candidato activo y cada puesto abierto, pide a un LLM que puntúe el ajuste.

A la escala actual de Refery (cifras ilustrativas, en el orden de magnitud correcto):

1.500 candidatos activos
200 puestos abiertos
= 300.000 pares candidato × puesto

Supóngase que cada evaluación por pares usa cómputo de clase GPT-4o con ~3.000 tokens de entrada y ~2.000 tokens de salida, totalizando ~5.000 tokens por evaluación.

Métrica	Línea base ingenua	Por evaluación
Tokens totales por ciclo de emparejamiento	1,500,000,000 (1.5 mil millones)	5,000
Coste aproximado de GPT-4o por ciclo	~$5,250	~$0.0175
Energía aproximada por ciclo	~750 kWh equivalentes	~2.5 Wh
Tiempo de reloj por ciclo	~horas, incluso totalmente paralelizado	~2 segundos

Si este ciclo de emparejamiento se ejecuta incluso semanalmente, la plataforma ingenua quema ~$273,000 al año en coste de inferencia y consume la huella energética equivalente de un pequeño edificio de oficinas.

Esta es la plataforma que Refery no construye.

La arquitectura de Refery

El diseño de Refery produce aproximadamente las mismas decisiones de contratación que la línea base ingenua, pero asigna el cómputo de forma muy distinta.

graph LR
  A[1500 candidatos × 200 puestos<br/>= 300,000 pares] --> B[Filtros duros<br/>visado, salario, ubicación, lista negra<br/>microsegundos, gratis]
  B -->|~75% eliminados| C[225,000 pares eliminados]
  B -->|~25% pasan| D[~75,000 pares<br/>recuperación multivectorial<br/>similitud coseno, gratis]
  D -->|Top-30 por puesto| E[~6,000 pares candidato-puesto<br/>evaluación del motor de señales<br/>microsegundos, gratis]
  E -->|Subconjunto de alta calidad| F[~2,000 pares<br/>evaluación de panel de 5 personas<br/>~25K tokens cada uno]
  F --> G[Escrituras finales del pipeline<br/>máquina de estados + historial]

Capa 1: Filtros duros (gratis)

Alrededor del 75% de todos los pares candidato-puesto fallan al menos un filtro duro (desajuste de visado, suelo salarial, incompatibilidad de ubicación, coincidencia con lista negra). Estos se eliminan en microsegundos sin cómputo de LLM y sin llamada a API.

Tokens consumidos: cero.

Capa 2: Recuperación multivectorial (efectivamente gratis)

El 25% restante (~75.000 pares) se puntúa mediante similitud coseno de pgvector. La consulta de recuperación para un único puesto devuelve los 30 mejores candidatos ordenados por puntuación ponderada a lo largo de siete ejes de embeddings, en milisegundos de un solo dígito.

Los embeddings se precalculan y se almacenan en caché. El embedding de un candidato se recalcula únicamente cuando cambian sus señales subyacentes. Al volumen de datos actual de Refery, la tasa de aciertos de caché de embeddings supera el 98%.

El coste de la similitud coseno de pgvector es aproximadamente 10.000 veces más barato que una llamada a un LLM por comparación.

Tokens consumidos: cero (embeddings amortizados).

Capa 3: Motor de señales (gratis)

El motor de señales determinista (nivel de logo, trayectoria, modificador de pedigrí, bonus de IA, bandera non-tech, perfil de cliente de ventas) se ejecuta como código puro. Sin llamadas a API externas. Submilisegundo por candidato.

Tokens consumidos: cero.

Capa 4: Panel de cinco personas (aquí es donde va el cómputo)

El panel se ejecuta únicamente sobre los K candidatos recuperados con mejor puntuación por puesto. Con K=30 y 200 puestos, eso produce un máximo de 6.000 evaluaciones de panel. En la práctica, muchos candidatos aparecen como top-K para múltiples puestos, por lo que el número real de ejecuciones únicas de panel por ciclo se acerca más a 1.500-2.000.

Cada ejecución de panel consume aproximadamente:

5 personas × 5.000 tokens cada una = 25.000 tokens por brief de candidato
Pasada del sintetizador: ~3.000 tokens
Total: ~28.000 tokens por candidato

Métrica	Arquitectura de Refery	Por ejecución de panel
Tokens totales por ciclo de emparejamiento	~56,000,000 (56 millones)	~28,000
Coste aproximado de Claude Sonnet por ciclo	~$170	~$0.085
Energía aproximada por ciclo	~28 kWh equivalentes	~14 Wh
Tiempo de reloj por ciclo	~30 minutos (paralelizado)	~10 segundos

Las cifras

Métrica	Línea base ingenua	Refery	Reducción
Tokens por ciclo de emparejamiento	1,500,000,000	~56,000,000	~96.3% reduction
Coste por ciclo de emparejamiento	~$5,250	~$170	~96.8% reduction
Energía por ciclo de emparejamiento	~750 kWh	~28 kWh	~96.3% reduction

Aproximadamente un 96% de reducción en cómputo, coste y energía por ciclo de emparejamiento. A cadencia semanal, la diferencia es de aproximadamente $265,000 al año en coste de inferencia ahorrado y ~37,000 kWh al año en consumo de energía evitado.

Estas cifras son conservadoras. Asumen que la línea base ingenua usa la misma clase de modelo que el panel. Si la línea base ingenua usa cómputo de clase GPT-4 (que es la comparación más realista, dado que Sonnet de Anthropic es comparable a GPT-4o), el delta de Refery es aún mayor.

De dónde provienen los ahorros, descompuesto

La reducción del 96% no es un único truco. Es el efecto acumulativo de cinco decisiones arquitectónicas, cada una de las cuales contribuye al total.

1. Filtros duros antes de cualquier cómputo (~75% del trabajo eliminado)

La decisión más barata es la que no necesitas calcular en absoluto. Los filtros duros de Refery eliminan tres cuartas partes de los pares candidato-puesto antes de que ocurra cualquier embedding, puntuación o llamada a LLM. Esta única decisión es el mayor contribuyente al delta de eficiencia.

2. Recuperación vectorial en lugar de LLM por pares (~85% de reducción adicional)

De los pares que pasan los filtros duros, la recuperación multivectorial los clasifica en milisegundos y produce los top-K candidatos por puesto. Sin esta capa, el sistema necesitaría puntuar con LLM cada par restante. La recuperación vectorial convierte un problema O(N×M) en O(K×M) donde K es pequeño y constante.

3. Panel solo sobre el subconjunto clasificado por la recuperación

Como el panel se ejecuta únicamente sobre los top-K (~30 candidatos por puesto), el cómputo del panel escala de forma lineal con el número de puestos abiertos, no cuadráticamente con el conjunto de candidatos. Duplicar el conjunto de candidatos no duplica el coste del panel; el tamaño del conjunto de candidatos afecta a la recuperación, no a la evaluación del panel.

4. Caché de embeddings (~98% de tasa de aciertos)

Los embeddings se precalculan cuando cambian las señales de un candidato. No se recalculan en cada ciclo de emparejamiento. A la escala actual de Refery esto significa que el coste de embeddings es aproximadamente el 2% de lo que sería sin la caché.

5. Límites de ejecución basados en skills (coste de panel acotado)

El panel se ejecuta como una secuencia determinista de llamadas a LLM (5 personas + sintetizador = 6 llamadas), no como un bucle de agente abierto. Esto acota el coste de cada ejecución de panel a una cantidad conocida. Las arquitecturas de agente abierto, por el contrario, pueden consumir entre 10 y 100 veces más tokens por tarea porque el LLM tiene discreción sobre cuánto pensar.

Qué escala de forma lineal frente a sublineal

Comprender el comportamiento de escalado es crítico para proyectar el coste futuro.

Variable	Escalado
Número de candidatos	Sublineal: los filtros duros eliminan la mayoría; la caché de embeddings amortiza
Número de puestos	Lineal: el panel se ejecuta una vez por puesto × K candidatos
Frecuencia del ciclo de emparejamiento	Lineal: cada ciclo es una reevaluación completa
Transiciones de estado del pipeline	Lineal en transiciones, constante en tamaño del pipeline: la reconciliación idempotente lee solo lo que cambió
Campañas de contacto	Lineal en mensajes enviados: motor de voz + borrador de Gmail

El principal impulsor de coste a medida que Refery escala es el panel ejecutándose sobre el subconjunto top-K por puesto. Este es el lugar adecuado para gastar cómputo porque es donde reside la verdadera inteligencia de contratación. Los costes escalan de forma predecible con el uso de la plataforma en lugar de con el tamaño total de la base de datos de candidatos.

Huella energética e implicaciones medioambientales

Según las estimaciones de la IEA de 2024 y el modelado de seguimiento de 2025-2026, la inferencia de modelos de lenguaje grandes consume del orden de 0,5-2 Wh por cada 1.000 tokens, según la clase de modelo y la eficiencia del hardware. El punto medio conservador, ~0,5 Wh por cada 1.000 tokens, es el que se usa en los cálculos anteriores.

Aplicado a la arquitectura de Refery:

Carga de trabajo	Tokens anuales	kWh anuales	CO₂e anual (kg)
Refery (ciclos semanales)	~2.9 billion	~1,460 kWh	~580 kg CO₂e
Línea base ingenua (semanal)	~78 billion	~39,000 kWh	~15,500 kg CO₂e
Emisiones evitadas		~37,500 kWh	~14,900 kg CO₂e

La estimación de CO₂e usa una media global conservadora de 0,4 kg CO₂e por kWh. Esto está en el mismo orden de magnitud que retirar 3-4 vehículos de pasajeros de tamaño mediano de la circulación durante un año, por instancia de Refery, por año, comparado con una plataforma ingenua de reclutamiento con IA que sirva el mismo volumen.

Esta no es una afirmación marginal. A medida que la inferencia de IA crece como proporción del consumo eléctrico global, la elección arquitectónica entre "lanzar un LLM a cada problema" y "usar reglas donde las reglas bastan, embeddings donde los embeddings bastan, y LLM solo para lo genuinamente ambiguo" tiene efectos acumulativos medidos en megavatios-hora por año, por plataforma.

La arquitectura de Refery es uno de los ejemplos aplicados más limpios de este principio en la categoría de reclutamiento. Está estructuralmente alineada con las prioridades declaradas de España para la digitalización sostenible y los objetivos de emisiones de 2026 de la EU para el sector digital.

Cómo esto escala a millones

La misma arquitectura que produce el delta de eficiencia del 96% a la escala actual se extiende limpiamente a una escala drásticamente mayor.

Punto de escala	Candidatos	Puestos	Ejecuciones de panel/ciclo	Modelo de cómputo
Hoy	1,500	200	~2,000	Una instancia de Postgres
10x	15,000	2,000	~20,000	Misma arquitectura, Postgres mayor
100x	150,000	20,000	~200,000	Postgres fragmentado, pgvector distribuido
1,000x	1,500,000	200,000	~2,000,000	Multirregión, workers de embeddings con GPU

En cada punto de escala, el cuello de botella sigue siendo el panel ejecutándose sobre los top-K por puesto. Los filtros duros y la capa de recuperación absorben el crecimiento del lado de candidatos a un coste marginal casi nulo. La arquitectura no necesita rediseñarse para escalar; necesita escalarse horizontalmente a lo largo de ejes bien comprendidos (sharding de Postgres, indexación de pgvector, pool de workers de embeddings).

Por el contrario, la línea base ingenua escala catastróficamente. A escala 100x, la línea base ingenua consumiría miles de millones de dólares al año en coste de inferencia. La arquitectura ingenua no solo es cara a pequeña escala; es estructuralmente incapaz de alcanzar una gran escala.

Por qué esto es novedoso

Arquitectura de gradiente de coste. La mayoría de las plataformas de IA pasan sus decisiones más baratas y más caras por la misma ruta de cómputo. La arquitectura de Refery se construye en torno al gradiente de coste: primero lo gratis, lo caro al final.
Amortización de embeddings vía caché + detección de cambios. La mayoría de las plataformas recalculan los embeddings en cada consulta. Refery recalcula solo cuando cambian las señales subyacentes.
Ejecución acotada basada en skills. Comparada con los bucles de agente abiertos, la ejecución determinista basada en skills proporciona un coste por tarea predecible y auditable.
Arquitectura de base de datos única. Sin base de datos vectorial separada, sin almacén de analítica separado, sin sistema de registro separado. Cada uno de ellos sería un multiplicador del coste operativo; Refery los evita todos.
IA energéticamente eficiente por diseño. La reducción del 96% en coste de inferencia se traduce directamente en un consumo de energía un 96% menor por decisión de contratación. Pocas plataformas de IA aplicada pueden hacer esta afirmación de forma creíble.

La arquitectura es lo que permite a Refery cobrar comisiones de colocación del 20% con un traspaso del 70% a scouts y socios reclutadores. El propio margen de la plataforma funciona porque su estructura de costes es drásticamente más baja que la de las alternativas. Esta es una ventaja de coste estructural, no temporal.