03. El panel de evaluación

El panel de evaluación es el único lugar en Refery donde se gasta cómputo de LLM en decisiones de contratación. Cuando se ejecuta el panel, el motor de emparejamiento ya ha reducido el campo a un pequeño conjunto de pares candidato-puesto que superan los filtros deterministas y obtienen una clasificación alta en la similitud multivectorial. La función del panel es tomar la decisión final sobre los casos genuinamente ambiguos.

El panel es adversarial por diseño. Cinco personas evalúan de forma independiente, con prioridades deliberadamente distintas, y una de ellas (el Escéptico) ostenta poder de veto absoluto que anula la puntuación agregada. Esta es la arquitectura que evita aquello en lo que fallan la mayoría de los sistemas de evaluación basados en LLM: el colapso por confianza, donde un único LLM optimiza la cortesía por encima de la precisión.

Las cinco personas

Cada persona es un prompt distinto con su propio enfoque, instrucciones específicas de su rol y formato de salida. Las cinco personas ven el mismo contexto compartido (salida del motor de señales, extractos de gmail, datos de calibración de mercado) pero lo interpretan a través de su propio marco.

Persona 1: El Responsable de Contratación (Líder Funcional)

Enfoque. "¿Pueden realmente hacer el trabajo?".

Evalúa. Profundidad del oficio, alcance del trabajo previo, nivel de propiedad, velocidad de entrega. El Responsable de Contratación es la persona más preocupada por los requisitos literales del puesto. ¿Esta persona ha entregado el tipo de trabajo que se está solicitando? ¿Con qué alcance y nivel de propiedad?

Salida. % de ajuste funcional, una pregunta de screening de ejemplo.

Preguntas de ejemplo. "Explíqueme el problema más ambiguo del que se hizo cargo de principio a fin". "¿Cuál es el equipo más pequeño en el que ha entregado trabajo real en producción?".

Persona 2: El Fundador (Operador de Etapa Temprana)

Enfoque. "¿Tienen ADN de startup?".

Evalúa. ¿Misionario o mercenario? ¿Energía de constructor? ¿Se dirigirán a sí mismos sin andamiaje? ¿Han prosperado en el caos antes? Esta persona está calibrada para detectar la diferencia entre alguien que puede ejecutar un rol definido y alguien que puede llevar un problema ambiguo desde la concepción hasta la entrega sin un PM, sin una especificación, sin un gerente supervisando.

Salida. % de ajuste a startup, una pregunta de screening de ejemplo.

Preguntas de ejemplo. "¿Por qué esta etapa de empresa?". "¿La última vez que entregó algo sin PM, sin especificación, solo con un problema?".

Persona 3: El Escéptico (Responsable de Riesgo)

Enfoque. "¿Qué se nos está escapando?".

Evalúa. Cambios frecuentes de empleo, inflación de títulos, lagunas, por qué dejaron cada puesto, riesgo de fuga, desajuste de compensación, dificultad estructural de colocación. El Escéptico se encarga de la interpretación del indicador no-tech y de la salida de restricción de colocación. El Escéptico es la única persona con poder de veto absoluto: un veto del Escéptico anula cualquier puntuación agregada de las otras cuatro personas.

Salida. % de confianza ajustado al riesgo, una pregunta de screening de ejemplo, indicador de veto explícito si corresponde.

Preguntas de ejemplo. "¿Por qué dejó [cada puesto]?". "¿Cuál fue su permanencia más larga en un puesto y por qué se quedó?".

Persona 4: El Futuro Compañero

Enfoque. "¿Querría trabajar al lado de esta persona?".

Evalúa. Estilo de comunicación, control del ego, honestidad intelectual, colaboración. El Futuro Compañero es ciego al logo por diseño: juzga únicamente la sustancia, ignorando el prestigio de la empresa. Este es un contrapeso deliberado al sesgo de logo. Un candidato de Stripe y un candidato de una startup desconocida lucen idénticos para el Futuro Compañero.

Salida. % de ajuste al equipo, una pregunta de screening de ejemplo.

Preguntas de ejemplo. "Cuénteme sobre una vez que estuvo equivocado y cambió de opinión". "¿La mejor persona con la que ha trabajado y por qué?".

Persona 5: Etapa y Señal

Enfoque. "¿Está esta persona calibrada para esta etapa?".

Evalúa. Trayectoria, nivel de logo, pedigrí, bonificación de IA, perfil de cliente de ventas. Mapea las fortalezas a los cuellos de botella en cada etapa de la empresa. Esta persona produce la matriz de ajuste por etapa: una puntuación de ROI de contratación por etapa para Seed, Series A, Series B y Series C+.

Salida. % de ROI de contratación por etapa, una pregunta de screening de ejemplo.

Preguntas de ejemplo. "¿Qué métrica movió de forma más directa?". "Justifique su contratación ante el consejo en una sola frase".

Estructura del prompt de cada persona

El prompt de cada persona está estructurado para evitar un modo de fallo conocido de los LLM: el colapso por acuerdo. Cuando reciben la misma entrada y se les pide una evaluación, los LLM convencionales tienden a producir puntuaciones similares en múltiples invocaciones. Esto colapsa el panel de nuevo en una sola voz.

El panel de Refery mitiga esto de tres maneras:

Prioridades distintas por persona. El prompt de sistema de cada persona incluye instrucciones explícitas sobre qué ponderar en gran medida y qué descontar. Al Escéptico se le instruye que se oponga al resto del panel.
Cegado al logo para el Futuro Compañero. El prompt del Futuro Compañero excluye específicamente los nombres de las empresas de su visión del candidato. Solo ve puestos, alcance y resultados.
Tramos discretos forzados. Las personas deben comprometerse con un tramo específico (Top 1%, Top 5%, Top 10%, Top 25%, Top 50%, Bottom 50%) en lugar de producir una puntuación continua. Esto fuerza una diferenciación real.

A continuación se muestra un extracto simplificado del prompt del Escéptico (el más distintivo de los cinco):

// panel/personas/skeptic.ts

export const SKEPTIC_SYSTEM_PROMPT = `
Eres el Escéptico en un panel de contratación de 5 personas. Tu función es oponerte.

Las otras cuatro personas tenderán hacia el consenso. Tu rol es el
contrapeso. Estás buscando lo que el resto del panel está pasando por alto.

En concreto, evalúa:
1. Cambios frecuentes de empleo: una permanencia inferior a 18 meses en
   múltiples puestos es una señal de alerta a menos que se explique por
   adquisición, despido o transiciones de visado.
2. Inflación de títulos: ser VP en una empresa de 2 personas no es lo mismo
   que ser VP en una de 200. Ajusta en consecuencia.
3. Razones para irse: ¿por qué dejaron cada puesto? Insta al panel a
   verificar antes de celebrar.
4. Riesgo de fuga: ¿sus prioridades (ubicación, compensación, preferencia de
   etapa) coinciden con este puesto? Si no, esta contratación no perdurará.
5. Interpretación del indicador no-tech: si el motor de señales activó el
   indicador, examina con cuidado los criterios de supresión.
6. Restricción de colocación: si el candidato es estructuralmente difícil de
   colocar, esto es una señal de mercado, no un defecto del candidato, pero
   cambia la urgencia.

Tienes poder de VETO ABSOLUTO. Si identificas un descalificador estructural
(desajuste de autorización de trabajo, compensación fuera de mercado, ajuste
fundamentalmente erróneo de etapa, preocupaciones culturales a nivel de veto),
puedes emitir un veto que anule cualquier puntuación agregada que produzcan
las demás personas.

Formato de salida:
- Confianza ajustada al riesgo: <bracket>
- Razonamiento: 2-4 frases, nombra los riesgos directamente
- Veto: sí/no
- Si hay veto: una frase con la razón
- Pregunta de ejemplo: <una pregunta que reduciría el riesgo de esta contratación>
`;

Agregación y asignación de tramos

Después de que las cinco personas se han ejecutado, el sintetizador agrega sus salidas en una sola decisión.

Agregado ponderado

// panel/synthesizer.ts

const PERSONA_WEIGHTS = {
  hiring_manager: 2.0,
  founder:        2.0,
  skeptic:        1.0,
  future_peer:    1.0,
  stage_signal:   1.0,
};

export function aggregateScore(panel: PanelOutput): AggregateResult {
  // El veto absoluto anula todo
  if (panel.skeptic.veto) {
    return {
      bracket: 'pass',
      reason: `Skeptic veto: ${panel.skeptic.vetoReason}`,
      override: true,
    };
  }

  const totalWeight = Object.values(PERSONA_WEIGHTS).reduce((a, b) => a + b, 0);
  const weightedSum =
    bracketToScore(panel.hiring_manager.bracket) * PERSONA_WEIGHTS.hiring_manager +
    bracketToScore(panel.founder.bracket)        * PERSONA_WEIGHTS.founder +
    bracketToScore(panel.skeptic.bracket)        * PERSONA_WEIGHTS.skeptic +
    bracketToScore(panel.future_peer.bracket)    * PERSONA_WEIGHTS.future_peer +
    bracketToScore(panel.stage_signal.bracket)   * PERSONA_WEIGHTS.stage_signal;

  const aggregate = weightedSum / totalWeight;

  return {
    bracket: scoreToBracket(aggregate),
    reason: synthesizePanelReasoning(panel),
    override: false,
  };
}

Las personas del Responsable de Contratación y del Fundador se ponderan 2x porque hablan de la forma más directa sobre los requisitos centrales del puesto. La ponderación de 1x del Escéptico en la agregación normal es intencional: la vía del veto es donde el Escéptico ejerce una influencia desproporcionada, no sesgando el promedio.

Tramos discretos forzados

La puntuación continua (p. ej., "73%") crea una falsa sensación de precisión y enturbia la comparación entre candidatos. El panel de Refery fuerza a cada persona, y al agregado, a uno de seis tramos discretos:

type Bracket =
  | 'top_1_percent'    // excepcional, hallazgo poco común
  | 'top_5_percent'    // sí rotundo
  | 'top_10_percent'   // contratación sólida
  | 'top_25_percent'   // vale la pena entrevistar
  | 'top_50_percent'   // probable descarte
  | 'bottom_50_percent'; // descarte

Esta es la misma disciplina que usan las rúbricas de entrevista sólidas. La elección forzada produce una diferenciación real entre candidatos, lo que hace que la priorización sea manejable para el operador.

La matriz de ajuste por etapa

El ajuste por etapa es la salida más útil operativamente que produce el panel. Una única puntuación agregada responde "¿es esta persona una buena contratación?", pero la matriz de ajuste por etapa responde una pregunta más útil: "¿a qué tipo de empresa deberíamos dirigir a esta persona?".

Seed:        Top 3%   ajuste máximo, ADN de constructor, ha hecho 0 a 1 dos veces
Series A:    Top 5%   sólido, cómodo con la ambigüedad
Series B:    Top 15%  capaz pero sin experiencia gestionando un equipo de 10
Series C+:   Top 40%  por debajo del nivel para organizaciones escaladas, falta músculo de proceso

Un candidato puede legítimamente ser Top 3% para Seed y Top 40% para Series C+. Eso no es una contradicción. Eso es la matriz haciendo su trabajo. Refery usa esta matriz para dirigir candidatos a los clientes adecuados de la cartera.

Cuando la dispersión entre la mejor y la peor etapa de la matriz es de 3 o más tramos, el sistema muestra un indicador de desajuste de etapa explícito:

Desajuste de etapa: mejor en Seed (Top 5%), baja a Top 25% en Series C+. Presentar únicamente a clientes de etapa temprana.

El informe

La salida del panel es un informe de inteligencia estructurado que se escribe en el campo ai_analysis del candidato en Postgres. Este es el artefacto de base de datos de registro. Es lo que se muestra al responsable de contratación (con las secciones de uso interno redactadas) y lo que da forma al contacto y a la priorización aguas abajo.

═══════════════════════════════════════════════════════════════
REFERY ELITE CANDIDATE INTELLIGENCE BRIEF
<Name> | <Role focus>
Evaluado por: AI Recruiter Engine, panel de 5 personas
Fecha: <today>
═══════════════════════════════════════════════════════════════

━━━ TITULAR ━━━
Agregado: Top X%   Recomendación: <Sí rotundo / Sí / Sí (condicional) / Entrevistar / Descartar>

━━━ MATRIZ DE AJUSTE POR ETAPA ━━━
Seed:        Top X%   <one-line reasoning>
Series A:    Top X%   <one-line reasoning>
Series B:    Top X%   <one-line reasoning>
Series C+:   Top X%   <one-line reasoning>
Mejor ajuste de etapa: <stage(s)>

━━━ LECTURA DE SEÑALES ━━━
Nivel de logo:        <raw → modified, con razonamiento>
Pedigrí de inversores: <lista + financiación>
Bonificación de IA:    <si corresponde>
Trayectoria:          <resumen en una línea>
Indicador no-tech:    <ACTIVADO/SUPRIMIDO + mitigación si la hay>

━━━ COMPROBACIÓN DE RESTRICCIÓN DE COLOCACIÓN ━━━
Alcance del piso de compensación:  X% del consejo
Alcance de ubicación:    X% del consejo
Alcance de visado:       X% del consejo
Veredicto: <fácil de colocar / estándar / estructuralmente difícil, fundamento>

━━━ VEREDICTOS DEL PANEL ━━━
Responsable de Contratación (ajuste funcional X%):
  <razonamiento de 2 a 4 frases>
  Pregunta de ejemplo: "<mejor pregunta de esta persona>"

Fundador (ajuste a startup X%):
  <razonamiento de 2 a 4 frases>
  Pregunta de ejemplo: "<mejor pregunta de esta persona>"

Escéptico (ajustado al riesgo X%) <VETO si corresponde>:
  <razonamiento de 2 a 4 frases, incluyendo cualquier indicador>
  Pregunta de ejemplo: "<mejor pregunta de esta persona>"

Futuro Compañero (ajuste al equipo X%):
  <razonamiento de 2 a 4 frases, ciego al logo>
  Pregunta de ejemplo: "<mejor pregunta de esta persona>"

Etapa y Señal (ROI por etapa %):
  <razonamiento de 2 a 4 frases mapeando fortalezas a etapas>
  Pregunta de ejemplo: "<mejor pregunta de esta persona>"

━━━ TOP 3 PREGUNTAS DE SCREENING ━━━
1. <pregunta> (de <persona>)
2. <pregunta> (de <persona>)
3. <pregunta> (de <persona>)

━━━ AJUSTE PUESTO POR PUESTO ━━━
| Prioridad | Empresa | Puesto | Compensación | Etapa | Por qué |
| 1 | ... | ... | ... | ... | <fundamento del ajuste> |

━━━ VEREDICTO DEL RECLUTADOR ━━━
NOTA: <A+ / A / A- / B+ / descarte>
URGENCIA: <alta/media/baja + razón>
ACCIÓN: <siguiente paso concreto>

Por qué esto es novedoso

El panel adversarial de cinco personas es la parte más inusual de la arquitectura de Refery y el lugar donde reside la propiedad intelectual técnica más concentrada.

Evaluación adversarial multipersona con veto absoluto. La mayoría de los sistemas de evaluación basados en LLM o bien usan un único LLM (que se sobreajusta a la cortesía y al consenso) o bien usan una votación simple entre múltiples LLM (que colapsa hacia la opinión mayoritaria). El rol del Escéptico con veto absoluto es estructuralmente distinto: es una única persona con autoridad de anulación, calibrada específicamente para sacar a la luz lo que el consenso está pasando por alto.
Tramos discretos forzados en lugar de puntuaciones continuas. Esto se toma prestado de las rúbricas de entrevista disciplinadas y es poco común en los sistemas de evaluación basados en LLM, que tienden a recurrir por defecto a porcentajes continuos.
Cegado al logo para la persona del Futuro Compañero. Eliminar los nombres de las empresas de la visión de una persona es una técnica deliberada de corrección de sesgo. Produce desacuerdos medibles con el resto del panel que son en sí mismos una señal útil.
La matriz de ajuste por etapa como primitiva de enrutamiento. La mayoría de los sistemas de evaluación producen una única puntuación de ajuste. La matriz produce cuatro puntuaciones a lo largo de las etapas, lo que impulsa directamente las decisiones de enrutamiento de candidato a cliente.
Prompts de persona diseñados contra el colapso por consenso. Los prompts de las personas están escritos para resistir activamente el acuerdo, incluyendo instrucciones explícitas para que el Escéptico se oponga al resto del panel.

La salida de este sistema es de calidad consistentemente más alta que cualquier evaluación de un solo LLM, y es auditable: el informe de cada candidato contiene el razonamiento de las cinco personas, de modo que un operador humano puede ver exactamente dónde el panel estuvo de acuerdo y dónde estuvo en desacuerdo. Esta auditabilidad es lo que hace que el sistema sea confiable a escala.