Acedly AI vs Modelos Base (GPT, Claude, Gemini): Por Qué una IA de Entrevista Especializada Vence a un LLM Genérico
Por qué un copilot de entrevista en tiempo real vence a un modelo base genérico — latencia, captura de audio a nivel de SO, exclusión de compartición de pantalla, anclaje de currículum, enrutamiento multi-modelo, y prompting específico de entrevista que un chat genérico no reproduce.
Devon Park
Head of Research, Acedly
El caso honesto para usar un modelo base sin procesar
La mayoría de los candidatos que consideran esta pregunta ya están pagando $20 al mes por un asistente de chat de última generación en el que confían en todas las demás tareas de sus vidas. El caso para no agregar una segunda suscripción es real y vale la pena afirmar claramente.
Los modelos base — GPT-5, Claude 4.7, Gemini 2.5, los lanzamientos de última generación de DeepSeek y Qwen — son más inteligentes en la pregunta mediana que cualquier envoltorio que se encuentre encima de ellos. Escriben mejor código que hace un año, razonan sobre el diseño del sistema con menos brechas obvias, y tienen ventanas de contexto más grandes que las que tenían hace un año. Por su sustancia, son las herramientas más fuertes de la sala.
Una ventana de chat sin procesar también tiene cero costo de coordinación. Ya conoces el atajo de teclado para abrirla, ya confías en cómo formula las cosas, y ya conoces sus modos de fallo. Agregar un nuevo producto a tu área de superficie del día de la entrevista es fricción; la pregunta es si la fricción vale la pena.
Para algunas rondas — y las nombraremos al final de esta página — la respuesta honesta es no. La ventana de chat es suficiente.
Dónde un modelo base sin procesar falla en una entrevista en vivo
En las rondas donde la respuesta es sí, los modos de fallo son mecánicos, no filosóficos. Los modelos base pierden ante una IA entrevistadora especializada en cinco restricciones específicas que son difíciles de solucionar desde fuera de la interfaz de chat.
1. Latencia de extremo a extremo desde la pregunta al primer token
Las entrevistas ocurren a la velocidad de la conversación humana. La pausa natural entre que el entrevistador termina su pregunta y el candidato comienza a responder es de aproximadamente 250 milisegundos. Pasado ese punto, el silencio se vuelve audible y el candidato se queda claramente atrás.
Un flujo de trabajo de chat con modelo base sin procesar se ve así en estado estacionario:
- El entrevistador termina la pregunta. (t = 0ms)
- El candidato usa Cmd-Tab para ir a la ventana del chat. (~400ms incluyendo reacción humana)
- El candidato escribe o pega la pregunta. La escritura es el camino lento; incluso los mecanógrafos rápidos tardan ~3 segundos en escribir una pregunta de 15 palabras. (t = 3,500ms)
- El modelo reflexiona. El tiempo del modelo frontera al primer token en un indicador corto es de ~600–1.200ms dependiendo del día. (t = 4,500ms)
- El candidato lee la primera oración de la respuesta, la parafrasea y comienza a hablar. (t = 6,500ms)
El presupuesto total de 6,5 segundos es aproximadamente 25× el umbral conversacional. El entrevistador ya se ha dado cuenta hace mucho.
El camino de Acedly colapsa esto a un solo viaje de ida y vuelta:
- El entrevistador termina la pregunta. (t = 0ms)
- La transcripción de audio ocurre en tiempo real durante la pregunta; la detección de fin de enunciado activa el modelo en el momento de la pausa natural de la pregunta. (t = +30ms de sobrecarga de voz a texto)
- El modelo devuelve el primer token de respuesta. La mediana de extremo a extremo en Acedly es ~98ms; el percentil 95 es inferior a 200ms. (t = ~130ms)
- El candidato lee la primera línea y comienza a hablar. (t = ~600ms total)
La diferencia no es un porcentaje. Es un orden de magnitud.
2. Visibilidad de compartición de pantalla
Esta es la restricción que es más difícil de solucionar desde una ventana de chat. Cada interfaz de usuario de modelo base importante se distribuye como una ventana de aplicación normal — visible en el dock de macOS, visible en la barra de tareas de Windows, visible en Alt-Tab y Cmd-Tab, y crucialmente, visible cuando el candidato comparte su pantalla.
En las rondas técnicas donde el reclutador pide al candidato que comparta toda su pantalla — común en Meta, Google y la mayoría de paneles de codificación — tener una ventana de chat con modelo base abierta es lo mismo que tener la respuesta escrita en una nota adhesiva pegada al monitor del candidato. El reclutador lo ve en el momento en que comienza la compartición.
Existen soluciones alternativas (ejecutar el chat en un dispositivo separado, compartir solo una ventana, ocultar la ventana de chat detrás del IDE), pero cada una agrega un costo de coordinación y cada una tiene un modo de fallo donde el chat aparece accidentalmente — una notificación, un error en Alt-Tab, el cursor desviándose hacia el monitor incorrecto.
La superposición de Acedly está excluida de las API de captura de ventanas a nivel del sistema operativo: NSWindowSharingNone en macOS, SetWindowDisplayAffinity(WDA_EXCLUDEFROMCAPTURE) en Windows. La superposición no está en el dock, no está en la barra de tareas, no está en Alt-Tab, no está en Activity Monitor bajo una marca reconocible, y no está en ningún búfer de marco de captura de ventanas que el cliente de reunión pudiera enviar. Es estructuralmente invisible, no solo visualmente pequeño.
3. Captura de audio y detección de turno
El entrevistador hace la pregunta. En un flujo de trabajo con modelo base sin procesar, el candidato tiene que escribir la pregunta en el chat para obtener una respuesta. La conversión de voz a texto dentro de la interfaz de usuario del chat existe para algunos proveedores pero es de un solo hablante — captura el micrófono del candidato, no el audio del entrevistador a través del cliente de reunión.
Acedly se suscribe a audio del sistema a nivel del sistema operativo, captura el audio de bucle cerrado que incluye la voz del entrevistador a través del cliente de reunión, y ejecuta conversión de voz a texto en streaming con detección de fin de enunciado para que el modelo se active en el momento en que la pregunta se completa realmente. El candidato no escribe nada.
El efecto posterior es significativo: las manos del candidato están libres durante la pregunta, por lo que puede tomar notas, desplazarse por su propio currículum en un segundo monitor, o simplemente mantener contacto visual con el entrevistador. La propiedad de manos libres es lo que hace que el flujo de trabajo no parezca un candidato utilizando una herramienta.
4. Anclaje en tu propio currículum, JD y base de conocimiento
Un chat con modelo base que no ha sido preparado produce respuestas genéricas a preguntas de comportamiento. «Cuéntame sobre un momento en que lideraste un proyecto difícil» devuelve una historia STAR suave y vacía de contenido que no menciona ninguna tecnología específica, ningún equipo real, ningún número actual. La pregunta de seguimiento — que todo entrevistador creíble hace — expone la genericidad inmediatamente.
Puedes preparar un chat pegando tu currículum y el JD en la conversación antes de que comience la entrevista. Esto funciona, pero cada nueva conversación requiere una re-preparación, y la mayoría de candidatos subestiman cuánta desviación de contexto acumula el modelo durante una ronda de 45 minutos. Para la pregunta seis, el chat ha olvidado a qué empresa aplicaste.
El anclaje de Acedly es persistente y estructural. Tu currículum, el JD y cualesquiera documentos de base de conocimiento que hayas cargado forman parte del contexto del sistema para cada llamada del modelo, actualizado en cada turno. Cuando el reclutador hace una pregunta de comportamiento, el copilot presenta tu proyecto específico de tu currículum, en tu voz. El anclaje es lo que hace que la respuesta sea defendible en el seguimiento.
5. Enrutamiento multimodelo
Una ronda de codificación quiere un modelo que sea bueno en razonamiento bajo restricciones estrictas a baja latencia. Una ronda de comportamiento quiere un modelo que sea bueno en estructura y brevedad. Una ronda de diseño de sistema quiere un modelo que mantenga una ventana de contexto larga y produce un árbol de compensaciones. Una entrevista de caso quiere un modelo que sea bueno en razonamiento estructurado bajo ambigüedad.
Ningún único chat de modelo base lo hace todo bien. Limitarse a uno — incluso el más fuerte — significa aceptar que algunas rondas obtienen el modelo incorrecto. La brecha de rendimiento entre el modelo correcto e incorrecto en una ronda específica puede ser mayor que la brecha entre los modelos frontera más fuerte y más débil en la tarea promedio.
Acedly enruta entre GPT, Claude, Gemini, DeepSeek y Qwen según el tipo de pregunta detectado en la transcripción. No eliges el modelo; el sistema elige por turno. El efecto visible para el usuario es que el modelo nunca se siente desajustado para la ronda.
Lado a lado en las restricciones que realmente importan
| Feature | Acedly | Chat con modelo base sin procesar |
|---|---|---|
| Latencia mediana de extremo a extremo | ~98ms | ~6.500ms (ruta de escribir la pregunta) |
| Oculto al compartir pantalla | Sí — exclusión de captura a nivel de SO | No — ventana normal, visible al compartir |
| Manos libres durante la pregunta | Sí — captura de audio a nivel de SO | No — escribe o pega en el prompt |
| Anclado en currículum y descripción del puesto por defecto | Sí, persistente en todos los turnos | Solo si reinicializa cada conversación |
| Enrutamiento multi-modelo | Automático, por tipo de pregunta | Modelo único, cambio manual |
| Lectura de pantalla de sandbox de codificación | Lee Coderpad / HackerRank / LeetCode | Copiar y pegar manual del editor |
| Estructura de precios | Plan de tarifa única, $69 / mes o de una sola vez | Pila de suscripciones por proveedor |
| Tiempo de configuración antes de una ronda | Abre y comienza | Recopiar currículum y descripción del puesto, reiniciar contexto |
La columna de latencia es la más importante y la menos informada en el discurso. Un chat de modelo base puede producir una respuesta más fuerte que una envoltura si le das suficiente tiempo; el flujo de trabajo simplemente no te da suficiente tiempo dentro de una entrevista en vivo.
Cuándo un chat con modelo base sin procesar es realmente la mejor opción
Hay tres casos en los que recomendamos omitir la herramienta especializada y usar una ventana de chat directamente.
Preparación previa a la entrevista, no la ronda en sí. Antes de la entrevista, cuando estás ensayando una historia conductual o pensando en un enfoque de diseño de sistema, el impuesto de latencia no existe y la restricción de compartir pantalla no se aplica. Un chat de modelo frontera es genuinamente la herramienta más fuerte para este trabajo — su razonamiento puro es más agudo cuando tienes tiempo para iterar.
Evaluación asincrónica (HireVue y similares). Estas son rondas de video asincrónicas grabadas donde tienes tiempo de preparación antes de cada prompt. Un copilot en tiempo real no agrega valor en este formato; el ensayo con un chat de modelo frontera sí. Consulta nuestro pilar de entrevista de IA para la guía completa de preparación asincrónica.
Asignaciones para llevar a casa de forma extendida. Un take-home es una pieza de trabajo de varias horas donde el razonamiento puro del modelo importa más que la latencia por turno. Siéntate con una ventana de chat, trabaja en el problema deliberadamente, entrega tu propia implementación. El mismo chat también es útil después como una pasada de revisión de código en tu envío.
Para la ronda en vivo, en tiempo real, con un reclutador real al otro lado, la herramienta especializada está en una categoría diferente. Para todo lo demás, la ventana de chat que ya pagas está bien.