Asistente de Entrevista AI: Cómo Funcionan los Copilots en Vivo (2026)
Cómo funciona un asistente AI durante entrevistas en vivo, qué evaluar en latencia y discreción, y cómo se comparan los copilots de hoy — escrito por el equipo de Acedly AI.
Devon Park
Head of Research, Acedly
¿Qué es un asistente de entrevista con IA?
Un asistente de entrevista con IA — también llamado copiloto de entrevista en tiempo real — es un producto de escritorio o extensión de navegador diseñado para ayudar a un candidato durante una entrevista humana en vivo. No es lo mismo que un screening conducido por IA (video asincrónico estilo HireVue que un LLM califica), ni tampoco es una plataforma de entrevista simulada. La característica definitoria es que hay un reclutador real al otro lado de una llamada de Zoom o Teams, y el asistente se ejecuta silenciosamente en tu lado.
En la práctica un asistente de entrevista con IA tiene tres trabajos:
- Escuchar — captura el audio del entrevistador, transcribelo con precisión, y detecta cuándo realmente se ha hecho una pregunta en lugar de estar pensando.
- Pensar — introduce la pregunta, más tu currículum y la descripción del puesto, en un modelo de lenguaje y produce una respuesta que suene como tú, no como un chatbot genérico.
- Mostrar — representa esa respuesta en una superficie que el entrevistador no puede ver durante el uso compartido de pantalla, lo suficientemente rápido para que puedas leerla, interiorizarla, y responder con tus propias palabras antes de que el silencio se vuelva incómodo.
La razón por la que esta categoría existe es que las entrevistas se mudaron en línea y nunca regresaron. Cuando el reclutador está en la sala, no puedes abrir tu laptop. Cuando está en una llamada de vídeo, tu segunda pantalla es invisible para él. La asimetría es lo que hace que un copiloto en tiempo real sea útil — y lo que lo hace éticamente cargado.
Cómo funciona un asistente de entrevista con IA durante una llamada en vivo
El flujo de trabajo detrás de un copiloto de entrevista en tiempo real parece directo pero cada eslabón en la cadena tiene un presupuesto de latencia que debe ser defendido. Una herramienta útil devuelve un borrador en aproximadamente el tiempo que tarda un humano en tomar un sorbo de agua — alrededor de 200 milisegundos. Cualquier cosa más lenta y te quedas rezagado del ritmo natural de la conversación.
Captura de audio y detección de turnos
El asistente se suscribe al bucle de audio del sistema (para que escuche al entrevistador a través de la llamada, no solo tu micrófono) y alimenta fragmentos en un motor de voz a texto en streaming. El streaming es importante: no puedes esperar a que el entrevistador termine antes de transcribir, porque la transcripción en sí toma tiempo. Los productos decentes usan proveedores como Deepgram, AssemblyAI, o Whisper Turbo con detección de fin de enunciado para que el modelo se dispare en el momento en que se complete la pregunta.
Inferencia fundamentada
La transcripción se convierte en un prompt que no se envía a un endpoint de chat vainilla. Se concatena con tu currículum, la descripción del puesto, cualquier investigación de empresa que hayas subido, y un prompt del sistema que obliga al modelo a responder en primera persona, en tu estilo, dentro del presupuesto de tiempo de una respuesta hablada. Sin fundamentación, el asistente produce respuestas que suenen fluidas pero genéricas que se desmoronan en la primera pregunta de seguimiento. La fundamentación es el determinante más importante de la calidad percibida.
Enrutamiento multi-modelo
Diferentes rondas recompensan diferentes modelos. Una pregunta de comportamiento quiere un modelo que sea bueno en estructura y brevedad. Una pregunta de codificación quiere un modelo que sea bueno en razonamiento bajo restricciones. Una ronda de diseño de sistemas quiere un modelo que pueda mantener una ventana de contexto grande y producir un árbol de compensaciones. Los mejores asistentes enrutan entre GPT, Claude, Gemini, y DeepSeek basándose en el tipo de pregunta en lugar de bloquearte en un proveedor.
Renderizado sigiloso
La salida se dibuja en una superficie que está excluida de las APIs de uso compartido de pantalla. En macOS esto significa establecer NSWindowSharingNone y respetar la bandera kCGWindowSharingNone; en Windows significa SetWindowDisplayAffinity(WDA_EXCLUDEFROMCAPTURE). Todo lo demás fluye de ahí: oculto del dock, la barra de tareas, Alt-Tab, la lista de cursores, y (para los cuidadosos) el inspector de procesos en ejecución. Si el asistente es visible en cualquiera de esas superficies, está a solo un paso de cometer un error al compartir pantalla.
Qué separa a un buen asistente de entrevista de IA de uno malo
La mayoría de productos en esta categoría funcionan bien en un entorno controlado. La diferencia se ve bajo presión: un micrófono ruidoso, un entrevistador que habla rápido, una pregunta fuera del guión ensayado. Esta es la comparación que usamos internamente cuando evaluamos a un competidor.
| Feature | Acedly | Chat genérico de IA | Herramientas de entrevista asincrónica | Copilotos de pestaña de navegador |
|---|---|---|---|---|
| Latencia mediana de extremo a extremo | ~98 ms | ~2–4 segundos | Minutos (después de la llamada) | ~500–900 ms |
| Oculto al compartir pantalla | Sí (exclusión de captura a nivel del SO) | No (solo otra ventana) | N/A | Parcial (solo pestaña del navegador) |
| Fundamentado en tu CV y la descripción del puesto | Sí, por defecto | Solo si los pegas | A veces | A veces |
| Lectura de pantalla de plataforma de codificación | LeetCode, Coderpad, HackerRank, etc. | Solo pegado manual | N/A | Limitado |
| Enrutamiento de múltiples modelos | GPT, Claude, Gemini, DeepSeek | Único proveedor | Único proveedor | Generalmente único |
| Idiomas hablados | 30+ a través de niveles de Deepgram | Variable | Generalmente solo inglés | Limitado |
| Modelo de precios | Mensual fijo | Por token | Por grabación | Suscripción, a menudo medida |
La columna de latencia es la más importante y la más deshonesta en los textos de marketing. Muchos competidores citan la latencia del modelo — el tiempo entre enviar un mensaje y recibir el primer token — e ignoran el viaje completo desde el micrófono, pasando por conversión de voz a texto, hasta el modelo y su visualización. El extremo a extremo es lo que importa. Un viaje de ida y vuelta de 350 milisegundos significa que comienzas a leer después de que el reclutador ya se ha movido.
Las 8 plataformas que un asistente de entrevista de IA debe soportar
Un copiloto en tiempo real solo es útil donde las entrevistas realmente suceden. Los reclutadores en 2026 están dispersos en herramientas de video y espacios de codificación, y el asistente tiene que poder leer ambos. Acedly verifica en ocho superficies que cubren aproximadamente el 95% de las entrevistas profesionales:
- Zoom — la plataforma de entrevista occidental dominante, con el uso compartido de pantalla como estándar para rondas técnicas.
- Microsoft Teams — lo predeterminado para la mayoría de rondas de entrevistas en grandes empresas, especialmente en finanzas y consultoría.
- Google Meet — común para entrevistas de producto, diseño e startups.
- Webex — aún estándar en sanidad, gobierno y grandes empresas antiguas.
- Lark / Feishu — lo predeterminado para ByteDance y una proporción creciente de empresas transfronterizas que contratan desde Asia.
- Amazon Chime — utilizado dentro de Amazon y en partes de los ecosistemas de socios de AWS.
- Coderpad.io — el sandbox de codificación en vivo más común; el asistente tiene que leer el editor en el lado del candidato, no solo la llamada.
- HackerRank — la plataforma de entrevista en vivo que se empareja con su producto para hacer en casa, ampliamente utilizada para roles de ingeniería senior.
Más allá de la lista de plataformas, la pregunta práctica es si el asistente puede leer lo que está en la pantalla — el enunciado del problema en Coderpad, la lista de viñetas en una diapositiva de diseño de sistemas — y usarlo como parte del contexto de fundamentación. Un copiloto que solo escucha audio deja la mitad de la señal sobre la mesa durante rondas técnicas.
30+ idiomas hablados y 12+ lenguajes de programación
Si solo entrevistas en español, esta sección apenas importa. Si entrevistas en mandarín o japonés, o si alguna vez un reclutador cambió al inglés en medio de una llamada para probar tu rango, es la sección más importante.
La cobertura de lenguaje hablado de un asistente de entrevista de IA se reduce a sus proveedores subyacentes de conversión de voz a texto. Acedly enruta a través de Deepgram, AssemblyAI y Whisper Turbo en función del idioma detectado al inicio de la llamada para que cada idioma compatible alcance la misma barra de precisión. Hoy esa barra cubre 30+ idiomas hablados — los que aparecen más en las entrevistas incluyen Inglés, Mandarín, Cantonés, Japonés, Coreano, Español, Portugués, Francés, Alemán, Italiano, Holandés, Hindi, y Vietnamita.
Para rondas de codificación, la pregunta es qué puede leer el modelo y generar con fluidez. Acedly cubre 30+ lenguajes de programación con la misma barra de fluidez; los que los entrevistadores piden más son Python, JavaScript, TypeScript, Java, C++, Go, Rust, Kotlin, Ruby, SQL, PHP, y Scala. Lo que sea que el entrevistador elija en el editor — incluidas opciones más de nicho como Elixir, OCaml, o un dialecto Lisp — obtiene la misma calidad de generación.
Privacidad y sigilo: los seis puntos de acceso que debe cubrir un asistente de entrevista por IA
El sigilo es binario: o el entrevistador ve el asistente o no lo ve. No existe un "principalmente oculto". El texto promocional que menciona "interfaz discreta" o "diseño discreto" casi siempre intenta ocultar una herramienta que falla en una de las seis pruebas siguientes.
Un asistente de entrevista por IA serio es invisible en cada una de estas superficies:
- Compartir pantalla — excluido de las APIs de captura de ventana a nivel del SO. El entrevistador ve el mosaico de reunión y las otras ventanas del candidato; no ve el asistente.
- Dock y barra de tareas — el icono del asistente no aparece en el dock de Mac o la barra de tareas de Windows. No hay nada en lo que hacer clic para "mostrar al reclutador qué tienes abierto".
- Lista de procesos / Monitor de actividad — el nombre del proceso del asistente no está obviamente marcado. Un reclutador que de repente pregunte "¿qué se está ejecutando en tu máquina?" no debería ver una fila etiquetada como "InterviewCopilot.app".
- Alt-Tab / selector de ventanas — cuando el candidato cambia entre ventanas, el asistente no aparece en el carrusel. Esta es una fuente frecuente de revelaciones accidentales.
- Comportamiento del cursor y el puntero — la ventana del asistente no captura ni mueve el cursor. Un copiloto que toma el enfoque durante una pregunta se revela fácilmente con un error de teclado.
- Atajos de teclado y señales de audio — el asistente no tiene sonidos del sistema, sin notificaciones de campana, y sus atajos de teclado son configurables para no entrar en conflicto con los controles de compartir pantalla del reclutador.
Si una herramienta falla en cualquiera de estos, no es sigilo. La forma correcta de evaluar esto no es leer la página de marketing; es iniciar una llamada de Zoom con un amigo, compartir tu pantalla y ejecutar cada acción que realizarías durante una entrevista. Si el amigo puede ver cualquier cosa que insinúe el copiloto, el copiloto ha fallado.
Elegir tu asistente de entrevista por IA: una lista de verificación de cinco preguntas
Si estás evaluando un copiloto de entrevista en tiempo real, pregunta al proveedor — o prueba por ti mismo — estas cinco preguntas antes de confiar en uno en una llamada real:
- ¿Cuál es la latencia mediana de extremo a extremo desde el final de la pregunta hasta el primer token de respuesta, medida en tu propia máquina? Cualquier cosa superior a 250 ms no es viable para conversación en vivo.
- ¿Está excluido del uso compartido de pantalla en la plataforma que realmente utilizas? Prueba en Zoom, Teams, Meet o cualquiera que prefieran tus entrevistadores; no asumas cobertura.
- ¿Fundamenta las respuestas en tu currículum y la descripción del trabajo por defecto? Un copiloto que alucina un proyecto en el que no trabajaste es peor que no tener copiloto.
- ¿Puede leer el sandbox de codificación en la pantalla, o solo el audio? Esta es la diferencia más importante entre "útil" y "lo mínimo indispensable" durante las rondas técnicas.
- ¿Puedes leer la respuesta a ritmo de habla y responder con tus propias palabras, o sientes la tentación de leerla al pie de la letra? Si la interfaz te impulsa a leer al pie de la letra, el ritmo es incorrecto y te atraparan en el primer seguimiento.
La respuesta honesta a la última pregunta es la más diagnóstica. Los copilotos en tiempo real son útiles de la misma forma que un teleprónter es útil para una conferencia de prensa: te mantienen en el camino correcto, te salvan de quedarte en blanco, y te permiten gastar tu presupuesto cognitivo en escuchar en lugar de recordar. No son útiles como un guión. Los candidatos que más valor obtienen de ellos son también los que hubieran estado bien sin ellos.