Le Guide Complet des Entretiens d'IA (2026)
Qu'est-ce qu'un entretien IA, comment l'IA réécrit les deux côtés de la boucle, et comment choisir un outil d'entretien IA — par l'équipe qui construit Acedly AI.
Devon Park
Head of Research, Acedly
Ce qu'est réellement un entretien conduit par l'IA
Un entretien conduit par l'IA est une présélection vidéo asynchrone. Le recruteur n'apparaît jamais à l'écran. Vous recevez un lien, la page affiche une question, un minuteur d'enregistrement démarre et vous avez un nombre fixe de tentatives — généralement une, occasionnellement deux — pour livrer une réponse. Votre vidéo et votre audio sont téléchargés, transcrits et évalués par une combinaison de modèles de traitement du langage naturel et (selon le fournisseur) d'analyse d'expression faciale et de prosodie. Un responsable du recrutement voit alors une liste classée de candidats avec des scores générés par le modèle, souvent des semaines après l'enregistrement.
C'est un flux de travail différent d'un appel avec un recruteur en direct et une catégorie distincte d'un copilote IA en temps réel. Les caractéristiques définissantes sont :
- Asynchrone. L'enregistrement se fait selon votre calendrier ; l'examen se fait selon le leur. Il n'y a personne pour lire la salle.
- Tentatives limitées. La plupart des plates-formes permettent une seule tentative par question. Une minorité en permet un réenregistrement. Aucune ne permet une itération illimitée.
- Passage algorithmique en premier. Le premier examinateur de votre réponse est un modèle. Les humains voient une liste restreinte qui a déjà été classée.
- Outils pour les vagues de candidats. Les employeurs recourent à ce format quand ils ont des centaines ou des milliers de candidats pour un poste. C'est rare pour le recrutement senior ou spécialisé, courant pour les rôles de diplômés et de première ligne à haut volume.
Comment la présélection conduite par l'IA vous évalue réellement
Le cadrage de la boîte noire est en grande partie du marketing. La plupart des fournisseurs publient suffisamment d'informations sur leur pile de notation pour que vous puissiez vous préparer directement contre elle. Trois familles de signaux dominent.
Évaluation du contenu
Le signal dominant chez tous les fournisseurs crédibles est le contenu de votre réponse : une transcription est générée à partir de l'audio, et un modèle de traitement du langage naturel l'évalue par rapport à une rubrique qui a été soit construite à la main par un psychologue organisationnel industriel, soit distillée à partir de données historiques d'embauche / pas d'embauche chez cet employeur. La rubrique pondère généralement la structure de réponse (quelque chose de proche de STAR), l'utilisation de mots-clés pertinents au rôle tirés de la description d'emploi, la présence de chiffres concrets et de résultats nommés, et l'absence de signaux disqualifiants (mots de remplissage excessifs, formulations évasives, divergences avec le CV).
Vous pouvez vous préparer directement contre l'évaluation du contenu. La mécanique est la même que celle de se préparer à un tour d'entretien comportemental structuré avec un humain — votre réponse devrait avoir une configuration claire, une action claire et un résultat quantifié clair — mais avec deux ajustements. Premièrement, vous ne bénéficiez pas du crédit pour la chaleur humaine naturelle qu'un intervieweur en direct vous confère. Deuxièmement, vous êtes évalué par rapport à la rubrique à chaque fois, donc la cohérence compte plus que la performance maximale.
Caractéristiques vocales et prosodiques
Un signal plus petit mais réel est la façon dont vous dites ce que vous dites. Le rythme, la variation de pitch, l'énergie et le rapport entre la parole et le silence sont tous mesurables à partir de l'audio sans aucune transcription. Les fournisseurs qui publient leurs listes de fonctionnalités nomment des choses comme les mots par minute, la durée moyenne des pauses et l'étendue des pitch. La lecture défendable de ceci est que vous devriez sembler engagé, pas monotone, et vous ne devriez pas vous précipiter — le rythme sous stress est le mode d'échec le plus courant rapporté par les candidats.
Consultez la politique du fournisseur et votre droit du travail local. Les limites autour du dépistage basé sur la prosodie se sont considérablement resserrées entre 2023 et 2026, et plusieurs grands fournisseurs ont publiquement abandonné la notation d'expression faciale en particulier sous la pression réglementaire (la loi sur les entretiens vidéo IA de l'Illinois et la loi sur l'IA de l'UE ciblent toutes deux cette catégorie). Certains fournisseurs évaluent toujours la prosodie comme signal d'« engagement neutre » ; d'autres ont abandonné la notation audio seule au-delà de la transcription.
Expression faciale et regard (largement abandonnés)
Il y a quelques années, plusieurs fournisseurs évaluaient les expressions faciales, le regard oculaire et les microexpressions comme des indicateurs de l'engagement, de l'honnêteté et de l'enthousiasme. Cette catégorie a toujours été contestée quant à sa validité et est maintenant contestée sur des bases juridiques dans la plupart des juridictions où la présélection asynchrone est courante. HireVue a publiquement abandonné la notation d'analyse faciale en 2021 ; la plupart des concurrents crédibles ont emboîté le pas. Si votre fournisseur de présélection revendique toujours l'évaluation des expressions faciales, traitez le résultat comme un signal faible et pondérez votre préparation au contenu et à l'audio en conséquence.
Les plateformes qui conduisent les entretiens automatisés par IA
Cinq fournisseurs gèrent l'essentiel de la présélection automatisée par IA pour les employeurs anglophones en 2026. Savoir lequel vous affrontez change la préparation de quelques points de pourcentage dans un sens ou l'autre.
| Feature | HireVue | Spark Hire | Modern Hire (HireVue) | Hireflix | myInterview |
|---|---|---|---|---|---|
| Format | Vidéo asynchrone, invites structurées | Vidéo asynchrone, invites simples | Vidéo asynchrone + évaluations (maintenant sous HireVue) | Vidéo asynchrone, personnalisée par le recruteur | Vidéo asynchrone, évaluation de la personnalité par IA |
| Prises par question | Généralement 1 | Souvent 1, parfois 3 | Généralement 1 | Configurable par recruteur | Généralement 1 |
| Couche de notation | Contenu TAL + prosodie légère | Léger, surtout transcription | TAL + évaluations d'adéquation au rôle | Léger, dirigé par le recruteur | Modèle de personnalité + transcription |
| Où vous le rencontrerez | Embauche des diplômés Fortune 500 / embauche de volume | Embauche des PME et franchises | Mêmes familles que HireVue | Marché intermédiaire et technologie | Services, vente au détail, hôtellerie |
| Temps de réponse typique | 60–120 s par Q | 30–90 s par Q | 60–120 s par Q | 30–180 s par Q | 30–120 s par Q |
L'autre plateforme à mentionner est la présélection asynchrone interne que certains grands employeurs (notamment Goldman Sachs, McKinsey et plusieurs grands programmes de diplômés technologiques) ont construite à partir d'outils vidéo génériques. La mécanique est identique à celle des fournisseurs nommés ; le barème est simplement interne.
Se préparer pour un entretien automatisé par IA
La préparation comporte six éléments. La plupart des candidats font les deux premiers, négligent le reste et sous-performent sur le contenu.
Préparez votre environnement. Internet filaire si possible. Un arrière-plan neutre. Une seule source lumineuse à peu près derrière votre caméra. Un verre d'eau. Votre téléphone face vers le bas, silencieux. Testez l'aperçu de la caméra Web et du microphone de la plateforme, dans le navigateur réel, avant l'ouverture de la fenêtre d'enregistrement — la plupart des enregistrements échoués sont dus à des problèmes de permissions d'appareil, pas à des problèmes de contenu.
Lisez l'invite attentivement et ressaisissez-vous. La plupart des plateformes vous donnent 30 à 90 secondes pour prévisualiser avant le début de l'enregistrement. Utilisez-les. Articlez l'invite silencieusement. Identifiez les trois ou quatre points que vous voulez faire. Prenez une profonde respiration. Puis commencez.
Commencez par un résumé d'une phrase. Le notateur de transcription recherche une forme de réponse structurée. Commencez par une seule phrase qui nomme la situation et le résultat — « J'ai dirigé une migration de paiements l'année dernière qui s'est terminée six jours ouvrables plus tard après avoir ajouté un retour en arrière à double écriture pour la sécurité » — puis développez. Le résumé amorce le barème de la même façon qu'une thèse amorce un grader d'essai.
Utilisez les mots-clés pertinents au rôle sans surcharger. Les recruteurs configurent le barème en fonction de la description de poste. Les mots-clés pertinents sont généralement évidents à partir de la description : les technologies nommées, les méthodologies nommées (STAR, OKR, agile), les verbes nommés (led, shipped, owned). Utilisez-les où ils s'appliquent véritablement. Ne les insérez pas gratuitement.
Terminez par un résultat quantifié. « Nous avons migré six téraoctets sans aucun temps d'arrêt en trois semaines. » « Le temps de cycle a diminué de 18 à 6 jours en un trimestre. » Les chiffres ancrent la réponse dans le barème. Si votre rôle n'a pas produit de chiffres, nommez le résultat au second ordre — « le gestionnaire qui a examiné le retour en arrière a adopté le modèle de double écriture pour deux autres migrations. »
Gérez votre rythme. La plupart des fournisseurs crédibles pénalisent le quintile inférieur et supérieur de mots par minute. Le quintile du milieu est à peu près 140 à 170 mots par minute en anglais. Pratiquez avec un minuteur — si la plateforme vous donne 90 secondes, répétez trois ou quatre réponses qui arrivent à 75 à 85 secondes. Le mode d'échec le plus courant est de manquer de temps en pleine pensée.
Pièges courants
Les pièges sont remarquablement cohérents entre les fournisseurs et les rôles.
- Traiter l'écran comme une conversation en direct. Il n'y a personne qui acquiesce en retour. Votre prosodie s'aplatit, les silences semblent maladroits et vous les meubler d'expressions hésitantes. La solution est d'imaginer une seule personne spécifique — un ami, un ancien gestionnaire — et de parler à la caméra en pensant à cette personne.
- Essayer de jouer le modèle. Remplir de mots-clés, répéter des phrases textuelles de la description de poste ou bourrer les réponses de jargon industriel apparaissent tous comme des anomalies dans le barème. Plusieurs fournisseurs signalent explicitement ceci et acheminent la réponse pour examen humain avec le drapeau attaché. Le drapeau est pire qu'une réponse légèrement plus faible.
- Ignorer l'interface de la plateforme. Chaque fournisseur a de petites bizarreries d'interface — un compte à rebours de 5 secondes avant l'enregistrement, un bouton « examen » qui ne vous permet pas vraiment de réenregistrer, une question du jour au début qui fait partie de la notation. Lisez la page d'aide du fournisseur avant de vous asseoir.
- Sauter la question de pratique. La plupart des plateformes offrent une ou deux invites de pratique qui ne comptent pas pour votre score. Les candidats les sautent régulièrement pour « économiser l'énergie mentale » et gaspillent ensuite leur première vraie tentative sur une erreur d'interface. Utilisez l'invite de pratique chaque fois.
En quoi un entretien mené par IA diffère d'un entretien humain en direct
Les deux formats récompensent des compétences différentes. Traiter ces deux formats comme le même produit est l'erreur la plus courante que commettent les candidats quand ils entendent parler d'« entretien IA ».
| Entretien asynchrone mené par IA | Entretien humain en direct | |
|---|---|---|
| Qui examine en premier | Un modèle | Un humain |
| Adaptation en temps réel | Aucune — préparer et livrer | Constante — lire et adapter |
| Outils que vous pouvez utiliser | Notes, préparation, pratique | Notes, préparation, copilote en temps réel optionnel |
| Pondération du signal | Contenu de la transcription > prosodie | Substance + rapport + chimie |
| Ce qui récompense la préparation | Réponses structurées répétées | Réponses structurées répétées + pratique du rythme en direct |
| Rôle d'Acedly | Pas pour ce format | Copilote en temps réel pendant l'appel en direct |
Acedly est un copilote IA en temps réel conçu pour le côté en direct de cette distinction — un recruteur humain de l'autre côté d'un appel Zoom ou Teams, le copilote s'exécutant silencieusement sur la machine du candidat, latence inférieure à 200 ms, caché du partage d'écran. Il n'est pas conçu pour les entretiens asynchrones ; utiliser un copilote en temps réel lors d'un enregistrement HireVue est à la fois inutile (il n'y a pas de rythme en direct à assister) et risqué (la plupart des fournisseurs asynchrones exécutent leurs propres heuristiques anti-triche). La bonne préparation pour l'asynchrone est la répétition ; le bon outil pour le direct est un copilote. Consultez notre pilier d'assistant d'entretien IA pour le côté entretien en direct.