Acedly AI vs. Foundation Models (GPT, Claude, Gemini): Spezialisierte KI gewinnt
Warum ein Interview-Copilot ein reines LLM schlägt – Latenz, OS-Audio-Erfassung, Screen-Share-Ausschluss, Lebenslauf-Kontext, Multi-Model-Routing und Interview-spezifisches Prompting, das ein Chat-Fenster nicht kann.
Devon Park
Head of Research, Acedly
Der ehrliche Fall für die Verwendung eines rohen Foundation-Modells
Die meisten Kandidaten, die diese Frage erwägen, zahlen bereits $20 pro Monat für einen Frontier-Chat-Assistenten, dem sie bei allen anderen Aufgaben in ihrem Leben vertrauen. Der Fall dafür, keine zweite Abonnement hinzuzufügen, ist real und verdient es, klar dargelegt zu werden.
Die Foundation-Modelle – GPT-5, Claude 4.7, Gemini 2.5, die DeepSeek- und Qwen-Frontier-Releases – sind bei der mittleren Frage intelligenter als jeder Wrapper, der auf ihnen sitzt. Sie schreiben besseren Code als vor einem Jahr, sie argumentieren über Systemdesign mit weniger offensichtlichen Lücken, und sie haben größere Kontextfenster als zu dieser Zeit letztes Jahr. Für Substanz sind sie die stärksten Tools im Raum.
Ein rohes Chat-Fenster hat auch null Koordinationskosten. Du kennst bereits die Tastaturkombination, um es zu öffnen, vertraust bereits, wie es die Dinge formuliert, und kennst bereits seine Fehlermodi. Das Hinzufügen eines neuen Produkts zu deiner Interview-Tag-Oberfläche ist Reibung; die Frage ist, ob die Reibung es wert ist.
Bei einigen Runden – und wir werden sie am Ende dieser Seite nennen – ist die ehrliche Antwort nein. Das Chat-Fenster ist ausreichend.
Wo ein reines Foundation-Modell in einem Live-Interview scheitert
Für die Runden, bei denen die Antwort ja ist, sind die Fehlermodi mechanisch, nicht philosophisch. Foundation-Modelle unterliegen einer spezialisierten Interview-KI bei fünf spezifischen Einschränkungen, die von außerhalb der Chat-UI nur schwer zu beheben sind.
1. End-to-End-Latenz von der Frage zum ersten Token
Interviews finden in menschlicher Gesprächsgeschwindigkeit statt. Die natürliche Pause zwischen dem Ende der Frage eines Interviewers und dem Beginn der Antwort eines Kandidaten beträgt etwa 250 Millisekunden. Danach wird die Stille hörbar und der Kandidat fällt sichtbar zurück.
Ein reines Foundation-Modell-Chat-Workflow sieht im stabilen Zustand so aus:
- Interviewer beendet die Frage. (t = 0ms)
- Kandidat Cmd-Tab zum Chat-Fenster. (~400ms einschließlich menschlicher Reaktion)
- Kandidat tippt oder fügt die Frage ein. Tippen ist der langsame Pfad; selbst schnelle Schreiber brauchen ~3 Sekunden für eine 15-Wort-Frage. (t = 3.500ms)
- Modell denkt. Frontier-Modell-Time-to-First-Token bei kurzer Anfrage ist ~600–1.200ms je nach Tag. (t = 4.500ms)
- Kandidat liest den ersten Satz der Antwort, paraphrasiert ihn und beginnt zu sprechen. (t = 6.500ms)
Das Gesamtbudget von 6,5 Sekunden ist etwa 25× der Gesprächsschwelle. Der Interviewer hat das längst bemerkt.
Acelys Pfad reduziert dies auf einen einzelnen Durchlauf:
- Interviewer beendet die Frage. (t = 0ms)
- Audiotranskription erfolgt in Echtzeit während der Frage; Erkennung des Sprachendes löst das Modell zum Zeitpunkt der natürlichen Pause der Frage aus. (t = +30ms Sprache-zu-Text-Overhead)
- Modell gibt das erste Antwort-Token zurück. Der Medianwert für die durchgehende Latenz bei Acedly liegt bei ~98ms; das 95. Perzentil liegt unter 200ms. (t = ~130ms)
- Kandidat liest die erste Zeile und beginnt zu sprechen. (t = ~600ms insgesamt)
Der Unterschied ist keine Prozentzahl. Es ist eine Größenordnung.
2. Sichtbarkeit der Bildschirmfreigabe
Dies ist die Einschränkung, die am schwierigsten von einem Chat-Fenster aus zu beheben ist. Jede große Foundation-Modell-UI wird als normales Anwendungsfenster ausgeliefert – sichtbar im macOS-Dock, sichtbar in der Windows-Taskleiste, sichtbar in Alt-Tab und Cmd-Tab, und entscheidend, sichtbar, wenn der Kandidat seinen Bildschirm freigibt.
Für technische Runden, bei denen der Personalvermittler den Kandidaten auffordert, seinen gesamten Bildschirm freizugeben – üblich bei Meta, Google und den meisten Coding-Panels – ist es das Gleiche, als würde der Kandidat die Antwort auf einem Haftzettel an seinem Monitor kleben. Der Personalvermittler sieht es in dem Moment, in dem die Freigabe beginnt.
Es gibt Workarounds (Chat auf einem separaten Gerät ausführen, nur ein einzelnes Fenster freigeben, Chat-Fenster hinter der IDE ausblenden), aber jede fügt Koordinationskosten hinzu und jede hat einen Fehlermodus, bei dem der Chat versehentlich sichtbar wird – eine Benachrichtigung, ein Alt-Tab-Fehler, der Cursor driftet auf den falschen Monitor.
Acelys Overlay ist auf OS-Ebene von Window-Capture-APIs ausgeschlossen: NSWindowSharingNone auf macOS, SetWindowDisplayAffinity(WDA_EXCLUDEFROMCAPTURE) auf Windows. Das Overlay ist nicht im Dock, nicht in der Taskleiste, nicht in Alt-Tab, nicht in Activity Monitor unter einer erkennbaren Marke, und nicht in irgendeinem Window-Capture-Framebuffer, den der Meeting-Client möglicherweise senden könnte. Es ist strukturell unsichtbar, nicht nur visuell klein.
3. Audioerfassung und Turnerkennung
Der Interviewer stellt die Frage. In einem reinen Foundation-Modell-Workflow muss der Kandidat die Frage in den Chat eingeben, um eine Antwort zu erhalten. Sprache-zu-Text im Chat-UI existiert für einige Anbieter, ist aber auf einen einzelnen Sprecher beschränkt – es erfasst das Mikrofon des Kandidaten, nicht das Audio des Interviewers über den Meeting-Client.
Acedly abonniert Systemaudio auf OS-Ebene, erfasst das Loopback-Audio, das die Stimme des Interviewers über den Meeting-Client enthält, und führt Streaming-Sprache-zu-Text mit Erkennung des Sprachendes durch, damit das Modell in dem Moment auslöst, in dem die Frage tatsächlich abgeschlossen ist. Der Kandidat tippt nichts ein.
Der nachgelagerte Effekt ist erheblich: Die Hände des Kandidaten sind während der Frage frei, daher kann er Notizen machen, seinen Lebenslauf auf einem zweiten Monitor durchblättern oder einfach Blickkontakt mit dem Interviewer aufrechterhalten. Die freihändige Eigenschaft ist das, was bewirkt, dass der Arbeitsablauf nicht wie die Nutzung eines Tools aussieht.
4. Verankerung im Lebenslauf, der JD und der Wissensdatenbank des Kandidaten
Ein Foundation-Modell-Chat, der nicht vorab initialisiert wurde, produziert generische Antworten auf Verhaltensfragen. „Erzählen Sie mir von einem Mal, als Sie ein schwieriges Projekt geleitet haben" gibt eine glatte, inhaltsleere STAR-Geschichte zurück, die keine spezifische Technologie, kein echtes Team, keine echten Zahlen erwähnt. Die Folgefrage – die jeder glaubwürdige Interviewer stellt – enthüllt die Generizität sofort.
Sie können einen Chat durch Einfügen Ihres Lebenslaufs und der JD in das Gespräch vor Beginn des Interviews vorab initialisieren. Dies funktioniert, aber jedes neue Gespräch erfordert erneute Vorab-Initialisierung, und die meisten Kandidaten unterschätzen, wie viel Kontextdrift das Modell über eine 45-minütige Runde hinweg ansammelt. Bei Frage sechs hat der Chat vergessen, bei welchem Unternehmen Sie sich beworben haben.
Acelys Verankerung ist persistent und strukturell. Ihr Lebenslauf, die JD und alle hochgeladenen Wissensdatenbank-Dokumente sind Teil des Systemkontexts für jeden Modellaufruf, aktualisiert bei jedem Zug. Wenn der Personalvermittler eine Verhaltensfrage stellt, präsentiert der Copilot Ihr spezifisches Projekt aus Ihrem Lebenslauf, in Ihrer Stimme. Die Verankerung ist das, was die Antwort in der Folgefrage verteidigbar macht.
5. Multi-Modell-Routing
Eine Coding-Runde benötigt ein Modell, das unter engen Einschränkungen bei niedriger Latenz gut argumentieren kann. Eine Verhaltensrunde benötigt ein Modell, das gut in Struktur und Prägnanz ist. Eine System-Design-Runde benötigt ein Modell, das ein großes Kontextfenster verwaltet und einen Baum von Trade-offs produziert. Ein Case-Interview benötigt ein Modell, das unter Mehrdeutigkeit gut strukturiert argumentieren kann.
Kein einzelnes Foundation-Modell-Chat kann all dies gut erfüllen. Sich auf eines festzulegen — selbst auf das stärkste — bedeutet zu akzeptieren, dass einige Runden das falsche Modell erhalten. Der Leistungsunterschied zwischen dem richtigen und dem falschen Modell bei einer Runde kann größer sein als zwischen den stärksten und schwächsten Frontier-Modellen bei durchschnittlichen Aufgaben.
Acedly wählt zwischen GPT, Claude, Gemini, DeepSeek und Qwen anhand des aus dem Transkript erkannten Fragetyps. Sie wählen das Modell nicht; das System wählt pro Runde. Das Ergebnis für Sie ist, dass das Modell sich immer richtig für die Runde anfühlt.
Nebeneinander: Die Einschränkungen, die wirklich zählen
| Feature | Acedly | Unbearbeitete Foundation-Model-Chats |
|---|---|---|
| Mediane End-to-End-Latenz | ~98ms | ~6.500 ms (Frage-Eingabe-Pfad) |
| Verborgen vor Bildschirmfreigabe | Ja — Ausschluss auf OS-Ebene | Nein — normales Fenster, sichtbar bei Freigabe |
| Freihändig während der Frage | Ja — Audio-Erfassung auf OS-Ebene | Nein — eingeben oder in Eingabefeld einfügen |
| Standardmäßig im Lebenslauf und Stellenbeschreibung verankert | Ja, durchgängig über Runden hinweg | Nur wenn Sie jedes Gespräch neu vorbereiten |
| Multi-Modell-Routing | Automatisch, je nach Fragetyp | Einzelnes Modell, manueller Wechsel |
| Coding-Sandbox-Bildschirmlesung | Liest Coderpad / HackerRank / LeetCode aus | Manuelles Kopieren aus dem Editor |
| Preismodell | Pauschalplan, 69 $/Monat oder einmalig | Abonnement-Mix pro Anbieter |
| Setup-Zeit vor einer Runde | Öffnen und los geht's | Lebenslauf und Stellenbeschreibung erneut einfügen, Kontext zurücksetzen |
Die Latenz-Spalte ist die wichtigste und wird in der Diskussion am meisten unterschätzt. Ein Foundation-Model-Chat kann eine stärkere Antwort liefern als ein Wrapper, wenn man ihm genug Zeit gibt; der Arbeitsablauf gibt dir in einem echten Interview einfach nicht genug Zeit dafür.
Wann ein unbearbeiteter Foundation-Model-Chat tatsächlich die bessere Wahl ist
Es gibt drei Fälle, in denen wir empfehlen, das spezialisierte Tool zu überspringen und stattdessen ein Chat-Fenster direkt zu nutzen.
Pre-Interview-Vorbereitung, nicht die eigentliche Runde. Vor dem Interview, wenn du eine Verhaltensgeschichte übst oder einen System-Design-Ansatz durcharbeitest, gibt es keine Latenz-Strafe und keine Bildschirmfreigabe-Einschränkung. Ein Spitzen-Modell-Chat ist wirklich das stärkste Tool für diese Arbeit — sein Denkvermögen ist am schärfsten, wenn du Zeit zum Iterieren hast.
Asynchrone Screenings (HireVue und ähnliches). Dies sind aufgezeichnete, asynchrone Videorunden, bei denen du Vorbereitungszeit vor jeder Aufforderung hast. Ein Echtzeit-Copilot hat in diesem Format keinen Mehrwert; Übung mit einem Spitzen-Modell-Chat schon. Siehe unseren AI-Interview-Leitfaden für den vollständigen Leitfaden zur asynchronen Vorbereitung.
Umfangreiche Take-Home-Aufgaben. Eine Take-Home ist mehrstündige Arbeit, bei der das Denkvermögen des Modells wichtiger ist als die Latenz pro Runde. Arbeite mit einem Chat-Fenster, bearbeite das Problem bewusst, liefere deine eigene Implementierung ab. Der gleiche Chat ist später auch nützlich als Code-Review-Pass für deine Einreichung.
Für die echte, zeitgesteuerte Runde mit einem echten Recruiter am anderen Ende ist das spezialisierte Tool in einer anderen Kategorie. Für alles andere ist das Chat-Fenster, das du ohnehin bezahlst, völlig ausreichend.