Einblick in Devins Workflow: Toolnutzung, Planung und Autonomie

Einblick in Devins Workflow: Toolnutzung, Planung und Autonomie

26. April 2026

Einleitung

Devin (von Cognition AI) ist ein neuer autonomer KI-Softwareentwickler, der Softwareentwicklungsaufgaben planen und weitgehend eigenständig ausführen kann. Er arbeitet End-to-End an Code-Projekten und nutzt Tools wie einen Code-Editor, eine Befehlszeile (Shell) und einen Webbrowser, um Code zu recherchieren, zu schreiben, zu testen und bereitzustellen. In Demos und in der Presse wurde gezeigt, wie Devin eine Codebasis scannt, einen Plan erstellt, Dateien bearbeitet, Tests ausführt und Pull Requests macht – mit überraschend wenig menschlichem Eingriff (medium.com) (www.linkedin.com). Cognition behauptet, Devin könne „komplexe Ingenieursaufgaben, die Tausende von Entscheidungen erfordern“ bewältigen, den Kontext bei jedem Schritt abrufen und sogar aus Fehlern lernen (medium.com) (www.linkedin.com). Wir untersuchen daher die öffentlichen Details von Devins Design und Workflow. Dies umfasst, wie Devin Aufgaben zerlegt (seinen Planungsprozess), wie er buchstäblich in einer Entwicklerumgebung (Editor, Terminal, Browser) arbeitet, wie er über eine Codierungssitzung hinweg Speicher oder Kontext behält, wie er sich selbst korrigiert und iteriert, und welche Leitplanken oder Sicherheitsmaßnahmen er verwendet. Wir weisen auch darauf hin, was nicht enthüllt wird – zum Beispiel sind die genauen Modellinterna nicht offengelegt, sodass einige Diskussionen in der Community auf fundierten Vermutungen beruhen.

Aufgabenplanung und -zerlegung

Wenn ein Entwickler Devin eine neue Aufgabe gibt, ist der erste Schritt die Planung, welche Dateien in welcher Reihenfolge geändert werden sollen. Die Notizen von Cognition erklären, dass Devin einen „Planungsmodus“-Sub-Agenten verwendet, dessen Aufgabe es ist, herauszufinden, welche Dateien im Repository für die Aufgabe relevant sind (medium.com) (docs.devin.ai). In der Praxis „untersucht“ Devin das Repository und schlägt einen Plan vor, bevor er Code schreibt (docs.devin.ai) (docs.devin.ai). Bei komplexen Aufgaben sehen Entwickler diesen Plan und können ihn genehmigen oder anpassen; wenn der Modus Agency aktiviert ist, fährt Devin automatisch mit seinem Plan fort, ohne auf Genehmigung zu warten (docs.devin.ai) (docs.devin.ai).

Hinter den Kulissen trainierte Cognition diesen Planungsagenten mit Reinforcement Learning. In einer Analyse beschreibt das Team, wie es dem Planer nur lesegeschützte Tools (wie ls, grep oder read_file) zur Verfügung stellte und ihn belohnte, wenn er korrekt die Menge der Dateien vorhersagte, die ein Mensch bearbeiten würde (medium.com) (medium.com). Das Ergebnis: Devins Planer lernt, parallele Dateisystemabfragen (z. B. ls und grep gleichzeitig in verschiedenen Verzeichnissen auszuführen) zu erstellen und vielversprechende Ansätze einzugrenzen (medium.com). Die Trainingsstrafe fördert die Effizienz, sodass der Agent Brute-Force vermeidet (z. B. das gesamte Repository endlos zu greppen) und stattdessen umgehend „festschreibt“, sobald er ein Ziel gefunden hat (medium.com). Das bedeutet, dass Devins Planung datengesteuert ist: Es hat generische Strategien zur Codebasis-Navigation gelernt (wie Cognition anmerkt, wurde das Modell auf vielen Repositories und Benutzeranfragen trainiert) (medium.com) (medium.com).

Auf Benutzerebene sehen Sie das Ergebnis als Gliederung der Schritte. Bei einer neuen Feature-Anfrage schlägt Devin beispielsweise etwas vor wie „Datei A ändern, um X zu implementieren, Tests in Datei B hinzufügen, dann Konfiguration C aktualisieren.“ In Demos fängt Devins Planungsschritt oft fehlende Details auf und fordert eine Klärung an, wenn ein Benutzer diese vergessen hat. In einer Demo fügte der Assistent die Konfiguration eines GitHub-Kontos automatisch zum Plan hinzu, obwohl der Benutzer es nicht explizit erwähnte (www.developersdigest.tech) (www.linkedin.com). Diese Planungsschritte (Fragen stellen, Aufgaben auflisten, Dateien zuordnen) werden alle innerhalb von Devins Dialogschnittstelle durchgeführt, bevor Code geschrieben wird. Wenn der Benutzer zustimmt oder die automatische Genehmigung aktiviert ist, geht Devin zur Ausführung über.

Arbeiten in einer Entwicklungsumgebung: Editor, Terminal und Browser

Devin arbeitet innerhalb einer sandboxed Entwicklerumgebung. Die Materialien von Cognition beschreiben sie als ausgestattet mit einem vertrauten Entwickler-Toolkit: ein Shell-Terminal, ein Code-Editor und ein Webbrowser stehen ihm zur Verfügung (medium.com) (docs.devin.ai). In der Praxis wird alles, was Devin tut, protokolliert und ist in der Web-UI sichtbar. Eine „Devin folgen“-Ansicht hebt jede Aktion hervor (wie eine Dateibearbeitung oder einen Shell-Befehl) und ermöglicht es sogar einem Menschen, auf ein Symbol zu klicken, um direkt in den Code-Editor oder das Terminal zu springen, wo diese Aktion stattfand (docs.devin.ai). Bearbeitet Devin beispielsweise eine JavaScript-Datei, kann ein Benutzer klicken, um die VSCode-Editor-Ansicht mit den Änderungen zu sehen, oder wenn Devin einen Shell-Befehl ausführt, klicken, um die Terminalausgabe zu sehen.

Sie können auch manuell in Devins Arbeitsbereich eingreifen, wenn Sie möchten. Ein kürzliches Update fügte einen Button „Devins Maschine nutzen“ hinzu, der Devins Umgebung in VSCode über das Web öffnet (docs.devin.ai). Dies bedeutet, dass ein Entwickler Devins Dateien einsehen, Befehle ausführen oder sogar Code in seinem Arbeitsbereich manuell bearbeiten kann. (Für lang andauernde Aufgaben ist dies praktisch, wenn Sie etwas während des Betriebs überprüfen möchten.) In einem Beispiel aktivierte ein Benutzer dies, um Devin beim Erstellen von UI-Elementen zuzusehen: Der Benutzer öffnete buchstäblich Devins VSCode, sah die neuen Dateien, die Devin geschrieben hatte, und konnte die UI live erkunden.

Das Tool Browser ermöglicht es Devin, Dinge im Internet zu recherchieren oder zu testen. In Demos ist zu sehen, wie Devin die Websuche verwendet, um Dokumentationen oder Bibliotheken nachzuschlagen, und sogar den lokalen Webserver startet, um zu überprüfen, ob sein Code nicht fehlerhaft ist (z. B. wird es einen Browser auf localhost zeigen, um zu überprüfen, ob die UI funktioniert). Insgesamt ist Devins Schnittstelle multimodal: Sie kann Eingaben wie Textaufforderungen, angehängte Designbilder oder Dokumente und sogar Code-Snippets entgegennehmen und interagiert sowohl über Chat als auch über diese Entwickler-Tools (www.developersdigest.tech) (medium.com). Das Ergebnis ist eine Erfahrung, die eher an „einen Kollegen, der Code schreibt“ erinnert als an einen statischen Chat mit einer KI.

Gedächtnis, Wissen und Sitzungskontext

Devin verfolgt Informationen über eine Sitzung hinweg mithilfe eines integrierten „Wissens“-Systems. Stellen Sie sich „Wissen“ wie ein Workspace-Notizbuch vor: Devin kann dort Tipps, projektspezifische Anweisungen oder wichtige Kontexte speichern und später wieder abrufen. Zum Beispiel beschreiben die Dokumente Workflows, um bestimmtes Wissen zu pinnen, damit Devin es nie vergisst, wie wichtige architektonische Einschränkungen oder Codierungsstilrichtlinien (docs.devin.ai). Benutzer können diese Wissensbank bearbeiten oder erweitern. Devin wird auch hilfreiche Notizen automatisch generieren: Er scannt Ihr Repository, um etwas über die Code-Struktur, Komponenten und Ihre Dokumentation zu erfahren, und erstellt automatisch eine „Repo Knowledge“-Zusammenfassung (docs.devin.ai) (docs.devin.ai). In der Praxis, nachdem Sie einige Aufgaben ausgeführt haben, könnte Devin sagen: „Mir ist aufgefallen, dass Sie oft React und Redux verwenden; ich schlage vor, das zum Wissen hinzuzufügen“, und wenn Sie zustimmen, wird diese Information gespeichert.

Während einer Sitzung wird Devin relevantes Wissen im Arbeitsspeicher behalten. Cognition behauptet, es „ruft bei jedem Schritt relevanten Kontext ab“ (www.linkedin.com). Wenn es beispielsweise zuvor gelernt hat, dass Sie Python 3.11 bevorzugen oder Ihre Web-App OAuth verwendet, wird es diese Informationen bei Bedarf in Prompts einbeziehen. Die Sitzung ist von Natur aus lang und zustandsbehaftet: Sie könnten dutzende Runden (Minuten oder mehr) mit Devin sprechen, während er viele Dateien bearbeitet, und er behält den Chat-Verlauf bei. Sollte Devin jemals abstürzen, können Sie das Protokoll durchsuchen oder den „Fortschrittsmodus“ aktivieren, um jede seiner Aktionen zu sehen.

Wenn Ihre Sitzung endet (z. B. wenn Sie die Aufgabe beenden oder abschließen), vergisst Devin den laufenden Zustand dieser Maschine, und seine virtuelle Maschine wird beim nächsten Mal auf einen Basis-Snapshot zurückgesetzt (docs.devin.ai). Standardmäßig enthält dieser Basiszustand die Repositories, die Sie in Ihrem Arbeitsbereich vorgeladen haben, sodass Devin nicht jedes Mal von Grund auf klonen muss (docs.devin.ai). (Ohne Workspace-Einrichtung würde jede Sitzung mit einer leeren Maschine beginnen, daher betont Cognition die Vorkonfiguration Ihres Repositories für Geschwindigkeit (docs.devin.ai).) Aber über den Code hinaus trägt Devin Wissen über seine Wissensbank weiter. Es wird Sie auffordern, Lektionen oder Definitionen hinzuzufügen, die für zukünftige Aufgaben nützlich erscheinen (docs.devin.ai). Über mehrere Sitzungen hinweg baut Devin so schrittweise ein Gedächtnis für die Konventionen und Architektur Ihres Projekts auf.

Zusätzlich zum Wissen hat Cognition DeepWiki veröffentlicht, ein verwandtes Tool, das ganze Codebasen indiziert und eine Chat-Oberfläche darüber bietet (medium.com). Obwohl DeepWiki ein separates Produkt ist, deutet es auf die umfassendere Architektur hin: Devin kann seine eigene oder eine externe Wiki des Codes abfragen, um Fragen zu beantworten. In der Praxis, wenn Sie Devin etwas über den Code fragen, kann es intern dieselben Abrufsysteme wie DeepWiki verwenden, um seine Antworten zu fundieren.

Autonomie, Iteration und Selbstkorrektur

Devin ist darauf ausgelegt, autonom zu sein, aber bei Bedarf mit Feedback-Schleifen. Nach der Planung führt er die Schritte nacheinander aus und prüft ständig auf Fehler. In Demos folgt der Agent häufig diesem Muster: Er nutzt den Browser oder Dokumente, um ein Problem zu verstehen, schreibt Code, führt ihn aus, sieht einen Fehler und sucht dann nach einer Lösung – was einen menschlichen Debugging-Zyklus nachahmt (www.developersdigest.tech) (www.linkedin.com). Zum Beispiel zeigt ein Präsentator, wie Devin ein Login-Formular hinzufügt, dann den Frontend-Test ausführt, einen Fehler findet und zurückgeht, um zu recherchieren, wie dieser Fehler behoben werden kann. Jede von Devins „Runden“ ist eine Schleife von denken → handeln → beobachten → korrigieren.

Mehrere Quellen weisen darauf hin, dass Devin eine „Selbstkorrektur“ eingebaut hat (medium.com) (www.linkedin.com). Tatsächlich erwähnt der Cognition-Blog mit GPT-5, dass GPT-5 „gut darin ist, Fehler zu verstehen und sich selbst zu korrigieren“, was sie als großartig für lange Aufgaben hervorheben (www.linkedin.com). Mit anderen Worten: Wenn Devins Code nicht kompiliert oder ein Test fehlschlägt, wird das Modell (oft GPT-5 oder ähnliches) die Fehlermeldung sehen und spontan eine Lösung finden. Es ist sogar zu Wiederholungsschleifen fähig: Wenn eine Aktion teilweise erfolgreich ist, kann Devin einen zweiten Durchlauf machen. Diese Schleifen sind in der Benutzeroberfläche als wiederholte Bearbeitungs- und Ausführungssequenzen sichtbar.

Um Fehler systematisch zu handhaben, verwendet Devin eine Mischung aus Automatisierung und menschlicher Aufsicht. Wenn Devin beispielsweise einen Pull Request öffnet und einen CI-Fehler oder einen Code-Review-Kommentar erhält, wird das System von Cognition Devin automatisch aus dem Schlaf wecken und ihn dazu bringen, das Problem zu beheben (docs.devin.ai) (docs.devinenterprise.com). Standardmäßig reagiert Devin auf Lint-Fehler oder Kommentare, obwohl Benutzer dies deaktivieren können. Die Benutzeroberfläche hebt auch seinen Status und seine Aktionen in Echtzeit hervor, sodass ein Entwickler jederzeit eingreifen kann. Entwickler werden ermutigt, die ersten Läufe im „Live-Modus“ (wo jeder Schritt angezeigt wird) zu beobachten, um Vertrauen aufzubauen, und Devin dann vollständig headless laufen zu lassen, sobald sie zuversichtlich sind (www.developersdigest.tech).

Sicherheit, Leitplanken und Anpassung

Operatoren können Devin explizite Anweisungen geben, was er nicht tun soll. Eine leistungsstarke Funktion sind „Verbotene Aktionen“. Sie können Dinge auflisten, die Devin nicht anfassen darf – zum Beispiel: „NICHT direkt in main pushen“ oder „Datei X nicht bearbeiten.“ Das System stellt sicher, dass Devin diese Befehle respektiert, wenn sie im Prompt oder in einem Playbook erscheinen (docs.devin.ai). Laut den Release Notes verarbeitet Devin Listen verbotener Aktionen jetzt zuverlässig, was bedeutet, dass es seine Aktionen gegen diese Regeln prüft. Dies hilft, häufige Fehler wie das Ändern des falschen Branches oder der falschen Datei zu verhindern.

Devin bietet auch verschiedene Steuerungsmöglichkeiten. In Slack oder der Web-UI können Sie Devin anweisen, „zu schlafen“ (Arbeit pausieren) oder eine Sitzung zu „archivieren“ (docs.devin.ai). Sie können wählen, ob Devin Ihre Genehmigung benötigt, bevor er einen Plan ausführt (über die Agency-Einstellung), oder ob er vollständig autonom läuft (docs.devin.ai) (docs.devin.ai). Seine Rechennutzung wird in Agent Compute Units (ACUs) gemessen, und die Benutzeroberfläche zeigt Warnungen an, wenn Devin kurz davor steht, Limits zu erreichen, sodass Sie eingreifen oder weitere Ressourcen gewähren können (docs.devin.ai).

Sollte hinter den Kulissen etwas schiefgehen, verfügt Cognition über Überwachungssysteme. In früheren Versionen berichteten einige Benutzer, dass Devin-Sitzungen „festhingen“ oder abstürzten. Das Team merkt an, dass diese Probleme behoben wurden und bietet ACU-Rückerstattungen an, wenn Devin hängt (docs.devin.ai). Mit anderen Worten: Das Unternehmen instrumentiert das System aktiv für Zuverlässigkeit. Externe Analysten warnen davor, dass Devin, wie jede Chat-basierte KI, gelegentlich Fehler produzieren oder Code „halluzinieren“ kann. Die empfohlene Praxis ist, seine Ausgabe zu überprüfen, wie Sie es bei der Arbeit eines Junior-Entwicklers tun würden. Zur Sicherheit verwenden viele Teams Code-Reviews für Devins Commits und schränken Devins Berechtigungen ein (z. B. standardmäßig keinen direkten Zugriff auf Geheimnisse). Bisher sind die öffentlich beschriebenen Leitplanken größtenteils benutzerdefiniert (verbotene Aktionen, Erfordernis der Planfreigabe usw.) und System-Gesundheitsprüfungen, anstatt integrierter ethischer Filter.

Was wir (noch) nicht wissen

Cognition hat einige Details bewusst intern gehalten, sodass Teile von Devin undurchsichtig sind. Zum Beispiel war das genaue große Sprachmodell, das es verwendet, ursprünglich nicht öffentlich. Gerüchte und spätere Beiträge deuten darauf hin, dass Cognition jetzt GPT-5 in Devin für seinen Planungs- und Argumentationskern integriert (www.linkedin.com), und sie haben einen Vorschau-Agenten, der auf Claude Sonnet 4.5 basiert (docs.devinenterprise.com). Die vollständige Architektur ist jedoch unklar: Devin orchestriert wahrscheinlich mehrere Modelle und verfügt über benutzerdefinierte Feinabstimmungen (wie der RFT-Planungs-Subagent andeutet), aber diese Schichten sind nicht quelloffen.

Wir kennen auch die Grenzen seines Gedächtnisses nicht vollständig. Devin behauptet, „im Laufe der Zeit zu lernen“, aber wie es neues Wissen in sein bestehendes Netzwerk integriert (im Gegensatz zur bloßen Speicherung in der Wissensbank), ist nicht spezifiziert. Die maximale Länge des Konversationsverlaufs, die es effektiv nutzt, ist nicht dokumentiert. Wenn eine Sitzung sehr lang ist, ist es möglich, dass frühere Teile des Chats oder Codekontexts hinter den Kulissen beschnitten werden. Praktisch halten die meisten Benutzer Prompts und Code prägnant, um eine Kontextüberlastung zu vermeiden.

Auf der Sicherheitsseite bleiben einige Unbekannte. Während zum Beispiel „verbotene Aktionen“ benutzerspezifische Regeln abdecken, ist unklar, ob Devin implizite Sicherheitsschichten hat (wie die Erkennung von Datenmissbrauch, Bias-Prüfungen oder Sandbox-Ausbrüche). Da es in einer VM läuft, hofft man, dass es Hostsysteme nicht beschädigen kann, aber Details zu diesem Sandboxing sind nicht öffentlich. Die Community folgert, dass Devins Maschine wahrscheinlich Container-Snapshots (wie für das RL-Training erwähnt) verwendet, um Läufe zu isolieren (medium.com).

Schließlich beobachten viele in der Community, wie Devin mit zweideutigen oder offenen Aufgaben umgeht. Das Verkaufsargument nennt es „voll autonom“, aber Analysten bemerken, dass es oft noch präzise Anweisungen benötigt. Wenn der Prompt des Benutzers beispielsweise vage ist, könnte Devin einen Plan generieren, der vernünftig erscheint, aber wichtige Grenzfälle übersieht. Es mag klärende Fragen in der Nachbearbeitung stellen, aber Entwickler fragen sich manchmal, wie gut es Absicht versteht, im Gegensatz zur bloßen Mustererkennung im Code. Diese Aspekte von Devins Kognition basieren auf den Fähigkeiten des zugrunde liegenden LLM, die wir nur indirekt beobachten. Kurz gesagt, Benutzer sollten Devin eher als hochqualifizierten Junior-Ingenieur denn als Produktmanager beurteilen – es plant gut, aber versteht Ihre Absicht möglicherweise nicht immer perfekt.

Erste Schritte mit Devin

Devin richtet sich hauptsächlich an Entwicklungsteams, die viel Codierungsarbeit leisten. Er glänzt bei klar definierten Aufgaben: das Erstellen von Features nach Spezifikationen, Refactoring, das Schreiben von Tests und das Beheben von Fehlern. Bei High-Level-Design oder sehr vage definierten Problemen ist er weniger erprobt. Für ein Softwareteam kann Devin helfen, Routinearbeiten zu erledigen, sodass sich Menschen auf die kreative Architektur und die Aufsicht konzentrieren können.

Für Nicht-Coder oder Neueinsteiger kann Devin dennoch nützlich sein, erfordert aber eine gewisse Einrichtung. Der erste Schritt ist, Devin Zugriff auf Ihr Code-Repository (über GitHub, GitLab usw.) zu geben und es vielleicht in Slack oder Teams zu verbinden. Dann versuchen Sie eine einfache Aufgabe. Fragen Sie zum Beispiel: „Devin, füge eine neue Seite hinzu, um alle Produkte aus unserer Datenbank in der Web-UI aufzulisten, einschließlich Testabdeckung.“ Beobachten Sie den Dialog in der Planungsphase: Devin wird skizzieren, welche Dateien geändert werden sollen (z. B. HTML-Template, Backend-API-Code usw.) und alle notwendigen Fragen stellen. Genehmigen Sie den Plan (oder lassen Sie ihn automatisch ausführen) und beobachten Sie die Ausführung. Verwenden Sie das „Folgen“-Panel, um jeden Schritt zu sehen: Sie sehen Dateiänderungen, Shell-Befehle (wie das Ausführen von Testsuiten) und Browser-Snapshots der Benutzeroberfläche. Wenn Devin einen Fehler macht oder Sie eine Änderung wünschen, interagieren Sie einfach wie im Chat („Eigentlich, verwende dieses CSS-Theme“ oder „der Produkttitel sollte großgeschrieben werden“), und Devin startet eine weitere Bearbeitungsschleife.

Der entscheidende Schritt ist iterieren und überprüfen. Überprüfen Sie immer den von Devin erstellten Code und testen Sie ihn lokal. Mit der Zeit können Sie die Wissensbank erweitern: Fügen Sie Notizen hinzu wie „Unsere Datenbank verwendet PostgreSQL 13“ oder „Wir folgen dem PSR-12-Stil in PHP“. Devin wird diese in zukünftigen Sitzungen berücksichtigen. Erkunden Sie auch die Einstellungen: Schalten Sie Agency aus, wenn Sie Vorschläge immer prüfen möchten, oder ein, wenn Sie ihm mehr vertrauen. Verknüpfen Sie Devin mit Ihrer CI für eine automatische Pull-Request-Überprüfung, aber beginnen Sie mit Benachrichtigungen, damit Sie beobachten können, wie er mit Feedback umgeht.

Letztendlich ist Devins Workflow dicht und leistungsstark, aber er ist immer noch auf Ihre Anleitung angewiesen. Indem Sie verstehen, wie er plant, Tools verwendet und aus Feedback lernt (wie oben beschrieben), können Sie das Beste aus dieser neuen Klasse von agentischem Codierungsassistenten herausholen. Der beste nächste Schritt für ein an Devin interessiertes Team ist, sich auf devin.ai anzumelden und einen kleinen Pilotversuch durchzuführen: Fügen Sie ein Web-Repository hinzu, bitten Sie Devin, eine Funktion zu implementieren, und lassen Sie es im Fortschrittsmodus laufen. Beobachten Sie die vollständige „Denk“-Spur – diese praktische Erfahrung wird genau klären, wie Devin Planung, Bearbeitung und Selbstkorrektur miteinander verknüpft. Von dort aus können Sie auf weitere Aufgaben skalieren und seine Nutzung feinabstimmen (zum Beispiel benutzerdefinierte Playbooks für Ihren Bereich). Obwohl Devin sich noch weiterentwickelt, stellt es einen großen Sprung in den KI-Tools dar. Indem Teams heute seinen Workflow erlernen, können sie sich auf eine Ära vorbereiten, in der Codierungsaufgaben wirklich mit einem KI-Teammitglied geteilt werden können.

Erhalten Sie neue KI-Kodierungsforschung und Podcast-Episoden

Abonnieren Sie, um neue Forschungsupdates und Podcast-Episoden über KI-Kodierungstools, KI-App-Builder, No-Code-Tools, Vibe-Kodierung und den Aufbau von Online-Produkten mit KI zu erhalten.