Indblik i Devins Workflow: Værktøjsbrug, Planlægning og Autonomi

Indblik i Devins Workflow: Værktøjsbrug, Planlægning og Autonomi

26. april 2026

Introduktion

Devin (fra Cognition AI) er en ny autonom AI-softwareingeniør, der kan planlægge softwareudviklingsopgaver og udføre dem stort set på egen hånd. Den arbejder ende-til-ende på kode-projekter, ved at bruge værktøjer som en kodeeditor, en kommandolinjeskal og en webbrowser til at researche, skrive, teste og implementere kode. I demoer og presse er Devin blevet vist, hvor den scanner en kodebase, genererer en plan, redigerer filer, kører tests og opretter pull requests med overraskende lidt menneskelig input (medium.com) (www.linkedin.com). Cognition hævder, at Devin kan håndtere “komplekse ingeniøropgaver, der kræver tusindvis af beslutninger,” ved at huske kontekst ved hvert trin og endda lære af fejl (medium.com) (www.linkedin.com). Vi udforsker derfor de offentligt tilgængelige detaljer om Devins design og workflow. Dette inkluderer, hvordan Devin nedbryder opgaver (dens planlægningsproces), hvordan den bogstaveligt talt arbejder i et udviklingsmiljø (editor, terminal, browser), hvordan den bevarer hukommelse eller kontekst på tværs af en kodningssession, hvordan den selvrettiger og itererer, og hvilke sikkerhedsforanstaltninger eller 'guardrails' den bruger. Vi bemærker også, hvad der ikke afsløres – for eksempel er de præcise modelinterner ikke offentliggjort, så en del af samfundsdiskussionen er baseret på kvalificeret gætværk.

Opgaveplanlægning og -nedbrydning

Når en udvikler giver Devin en ny opgave, er første skridt planlægning af, hvilke filer der skal ændres, og i hvilken rækkefølge. Cognitions noter forklarer, at Devin bruger en "planlægningsmodus" sub-agent, hvis opgave er at finde ud af, hvilke filer i repository'et der er relevante for opgaven (medium.com) (docs.devin.ai). I praksis "undersøger" Devin repository'et og foreslår en plan, før den skriver nogen kode (docs.devin.ai) (docs.devin.ai). For komplekse opgaver ser udviklere denne plan og kan godkende eller justere den; hvis Agency-tilstanden er aktiveret, fortsætter Devin automatisk med sin plan uden at vente på godkendelse (docs.devin.ai) (docs.devin.ai).

Bag kulisserne trænede Cognition denne planlægningsagent med forstærkningslæring. I en analyse beskriver holdet, hvordan planlæggeren kun fik læse-eneste-værktøjer (som ls, grep eller read_file) og blev belønnet, når den korrekt forudsagde det sæt filer, et menneske ville redigere (medium.com) (medium.com). Resultatet: Devins planlægger lærer at udstede parallelle filsystemforespørgsler (f.eks. at køre ls og grep på forskellige mapper på én gang) og derefter indsnævre lovende spor (medium.com). Træningsstraffen tilskynder effektivitet, så agenten undgår brute-force (f.eks. at greppe hele repository'et i det uendelige) og "committer" i stedet hurtigt, når den finder et mål (medium.com). Dette betyder, at Devins planlægning er datadrevet: den har lært generiske strategier for kodebasenavigation (som Cognition bemærker, blev modellen trænet på mange repos og brugerforespørgsler) (medium.com) (medium.com).

På brugerniveau ser du resultatet som en oversigt over trin. For eksempel, med en ny feature-anmodning vil Devin foreslå noget i stil med "ændre fil A for at implementere X, tilføje tests i fil B, derefter opdatere konfiguration C." I demoer, hvis en bruger glemte at specificere nogle detaljer, fanger Devins planlægningstrin det ofte og beder om afklaring. I en demo tilføjede assistenten automatisk konfiguration af en GitHub-konto til planen, selvom brugeren ikke eksplicit nævnte det (www.developersdigest.tech) (www.linkedin.com). Disse planlægningstrin (stille spørgsmål, liste opgaver, kortlægge filer) udføres alle inden for Devins dialoggrænseflade, før nogen kode skrives. Hvis brugeren godkender, eller auto-godkendelse er slået til, går Devin videre til eksekvering.

Arbejde i et udviklingsmiljø: Editor, Terminal og Browser

Devin opererer inden for et sandboxed udviklingsmiljø. Cognitions materialer beskriver det som havende et velkendt udviklerværktøjssæt: en shell terminal, en kodeeditor og en webbrowser alt til dens rådighed (medium.com) (docs.devin.ai). I praksis, når Devin kører, logges alt, hvad den gør, og er synligt i web-brugerfladen. En "Følg Devin"-visning fremhæver hver handling (såsom en filredigering eller shell-kommando) og lader endda et menneske klikke på et ikon for at springe direkte ind i enten kodeeditoren eller terminalen, hvor handlingen fandt sted (docs.devin.ai). For eksempel, hvis Devin redigerer en JavaScript-fil, kan en bruger klikke for at se VSCode-editorvisningen med ændringerne, eller hvis Devin kører en shell-kommando, klikke for at se terminaloutputtet.

Du kan også manuelt hoppe ind i Devins arbejdsområde, hvis du ønsker det. En nylig opdatering tilføjede en knap "Brug Devins maskine", der åbner Devins miljø i VSCode via internettet (docs.devin.ai). Dette betyder, at en udvikler kan kigge på Devins filer, køre kommandoer eller endda håndredigere kode i dens arbejdsområde. (For langvarige opgaver er dette praktisk, hvis du vil inspicere noget undervejs.) I et eksempel aktiverede en bruger dette for at se Devin oprette UI-elementer: brugeren åbnede bogstaveligt talt Devins VSCode, så de nye filer, Devin skrev, og kunne udforske brugergrænsefladen live.

Browser-værktøjet lader Devin researche eller teste ting på internettet. I demoer ses Devin bruge websøgning til at slå dokumentation eller biblioteker op, og endda køre den lokale webserver for at kontrollere, at dens kode ikke er brudt (f.eks. vil den pege en browser mod localhost for at verificere, at brugergrænsefladen virker). Alt i alt er Devins interface multimodalt: det kan tage input som tekstprompts, vedhæftede designbilleder eller dokumenter, og endda kodeuddrag, og det interagerer via både chat og disse udviklerværktøjer (www.developersdigest.tech) (medium.com). Resultatet er en oplevelse, der er meget tættere på "en kollega, der skriver kode" end en statisk chat med en AI.

Hukommelse, Viden og Sessionskontekst

Devin holder styr på information på tværs af en session ved hjælp af et indbygget “Viden”-system. Tænk på Viden som en arbejdsområdenotesbog: Devin kan gemme tips, projektspecifikke instruktioner eller vigtig kontekst der og genkalde det senere. For eksempel beskriver dokumentationen workflows til at fæstne visse oplysninger, så Devin aldrig glemmer dem, såsom vigtige arkitektoniske begrænsninger eller kodningsstilguider (docs.devin.ai). Brugere kan redigere eller tilføje til denne vidensbank. Devin vil også automatisk generere nyttige noter: den scanner dit repository for at lære om kodestrukturen, komponenter og din dokumentation, og opbygger automatisk en "Repo Knowledge"-oversigt (docs.devin.ai) (docs.devin.ai). I praksis, efter du har kørt et par opgaver, kan Devin sige "Jeg bemærkede, at du ofte bruger React og Redux; jeg foreslår at tilføje det til Viden," og hvis du godkender, gemmes den information.

Under en session vil Devin opbevare relevant viden i arbejdshukommelsen. Cognition hævder, at den "genkalder relevant kontekst ved hvert trin" (www.linkedin.com). For eksempel, hvis den tidligere har lært, at du foretrækker Python 3.11, eller at din webapp bruger OAuth, vil den bringe den information ind i prompts efter behov. Sessionen er i sagens natur lang og tilstandsbaseret: du kan tale med Devin i snesevis af omgange (minutter eller mere), mens den redigerer mange filer, og den bevarer chathistorikken. Hvis Devin nogensinde går i stykker, kan du rulle i loggen eller slå "fremskridtstilstand" til for at se hver handling, den foretog sig.

Hvis din session slutter (for eksempel, hvis du stopper opgaven eller afslutter), glemmer Devin den kørende tilstand af den maskine, og dens virtuelle maskine nulstilles til et basis-snapshot næste gang (docs.devin.ai). Som standard inkluderer denne basistilstand de repositories, du har forhåndsindlæst i dit arbejdsområde, så Devin ikke behøver at klone fra bunden hver gang (docs.devin.ai). (Uden opsætning af arbejdsområde ville hver session starte med en tom maskine, så Cognition understreger vigtigheden af at forhåndskonfigurere dit repo for hastighed (docs.devin.ai).) Men ud over kode fører Devin viden videre via sin vidensbank. Den vil bede dig om at tilføje erfaringer eller definitioner, der virker nyttige for fremtidige opgaver (docs.devin.ai). Over flere sessioner betyder dette, at Devin gradvist opbygger en hukommelse om dit projekts konventioner og arkitektur.

Udover Viden har Cognition udgivet DeepWiki, et relateret værktøj, der indekserer hele kodebaser og tilbyder en chatgrænseflade ovenpå dem (medium.com). Selvom DeepWiki er et separat produkt, antyder det den bredere arkitektur: Devin kan forespørge sin egen eller en ekstern wiki af koden for at besvare spørgsmål. I praksis, hvis du spørger Devin noget om koden, kan den internt bruge de samme genfindingssystemer som DeepWiki til at fundere sine svar.

Autonomi, Iteration og Selvreparation

Devin er designet til at være autonom, men med feedback-loops, når det er nødvendigt. Efter planlægningen udfører den trin for trin og kontrollerer konstant for fejl. I demoer følger agenten ofte dette mønster: den bruger browseren eller dokumentationen til at forstå et problem, skriver noget kode, kører det, ser en fejl og søger derefter efter, hvordan den løses – efterligner en menneskelig fejlfindingscyklus (www.developersdigest.tech) (www.linkedin.com). For eksempel viser en præsentator Devin tilføje en loginformular, derefter køre front-end-testen, finde en bug, og gå tilbage for at researche, hvordan den fejl rettes. Hver af Devins "ture" er en løkke af tænk → handl → observer → korriger.

Flere kilder bemærker, at Devin har indbygget "selvreparation" (medium.com) (www.linkedin.com). Faktisk nævner Cognition-bloggen med GPT-5, at GPT-5 "er god til at forstå fejl og rette sig selv," hvilket de fremhæver som værende fantastisk til lange opgaver (www.linkedin.com). Med andre ord, hvis Devins kode ikke kompilerer eller fejler en test, vil modellen (ofte GPT-5 eller lignende) se fejlmeddelelsen og finde en løsning på farten. Den er endda i stand til gentagelsesløkker: hvis en handling delvist lykkes, kan Devin lave et andet forsøg. Disse løkker er synlige i brugergrænsefladen som gentagne redigerings- og kørselssekvenser.

For systematisk at håndtere fejl bruger Devin en blanding af automatisering og menneskelig overvågning. For eksempel, hvis Devin åbner en pull request og modtager en CI-fejl eller en kodereview-kommentar, vil Cognitions system automatisk vække Devin fra søvn og få den til at håndtere problemet (docs.devin.ai) (docs.devinenterprise.com). Som standard reagerer Devin på lint-fejl eller kommentarer, selvom brugere kan deaktivere dette. Brugergrænsefladen fremhæver også dens status og handlinger i realtid, så en udvikler kan gribe ind når som helst. Udviklere opfordres til at overvåge de første par kørsler i "live mode" (hvor hvert trin vises) for at opbygge tillid, og derefter lade Devin køre fuldt "headless", når de er trygge (www.developersdigest.tech).

Sikkerhed, Værn og Tilpasning

Operatører kan give Devin eksplicitte instruktioner om, hvad den ikke skal gøre. En stærk funktion er "Forbudte Handlinger". Du kan liste ting, Devin ikke må røre ved – for eksempel, "PUSK IKKE direkte til main" eller "Rediger ikke fil X." Systemet sikrer, at Devin respekterer disse kommandoer, når de vises i prompten eller i en Playbook (docs.devin.ai). Ifølge release notes håndterer Devin nu lister over forbudte handlinger pålideligt, hvilket betyder, at den kontrollerer sine handlinger mod disse regler. Dette hjælper med at forhindre almindelige fejl som at ændre den forkerte gren eller fil.

Devin tilbyder også forskellige kontroller. I Slack eller web-brugerfladen kan du bede Devin om at "sove" (sætte arbejdet på pause) eller "arkivere" en session (docs.devin.ai). Du kan vælge, om Devin kræver din godkendelse, før den udfører en plan (via Agency-indstillingen), eller om den kører fuldt autonomt (docs.devin.ai) (docs.devin.ai). Dens computerbrug måles i Agent Compute Units (ACU'er), og brugergrænsefladen viser advarsler, hvis Devin er ved at ramme grænser, så du kan gribe ind eller tildele flere ressourcer (docs.devin.ai).

Hvis noget går galt bag kulisserne, har Cognition overvågning på plads. I tidligere udgivelser rapporterede nogle brugere, at Devin-sessioner "sad fast" eller styrtede. Teamet bemærker, at disse problemer er blevet løst, og tilbyder ACU-refusion, hvis Devin hænger (docs.devin.ai). Med andre ord instrumenterer virksomheden aktivt systemet for pålidelighed. Eksterne analytikere advarer om, at Devin, som enhver chatbaseret AI, lejlighedsvis kan producere fejl eller "hallucinere" kode. Den anbefalede praksis er at gennemgå dens output, som du ville gøre med en juniorudviklers arbejde. Af sikkerhedsmæssige årsager bruger mange teams kodereviews på Devins commits og begrænser Devins tilladelser (f.eks. ingen direkte adgang til hemmeligheder som standard). Indtil videre er de offentligt beskrevne sikkerhedsforanstaltninger for det meste brugerdefinerede (forbudte handlinger, krav om plan godkendelse osv.) og systemhelbredskontroller, snarere end indbyggede etiske filtre.

Hvad vi (endnu) ikke ved

Cognition har bevidst holdt nogle detaljer internt, så dele af Devin er uigennemsigtige. For eksempel var den præcise store sprogmodel, den bruger, oprindeligt ikke offentlig. Rygter og senere opslag antyder, at Cognition nu integrerer GPT-5 i Devin til dens planlægnings- og ræsonnementskerne (www.linkedin.com), og de har en preview-agent baseret på Claude Sonnet 4.5 (docs.devinenterprise.com). Men den fulde arkitektur er uklar: Devin orkestrerer sandsynligvis flere modeller og har tilpasset finjustering (som antydet af RFT-planlægningssubagenten), men disse lag er ikke open-sourced.

Vi kender heller ikke fuldt ud grænserne for dens hukommelse. Devin hævder at "lære over tid," men hvordan den smelter ny viden ind i sit eksisterende netværk (i modsætning til blot at gemme det i vidensbanken) er uspecificeret. Den maksimale længde af samtalens historik, den effektivt bruger, er ikke dokumenteret. Når en session er meget lang, er det muligt, at tidligere dele af chat- eller kodekontekst bliver beskåret bag kulisserne. Praktisk talt holder de fleste brugere prompts og kode kortfattet for at undgå kontekstoverbelastning.

På sikkerhedssiden er der stadig nogle ukendte faktorer. For eksempel, mens "forbudte handlinger" dækker brugerspecifikke regler, er det ikke klart, om Devin har nogen implicit sikkerhedslag (såsom detektion af misbrug af data, bias-kontrol eller sandbox-udslip). Da den kører i en VM, håber man, at den ikke kan beskadige værtssystemer, men detaljer om denne sandboxing er ikke offentlige. Fællesskabet udleder, at Devins maskine sandsynligvis bruger container-snapshots (som nævnt for RL-træningen) til at isolere kørsler (medium.com).

Endelig holder mange i fællesskabet øje med, hvordan Devin håndterer tvetydige eller åbne opgaver. Salgsargumentet kalder den "fuldt autonom", men analytikere bemærker, at den stadig ofte kræver præcise instruktioner. For eksempel, hvis brugerens prompt er vag, kan Devin generere en plan, der virker rimelig, men overser vigtige kanttilfælde. Den kan stille afklarende spørgsmål i opfølgningen, men udviklere undrer sig nogle gange over, hvor godt den forstår hensigten versus blot mønstergenkendelse på kode. Disse aspekter af Devins kognition afhænger af den underliggende LLM's kapaciteter, som vi kun observerer indirekte. Kort sagt, brugere bør betragte Devin mere som en højt kvalificeret junioringeniør end en produktchef – den planlægger godt, men forstår måske ikke altid din hensigt perfekt.

Kom i gang med Devin

Devin er primært rettet mod ingeniørteams, der udfører meget kodningsarbejde. Den udmærker sig ved klart definerede opgaver: at bygge funktioner ud fra specifikationer, refaktorering, skrive tests og rette fejl. Den er mindre velbevist inden for high-level design eller meget dårligt definerede problemer. For et softwareteam kan Devin hjælpe med at udføre rutinearbejde, så mennesker kan fokusere på den kreative arkitektur og overvågning.

For ikke-kodere eller nytilkomne kan Devin stadig være nyttig, men kræver en vis opsætning. Det første skridt er at give Devin adgang til dit kodearkiv (via GitHub, GitLab osv.) og måske forbinde den i Slack eller Teams. Prøv derefter en simpel opgave. Spørg for eksempel: “Devin, tilføj en ny side til at liste alle produkter fra vores database i web-brugerfladen, inklusive testdækning.” Se planlægningsfasens dialog: Devin vil skitsere, hvilke filer der skal ændres (f.eks. HTML-skabelon, backend API-kode osv.) og stille eventuelle nødvendige spørgsmål. Godkend planen (eller lad den køre automatisk), og se den udføre. Brug "Følg"-panelet til at se hvert trin: du vil se filredigeringer, shell-kommandoer (som at køre test-suites) og browser-snapshots af brugergrænsefladen. Hvis Devin laver en fejl, eller du ønsker en ændring, skal du blot interagere, som du ville gøre i chatten (“Faktisk, brug dette CSS-tema” eller “produktets titel skal være i store bogstaver”), og Devin vil starte en ny redigeringsløkke.

Nøglen til handlingsvenlig handling er at iterere og gennemgå. Kontroller altid koden Devin producerer og test den lokalt. Over tid kan du berige vidensbanken: add noter som “Vores database bruger PostgreSQL 13” eller “Vi følger PSR-12-stil i PHP”. Devin vil begynde at inkorporere disse i fremtidige sessioner. Udforsk også indstillingerne: slå Agency fra, hvis du altid vil gennemgå forslag, eller slå det til, hvis du stoler mere på den. Knyt Devin til din CI for automatisk pull request-gennemgang, men start med notifikationer, så du kan se, hvordan den håndterer feedback.

I sidste ende er Devins workflow tæt og kraftfuldt, men det er stadig afhængigt af dig for vejledning. Ved at forstå, hvordan den planlægger, bruger værktøjer og lærer af feedback (som beskrevet ovenfor), kan du få mest muligt ud af denne nye klasse af agentisk kodningsassistent. Det bedste næste skridt for et team, der er interesseret i Devin, er at tilmelde sig på devin.ai og køre en lille pilot: tilføj et web-repo, bed Devin om at implementere en funktion, og lad den køre i fremskridtstilstand. Observer den fulde "tænkning"-spor – den praktiske erfaring vil præcisere, hvordan Devin væver planlægning, redigering og selvreparation sammen. Derfra kan du skalere op til flere opgaver og finjustere dens brug (for eksempel, brugerdefinerede playbooks for dit domæne). Selvom den stadig udvikler sig, repræsenterer Devin et stort spring inden for AI-værktøjer. Ved at lære dens workflow i dag kan teams forberede sig på en æra, hvor kodningsopgaver virkelig kan deles med en AI-kollega.

Få ny AI-kodningsforskning og podcast-episoder

Abonner for at modtage nye forskningsopdateringer og podcast-episoder om AI-kodningsværktøjer, AI-appbyggere, no-code-værktøjer, vibe-kodning og opbygning af onlineprodukter med AI.