Innsikt i Devins arbeidsflyt: Verktøybruk, planlegging og autonomi

26. april 2026

AI-kodeassistent autonom utvikler Cognition AI Devin-agent AI for oppgaveplanlegging utviklerverktøy AI-minne sikkerhetsmekanismer

Introduksjon

Devin (fra Cognition AI) er en ny autonom AI-programvareingeniør som kan planlegge programvareutviklingsoppgaver og utføre dem stort sett på egen hånd. Den jobber ende-til-ende med kode-prosjekter, og bruker verktøy som en kodeeditor, et kommandolinjeskall og en nettleser til å undersøke, skrive, teste og distribuere kode. I demoer og i pressen har Devin blitt vist å skanne en kodebase, generere en plan, redigere filer, kjøre tester og lage pull requests med overraskende lite menneskelig innblanding (medium.com) (www.linkedin.com). Cognition hevder Devin kan håndtere «komplekse ingeniøroppgaver som krever tusenvis av beslutninger,» ved å huske kontekst i hvert trinn og til og med lære av feil (medium.com) (www.linkedin.com). Vi utforsker derfor de offentlige detaljene om Devins design og arbeidsflyt. Dette inkluderer hvordan Devin bryter ned oppgaver (planleggingsprosessen), hvordan den bokstavelig talt fungerer i et utviklermiljø (editor, terminal, nettleser), hvordan den beholder minne eller kontekst gjennom en kodesesjon, hvordan den selvkorrigerer og itererer, og hvilke sikkerhetstiltak eller retningslinjer den bruker. Vi merker oss også hva som ikke er avslørt – for eksempel er de eksakte modellinterne detaljene ikke offentliggjort, så noe av fellesskapsdiskusjonen baserer seg på kvalifisert gjetning.

Oppgaveplanlegging og dekomponering

Når en utvikler gir Devin en ny oppgave, er første skritt planlegging av hvilke filer som skal endres og i hvilken rekkefølge. Cognitions notater forklarer at Devin bruker en «planleggingsmodus» underagent hvis jobb er å finne ut hvilke filer i repositoriet som er relevante for oppgaven (medium.com) (docs.devin.ai). I praksis «undersøker» Devin repositoriet og foreslår en plan før den skriver kode (docs.devin.ai) (docs.devin.ai). For komplekse oppgaver ser utviklere denne planen og kan godkjenne eller justere den; hvis Agency-modus er aktivert, vil Devin automatisk fortsette med planen uten å vente på godkjenning (docs.devin.ai) (docs.devin.ai).

Bak kulissene trente Cognition denne planleggingsagenten med forsterkningslæring. I en analyse beskriver teamet at de ga planleggeren kun skrivebeskyttede verktøy (som ls, grep eller read_file) og belønnet den når den korrekt forutsa hvilke filer et menneske ville redigere (medium.com) (medium.com). Resultatet: Devins planlegger lærer å utstede parallelle filsystemspørringer (f.eks. kjøre ls og grep på forskjellige kataloger samtidig) og deretter snevre inn lovende spor (medium.com). Treningsstraffen oppmuntrer til effektivitet, slik at agenten unngår brute-force (f.eks. å grep-e hele repositoriet i det uendelige) og i stedet raskt «forplikter seg» når den finner et mål (medium.com). Dette betyr at Devins planlegging er datadrevet: den har lært generiske navigasjonsstrategier for kodebaser (som Cognition bemerker, modellen ble trent på mange repositorier og brukerforespørsler) (medium.com) (medium.com).

På et brukernivå ser du resultatet som en oversikt over trinn. For eksempel, med en ny funksjonsforespørsel vil Devin foreslå noe sånt som «endre fil A for å implementere X, legge til tester i fil B, og deretter oppdatere konfigurasjon C.» I demoer, hvis en bruker glemte å spesifisere noen detaljer, fanger Devins planleggingstrinn det ofte opp og ber om avklaring. I ett eksempel la assistenten automatisk til konfigurasjon av en GitHub-konto i planen selv om brukeren ikke nevnte det eksplisitt (www.developersdigest.tech) (www.linkedin.com). Disse planleggingstrinnene (stille spørsmål, liste opp oppgaver, kartlegge filer) utføres alle innenfor Devins dialoggrensesnitt før kode skrives. Hvis brukeren godtar eller automatisk godkjenning er aktivert, går Devin videre til utførelse.

Arbeid i et utviklermiljø: Editor, terminal og nettleser

Devin opererer innenfor et sandboxed utviklermiljø. Cognitions materiale beskriver den som å ha et kjent utviklerverktøysett: en shell-terminal, en kodeeditor og en nettleser til sin disposisjon (medium.com) (docs.devin.ai). I praksis, når Devin kjører, logges alt den gjør og er synlig i web-grensesnittet. En «Følg Devin»-visning fremhever hver handling (som en filredigering eller shell-kommando) og lar til og med et menneske klikke på et ikon for å hoppe direkte inn i enten kodeeditoren eller terminalen der handlingen fant sted (docs.devin.ai). For eksempel, hvis Devin redigerer en JavaScript-fil, kan en bruker klikke for å se VSCode-editorvisningen med endringene, eller hvis Devin kjører en shell-kommando, klikke for å se terminalutdataen.

Du kan også manuelt hoppe inn i Devins arbeidsområde hvis du vil. En nylig oppdatering la til en «Bruk Devins Maskin»-knapp som åpner Devins miljø i VSCode over nettet (docs.devin.ai). Dette betyr at en utvikler kan kikke på Devins filer, kjøre kommandoer, eller til og med manuelt redigere kode i arbeidsområdet. (For langvarige oppgaver er dette praktisk hvis du vil inspisere noe underveis.) I ett eksempel aktiverte en bruker dette for å se Devin lage UI-elementer: brukeren åpnet bokstavelig talt Devins VSCode, så de nye filene Devin skrev, og kunne utforske UI-et live.

Nettleser-verktøyet lar Devin undersøke eller teste ting på internett. I demoer ses Devin bruke nettsøk for å slå opp dokumentasjon eller biblioteker, og til og med kjøre den lokale webserveren for å sjekke at koden ikke er ødelagt (f.eks. vil den peke en nettleser mot localhost for å verifisere at UI fungerer). Alt i alt er Devins grensesnitt multimodalt: det kan ta innspill som tekstmeldinger, vedlagte designbilder eller dokumenter, og til og med kodebiter, og det interagerer gjennom både chat og disse utviklerverktøyene (www.developersdigest.tech) (medium.com). Resultatet er en opplevelse som er mye nærmere «en kollega som skriver kode» enn en statisk chat med en AI.

Minne, kunnskap og sesjonskontekst

Devin holder oversikt over informasjon gjennom en sesjon ved hjelp av et innebygd «Kunnskap»-system. Tenk på Kunnskap som en arbeidsområde-notatbok: Devin kan lagre tips, prosjektspesifikke instruksjoner eller viktig kontekst der, og hente det frem senere. For eksempel beskriver dokumentasjonen arbeidsflyter for å feste spesifikk kunnskap slik at Devin aldri glemmer den, som viktige arkitektoniske begrensninger eller kodestilguider (docs.devin.ai). Brukere kan redigere eller legge til i denne kunnskapsbasen. Devin vil også automatisk generere nyttige notater: den skanner repositoriet ditt for å lære om kodestrukturen, komponentene og dokumentasjonen din, og bygger automatisk et «Repo Knowledge»-sammendrag (docs.devin.ai) (docs.devin.ai). I praksis, etter at du har kjørt noen oppgaver, kan Devin si «Jeg la merke til at du ofte bruker React og Redux; jeg foreslår å legge det til i Kunnskap,» og hvis du godkjenner, lagres den informasjonen.

Under en sesjon vil Devin holde relevant kunnskap i arbeidsminnet. Cognition hevder den «husker relevant kontekst i hvert trinn» (www.linkedin.com). For eksempel, hvis den tidligere har lært at du foretrekker Python 3.11 eller at nettappen din bruker OAuth, vil den ta med den informasjonen i meldinger etter behov. Sesjonen er iboende lang og tilstandsbasert: du kan snakke med Devin i dusinvis av runder (minutter eller mer) mens den redigerer mange filer, og den beholder chatloggen. Hvis Devin noensinne feiler, kan du bla gjennom loggen eller slå på «fremdriftsmodus» for å se hver handling den utførte.

Hvis sesjonen din avsluttes (for eksempel hvis du stopper oppgaven eller avslutter), glemmer Devin maskinens kjørende tilstand, og den virtuelle maskinen tilbakestilles til et basesnapshot neste gang (docs.devin.ai). Som standard inkluderer denne basetilstanden repositoriene du har forhåndslastet i arbeidsområdet ditt, slik at Devin ikke trenger å klone fra bunnen av hver gang (docs.devin.ai). (Uten oppsett av arbeidsområde ville hver sesjon starte med en tom maskin, så Cognition fremhever forhåndskonfigurering av repositoriet ditt for hastighet (docs.devin.ai).) Men utover kode viderefører Devin kunnskap via sin Kunnskapsbank. Den vil be deg om å legge til lærdommer eller definisjoner som virker nyttige for fremtidige oppgaver (docs.devin.ai). Over flere sesjoner betyr dette at Devin gradvis bygger opp et minne om prosjektets konvensjoner og arkitektur.

I tillegg til Kunnskap, har Cognition lansert DeepWiki, et relatert verktøy som indekserer hele kodebaser og tilbyr et chatgrensesnitt på toppen av dem (medium.com). Selv om DeepWiki er et eget produkt, antyder det den bredere arkitekturen: Devin kan spørre sin egen eller en ekstern kode-wiki for å svare på spørsmål. I praksis, hvis du spør Devin noe om koden, kan den internt bruke de samme gjenfinningssystemene som DeepWiki for å underbygge svarene sine.

Autonomi, iterasjon og selvkorreksjon

Devin er designet for å være autonom, men med tilbakemeldingsløkker når det er nødvendig. Etter planlegging utfører den trinn for trinn, og sjekker hele tiden for feil. I demoer følger agenten ofte dette mønsteret: den bruker nettleseren eller dokumentasjonen for å forstå et problem, skriver litt kode, kjører den, ser en feil, og ser deretter opp hvordan den skal fikses – og etterligner en menneskelig feilsøkingssyklus (www.developersdigest.tech) (www.linkedin.com). For eksempel, en presentatør viser Devin som legger til et påloggingsskjema, deretter kjører front-end-testen, finner en feil, og går tilbake for å undersøke hvordan den feilen skal fikses. Hver av Devins «runder» er en løkke av tenk → handle → observer → korriger.

Flere kilder bemerker at Devin har innebygd «selvkorreksjon» (medium.com) (www.linkedin.com). Faktisk nevner Cognition-bloggen med GPT-5 at GPT-5 «er flink til å forstå feil og korrigere seg selv», noe de fremhever som flott for lange oppgaver (www.linkedin.com). Med andre ord, hvis Devins kode ikke kompilerer eller feiler en test, vil modellen (ofte GPT-5 eller lignende) se feilmeldingen og finne en løsning på sparket. Den er til og med i stand til gjentatte forsøksløkker: hvis en handling delvis lykkes, kan Devin gjøre et nytt forsøk. Disse løkkene er synlige i brukergrensesnittet som gjentatte rediger-og-kjør-sekvenser.

For å systematisk håndtere feil, bruker Devin en blanding av automatisering og menneskelig tilsyn. For eksempel, hvis Devin åpner en pull request og mottar en CI-feil eller en kodekommentar, vil Cognitions system automatisk vekke Devin fra dvale og få den til å håndtere problemet (docs.devin.ai) (docs.devinenterprise.com). Som standard reagerer Devin på lint-feil eller kommentarer, selv om brukere kan deaktivere dette. Brukergrensesnittet fremhever også dens status og handlinger i sanntid, slik at en utvikler kan gripe inn når som helst. Utviklere oppfordres til å se de første kjøringene i «live-modus» (hvor hvert trinn vises) for å bygge tillit, og deretter la Devin kjøre helt hodeløst når de er trygge (www.developersdigest.tech).

Sikkerhet, retningslinjer og tilpasning

Operatører kan gi Devin eksplisitte instruksjoner om hva den ikke skal gjøre. En kraftig funksjon er «Forbudte handlinger». Du kan liste opp ting Devin ikke har lov til å røre – for eksempel, «IKKE push direkte til main» eller «Ikke rediger fil X.» Systemet sørger for at Devin respekterer disse kommandoene når de vises i meldingen eller i en Playbook (docs.devin.ai). Ifølge utgivelsesnotater håndterer Devin nå lister over forbudte handlinger pålitelig, noe som betyr at den sjekker sine handlinger mot disse reglene. Dette bidrar til å forhindre vanlige feil som å endre feil gren eller fil.

Devin tilbyr også ulike kontroller. I Slack eller web-grensesnittet kan du be Devin om å «sove» (pause arbeidet) eller «arkivere» en sesjon (docs.devin.ai). Du kan velge om Devin krever din godkjenning før den utfører en plan (via Agency-innstillingen) eller kjører helt autonomt (docs.devin.ai) (docs.devin.ai). Dens databehandlingsbruk måles i Agent Compute Units (ACUs), og brukergrensesnittet viser advarsler hvis Devin er i ferd med å nå grenser, slik at du kan gripe inn eller tildele flere ressurser (docs.devin.ai).

Hvis noe går galt bak kulissene, har Cognition overvåking på plass. I tidligere utgivelser rapporterte noen brukere om «fastlåste» eller krasjede Devin-sesjoner. Teamet bemerker at disse problemene er løst og tilbyr ACU-refusjon hvis Devin henger seg opp (docs.devin.ai). Med andre ord, selskapet instrumenterer systemet aktivt for pålitelighet. Eksterne analytikere advarer om at Devin, som enhver chat-basert AI, kan produsere feil eller «hallusinere» kode av og til. Anbefalt praksis er å gå gjennom resultatene som du ville gjort med en juniorutviklers arbeid. For sikkerhets skyld bruker mange team koderevisjoner på Devins commits, og begrenser Devins tillatelser (f.eks. ingen direkte tilgang til hemmeligheter som standard). Så langt er de offentlig beskrevne sikkerhetsmekanismene hovedsakelig brukerdefinerte (forbudte handlinger, krav om plan approval osv.) og systemhelsesjekker, snarere enn innebygde etiske filtre.

Hva vi (ennå) ikke vet

Cognition har med vilje holdt noen detaljer interne, så deler av Devin er uklare. For eksempel var den nøyaktige store språkmodellen den bruker, ikke offentlig i utgangspunktet. Ryktet og senere innlegg antyder at Cognition nå integrerer GPT-5 i Devin for dens planleggings- og resonnementkjerne (www.linkedin.com), og de har en forhåndsvisningsagent basert på Claude Sonnet 4.5 (docs.devinenterprise.com). Men den fulle arkitekturen er uklar: Devin orkestrerer sannsynligvis flere modeller og har tilpasset finjustering (som antydet av RFT-planleggingssubagenten), men disse lagene er ikke åpen kildekode.

Vi kjenner heller ikke fullt ut grensene for dens minne. Devin hevder å «lære over tid», men hvordan den slår sammen ny kunnskap i sitt eksisterende nettverk (i motsetning til bare å lagre det i Kunnskapsbanken) er uspesifisert. Maksimal lengde på samtaleloggen den effektivt bruker er ikke dokumentert. Når en sesjon er veldig lang, er det mulig at tidligere deler av chat- eller kodekonteksten blir trimmet bak kulissene. I praksis holder de fleste brukere meldinger og kode konsise for å unngå kontekstoverbelastning.

På sikkerhetssiden gjenstår noen ukjente faktorer. For eksempel, mens «forbudte handlinger» dekker brukerdefinerte regler, er det ikke klart om Devin har noen implisitte sikkerhetslag (som å oppdage misbruk av data, skjevhetskontroller eller sandbox-unnslipp). Siden den kjører i en VM, håper man at den ikke kan skade vertssystemer, men detaljer om denne sandboxing er ikke offentlig. Fellesskapet antar at Devins maskin sannsynligvis bruker container-snapshots (som nevnt for RL-treningen) for å isolere kjøringer (medium.com).

Til slutt følger mange i fellesskapet med på hvordan Devin håndterer tvetydige eller åpne oppgaver. Salgsargumentet kaller den «fullt autonom», men analytikere bemerker at den fortsatt ofte trenger presise instruksjoner. For eksempel, hvis brukerens melding er vag, kan Devin generere en plan som virker rimelig, men overser viktige kanttilfeller. Den kan stille avklarende spørsmål i oppfølging, men utviklere lurer noen ganger på hvor godt den forstår intensjon versus bare mønstergjenkjenning på kode. Disse aspektene av Devins kognisjon er avhengige av den underliggende LLM-ens kapasiteter, som vi bare observerer indirekte. Kort sagt, brukere bør vurdere Devin mer som en svært dyktig junioringeniør enn en produktleder – den planlegger godt, men forstår kanskje ikke alltid din intensjon perfekt.

Kom i gang med Devin

Devin er hovedsakelig rettet mot ingeniørteam som gjør mye kode-arbeid. Den utmerker seg på klart definerte oppgaver: bygge funksjoner fra spesifikasjoner, refaktorere, skrive tester og fikse feil. Den er mindre bevist på høynivådesign eller svært dårlig definerte problemer. For et programvareteam kan Devin hjelpe til med rutinearbeid slik at mennesker kan fokusere på den kreative arkitekturen og tilsynet.

For ikke-kodere eller nykommere kan Devin fortsatt være nyttig, men krever litt oppsett. Første skritt er å gi Devin tilgang til kodelageret ditt (via GitHub, GitLab osv.) og kanskje koble den til i Slack eller Teams. Prøv deretter en enkel oppgave. Spør for eksempel: «Devin, legg til en ny side for å liste opp alle produkter fra databasen vår i web-grensesnittet, inkludert testdekning.» Følg dialogen i planleggingsfasen: Devin vil skissere hvilke filer som skal endres (f.eks. HTML-mal, backend API-kode osv.) og stille eventuelle nødvendige spørsmål. Godkjenn planen (eller la den kjøre automatisk), og se den utføre. Bruk «Følg»-panelet for å se hvert trinn: du vil se filredigeringer, shell-kommandoer (som å kjøre testsuiter), og nettleser-snapshots av UI-et. Hvis Devin gjør en feil eller du ønsker en endring, samhandler du ganske enkelt som du ville gjort i chat («Faktisk, bruk dette CSS-temaet» eller «produktets tittel skal være store bokstaver»), og Devin vil starte en ny redigeringsløkke.

Nøkkelsteget er å iterere og gjennomgå. Sjekk alltid koden Devin produserer og test den lokalt. Over tid kan du berike Kunnskapsbanken: legg til notater som «Databasen vår bruker PostgreSQL 13» eller «Vi følger PSR-12-stilen i PHP». Devin vil begynne å inkludere disse i fremtidige sesjoner. Utforsk også innstillingene: slå av Agency hvis du alltid vil godkjenne forslag, eller på hvis du stoler mer på den. Koble Devin til din CI for automatisk gjennomgang av pull requests, men start med varsler slik at du kan se hvordan den håndterer tilbakemelding.

Til syvende og sist er Devins arbeidsflyt tett og kraftfull, men den er fortsatt avhengig av deg for veiledning. Ved å forstå hvordan den planlegger, bruker verktøy og lærer av tilbakemeldinger (som beskrevet ovenfor), kan du få mest mulig ut av denne nye klassen av agentisk kodeassistent. Det beste neste skrittet for et team som er interessert i Devin, er å registrere seg på devin.ai og kjøre en liten pilot: legg til ett web-repositorium, be Devin om å implementere en funksjon, og la den kjøre i fremdriftsmodus. Observer hele «tenke»-sporet – den praktiske erfaringen vil tydeliggjøre nøyaktig hvordan Devin vever sammen planlegging, redigering og selvkorreksjon. Derfra kan du skalere opp til flere oppgaver og finjustere bruken (for eksempel, egendefinerte playbooks for ditt domene). Selv om den fortsatt er under utvikling, representerer Devin et stort sprang innen AI-verktøy. Ved å lære arbeidsflyten i dag, kan team forberede seg på en æra der kodingsoppgaver virkelig kan deles med en AI-kollega.

Få ny AI-koding Forskning og podcast-episoder

Abonner for å motta nye forskningsoppdateringer og podcast-episoder om AI-kodingverktøy, AI-appbyggere, no-code-verktøy, vibe-koding og bygging av onlineprodukter med AI.

← Tilbake til AI Builds It: Easy Coding Tools