Inblick i Devins arbetsflöde: Verktygsanvändning, planering och autonomi

Inblick i Devins arbetsflöde: Verktygsanvändning, planering och autonomi

26 april 2026

Introduktion

Devin (från Cognition AI) är en ny autonom AI-mjukvaruingenjör som kan planera mjukvaruutvecklingsuppgifter och utföra dem till stor del på egen hand. Den arbetar från början till slut med kodprojekt och använder verktyg som en kodredigerare, en kommandoradsterminal och en webbläsare för att forska, skriva, testa och driftsätta kod. I demonstrationer och press har Devin visats skanna en kodbas, generera en plan, redigera filer, köra tester och skicka pull-förfrågningar med förvånansvärt lite mänsklig input (medium.com) (www.linkedin.com). Cognition hävdar att Devin kan hantera ”komplexa ingenjörsuppgifter som kräver tusentals beslut,” komma ihåg sammanhang i varje steg och till och med lära sig av misstag (medium.com) (www.linkedin.com). Vi utforskar därför de offentliga detaljerna om Devins design och arbetsflöde. Detta inkluderar hur Devin bryter ner uppgifter (dess planeringsprocess), hur den bokstavligen arbetar i en utvecklingsmiljö (redigerare, terminal, webbläsare), hur den behåller minne eller kontext över en kodningssession, hur den självrättar och itererar, samt vilka skyddsräcken eller säkerhetsåtgärder den använder. Vi noterar också vad som inte avslöjas – till exempel är de exakta modellinterna detaljerna hemliga, så viss diskussion i gemenskapen bygger på kvalificerade gissningar.

Uppgiftsplanering och uppdelning

När en utvecklare ger Devin en ny uppgift, är första steget att planera vilka filer som ska ändras och i vilken ordning. Cognitions anteckningar förklarar att Devin använder en ”planeringsläge”-underagent vars jobb är att ta reda på vilka filer i förrådet som är relevanta för uppgiften (medium.com) (docs.devin.ai). I praktiken ”undersöker” Devin repot och föreslår en plan innan någon kod skrivs (docs.devin.ai) (docs.devin.ai). För komplexa uppgifter ser utvecklare denna plan och kan godkänna eller justera den; om Agency-läget är aktiverat, kommer Devin automatiskt att fortsätta med sin plan utan att vänta på godkännande (docs.devin.ai) (docs.devin.ai).

Bakom kulisserna tränade Cognition denna planeringsagent med förstärkningsinlärning. I en analys beskriver teamet att de gav planeraren endast endast-läs-verktyg (som ls, grep eller read_file) och belönade den när den korrekt förutsade uppsättningen filer som en människa skulle redigera (medium.com) (medium.com). Resultatet: Devins planerare lär sig att utfärda parallella filsystemfrågor (t.ex. köra ls och grep i olika kataloger samtidigt) och sedan begränsa lovande ledtrådar (medium.com). Träningsstraffet uppmuntrar effektivitet, så agenten undviker brute-force (t.ex. att greppa hela repot oändligt) och ”åtar sig” istället snabbt när den hittar ett mål (medium.com). Detta innebär att Devins planering är datadriven: den har lärt sig generiska strategier för kodbasnavigering (som Cognition noterar, modellen tränades på många repos och användarfrågor) (medium.com) (medium.com).

På användarnivå ser du resultatet som en översikt över stegen. Till exempel, med en ny funktionsförfrågan kommer Devin att föreslå något i stil med ”modifiera fil A för att implementera X, lägg till tester i fil B, uppdatera sedan konfiguration C.” I demonstrationer, om en användare glömde att specificera vissa detaljer, fångar Devins plansteg ofta upp det och ber om förtydligande. I en demo lade assistenten automatiskt till konfiguration av ett GitHub-konto i planen trots att användaren inte uttryckligen nämnde det (www.developersdigest.tech) (www.linkedin.com). Dessa planeringssteg (ställa frågor, lista uppgifter, mappa filer) görs alla inom Devins dialoggränssnitt innan någon kod skrivs. Om användaren godkänner eller om automatisk godkännande är på, går Devin vidare till exekvering.

Arbeta i en utvecklingsmiljö: Redigerare, Terminal och Webbläsare

Devin opererar inom en sandlådead utvecklingsmiljö. Cognitions material beskriver den som att den har ett välbekant utvecklarverktygskit: en skalterminal, en kodredigerare och en webbläsare till sitt förfogande (medium.com) (docs.devin.ai). I praktiken, när Devin körs, loggas och syns allt den gör i webbgränssnittet. En ”Följ Devin”-vy markerar varje åtgärd (som en filredigering eller ett skal-kommando) och låter till och med en människa klicka på en ikon för att hoppa direkt in i antingen kodredigeraren eller terminalen där den åtgärden inträffade (docs.devin.ai). Till exempel, om Devin redigerar en JavaScript-fil, kan en användare klicka för att se VSCode-redigeringsvyn med ändringarna, eller om Devin kör ett skal-kommando, klicka för att se terminalutskriften.

Du kan också manuellt hoppa in i Devins arbetsyta om du vill. En nylig uppdatering lade till en knapp ”Använd Devins maskin” som öppnar Devins miljö i VSCode via webben (docs.devin.ai). Detta innebär att en utvecklare kan titta på Devins filer, köra kommandon eller till och med handredigera kod i dess arbetsyta. (För långvariga uppgifter är detta bekvämt om du vill inspektera något mitt under körningen.) I ett exempel aktiverade en användare detta för att se Devin skapa UI-element: användaren öppnade bokstavligen Devins VSCode, såg de nya filerna Devin skrev och kunde utforska UI:et live.

Webbläsaren tillåter Devin att forska eller testa saker på internet. I demonstrationer ses Devin använda webbsökning för att leta upp dokumentation eller bibliotek, och till och med köra den lokala webbservern för att kontrollera att dess kod inte är trasig (t.ex. kommer den att peka en webbläsare mot localhost för att verifiera att användargränssnittet fungerar). Allt som allt är Devins gränssnitt multimodalt: det kan ta in input som textmeddelanden, bifogade designbilder eller dokument, och även kodsnuttar, och det interagerar genom både chatt och dessa utvecklarverktyg (www.developersdigest.tech) (medium.com). Resultatet är en upplevelse mycket närmare ”en kollega som skriver kod” än en statisk chatt med en AI.

Minne, kunskap och sessionskontext

Devin håller reda på information under en session med hjälp av ett inbyggt system för ”Kunskap”. Tänk på Kunskap som en arbetsytanteckningsbok: Devin kan lagra tips, projektspecifika instruktioner eller viktig kontext där, och hämta den senare. Till exempel beskriver dokumentationen arbetsflöden för att fästa viss kunskap så att Devin aldrig glömmer den, såsom viktiga arkitektoniska begränsningar eller kodstilguider (docs.devin.ai). Användare kan redigera eller lägga till i denna kunskapsbank. Devin kommer också att automatiskt generera användbara anteckningar: den skannar ditt förråd för att lära sig om kodstrukturen, komponenterna och din dokumentation, och bygger en sammanfattning av ”Repo-kunskap” automatiskt (docs.devin.ai) (docs.devin.ai). I praktiken, efter att du har kört några uppgifter, kanske Devin säger ”Jag märkte att du ofta använder React och Redux; jag föreslår att du lägger till det i Kunskap,” och om du godkänner, sparas den informationen.

Under en session kommer Devin att behålla relevant kunskap i arbetsminnet. Cognition hävdar att den ”återkallar relevant kontext i varje steg” (www.linkedin.com). Till exempel, om den tidigare har lärt sig att du föredrar Python 3.11 eller att din webbapp använder OAuth, kommer den att ta med den informationen i frågor vid behov. Sessionen är i sig lång och tillståndskänslig: du kan prata med Devin under dussintals vändor (minuter eller mer) medan den redigerar många filer, och den behåller chatthistoriken. Om Devin någonsin går sönder kan du scrolla loggen eller slå på ”framstegsläge” för att se varje åtgärd den utförde.

Om din session avslutas (till exempel om du stoppar uppgiften eller avslutar), glömmer Devin det körande tillståndet för den maskinen, och dess virtuella maskin återställs till en bas-snapshot nästa gång (docs.devin.ai). Som standard inkluderar detta basläge de förråd du har förladdat i din arbetsyta, så Devin behöver inte klona från grunden varje gång (docs.devin.ai). (Utan arbetsyteinställning skulle varje session börja med en tom maskin, så Cognition betonar att förkonfigurera ditt förråd för snabbhet (docs.devin.ai).) Men utöver kod för Devin kunskap framåt via sin kunskapsbank. Den kommer att uppmana dig att lägga till lärdomar eller definitioner som verkar användbara för framtida uppgifter (docs.devin.ai). Över flera sessioner innebär detta att Devin gradvis bygger upp ett minne av ditt projekts konventioner och arkitektur.

Utöver Kunskap har Cognition släppt DeepWiki, ett relaterat verktyg som indexerar hela kodbaser och tillhandahåller ett chattgränssnitt ovanpå dem (medium.com). Medan DeepWiki är en separat produkt, antyder det den bredare arkitekturen: Devin kan fråga sin egen eller en extern wiki om koden för att svara på frågor. I praktiken, om du frågar Devin något om koden, kan den internt använda samma hämtningssystem som DeepWiki för att grunda sina svar.

Autonomi, iteration och självrättelse

Devin är designad för att vara autonom, men med återkopplingsslingor vid behov. Efter planering utför den stegen ett efter ett, och kontrollerar ständigt efter fel. I demonstrationer följer agenten ofta detta mönster: den använder webbläsaren eller dokumentationen för att förstå ett problem, skriver lite kod, kör den, ser ett fel och söker sedan efter hur man åtgärdar det – imiterar en mänsklig felsökningscykel (www.developersdigest.tech) (www.linkedin.com). Till exempel visar en presentatör hur Devin lägger till ett inloggningsformulär, kör sedan front-end-testet, hittar en bugg och går tillbaka för att forska om hur man åtgärdar felet. Varje av Devins ”varv” är en slinga av tänk → agera → observera → korrigera.

Flera källor noterar att Devin har inbyggd ”självrättelse” (medium.com) (www.linkedin.com). Cognition-bloggen med GPT-5 nämner att GPT-5 ”är bra på att förstå fel och korrigera sig själv”, vilket de belyser som utmärkt för långa uppgifter (www.linkedin.com). Med andra ord, om Devins kod inte kompilerar eller misslyckas med ett test, kommer modellen (ofta GPT-5 eller liknande) att se felmeddelandet och ta reda på en lösning i farten. Den är till och med kapabel till omförsökslingor: om en åtgärd delvis lyckas, kan Devin göra ett andra försök. Dessa slingor är synliga i användargränssnittet som upprepade redigera-och-kör-sekvenser.

För att systematiskt hantera misslyckanden använder Devin en blandning av automatisering och mänsklig tillsyn. Till exempel, om Devin öppnar en pull-förfrågan och får ett CI-fel eller en kodgranskningskommentar, kommer Cognitions system automatiskt att väcka Devin från sömnen och låta den åtgärda problemet (docs.devin.ai) (docs.devinenterprise.com). Som standard svarar Devin på lint-fel eller kommentarer, även om användare kan inaktivera detta. Användargränssnittet markerar också dess status och åtgärder i realtid, så en utvecklare kan ingripa när som helst. Utvecklare uppmuntras att titta på de första körningarna i ”live-läge” (där varje steg visas) för att bygga förtroende, och sedan låta Devin köra helt headless när de är säkra (www.developersdigest.tech).

Säkerhet, skyddsräcken och anpassning

Operatörer kan ge Devin explicita instruktioner om vad den inte får göra. En kraftfull funktion är ”Förbjudna åtgärder”. Du kan lista saker Devin inte får röra – till exempel, ”TRYCK INTE direkt till main” eller ”Redigera inte fil X.” Systemet säkerställer att Devin respekterar dessa kommandon när de förekommer i prompten eller i en Playbook (docs.devin.ai). Enligt release notes hanterar Devin nu listor över förbjudna åtgärder tillförlitligt, vilket innebär att den kontrollerar sina åtgärder mot dessa regler. Detta hjälper till att förhindra vanliga misstag som att modifiera fel branch eller fil.

Devin tillhandahåller också olika kontroller. I Slack eller webbgränssnittet kan du be Devin att ”sova” (pausa arbetet) eller ”arkivera” en session (docs.devin.ai). Du kan välja om Devin kräver ditt godkännande innan den utför en plan (via Agency-inställningen) eller kör helt autonomt (docs.devin.ai) (docs.devin.ai). Dess beräkningsanvändning mäts i Agent Compute Units (ACU), och användargränssnittet visar varningar om Devin är på väg att nå gränser, så att du kan ingripa eller bevilja fler resurser (docs.devin.ai).

Om något går fel bakom kulisserna, har Cognition övervakning på plats. I tidigare releaser rapporterade vissa användare att Devin-sessioner ”fastnade” eller kraschade. Teamet noterar att dessa problem har åtgärdats och erbjuder ACU-återbetalningar om Devin hänger sig (docs.devin.ai). Med andra ord instrumenterar företaget aktivt systemet för tillförlitlighet. Externa analytiker varnar för att Devin, liksom alla chattbaserade AI:er, ibland kan producera misstag eller ”hallucinera” kod. Den rekommenderade metoden är att granska dess resultat som du skulle granska en junior utvecklares arbete. För säkerhets skull använder många team kodgranskningar på Devins commits och begränsar Devins behörigheter (t.ex. ingen direkt åtkomst till hemligheter som standard). Hittills är de offentligt beskrivna skyddsräckena mestadels användardefinierade (förbjudna åtgärder, kräver plan godkännande, etc.) och systemhälsoanalyser, snarare än inbyggda etiska filter.

Vad vi inte (ännu) vet

Cognition har avsiktligt hållit vissa detaljer interna, så delar av Devin är oklara. Till exempel var den exakta stora språkmodellen den använder inte initialt offentlig. Rykten och senare inlägg tyder på att Cognition nu integrerar GPT-5 i Devin för dess planerings- och resonemangskärna (www.linkedin.com), och de har en förhandsagent baserad på Claude Sonnet 4.5 (docs.devinenterprise.com). Men den fullständiga arkitekturen är oklar: Devin orkestrerar sannolikt flera modeller och har anpassad finjustering (som antyds av RFT-planeringens underagent), men dessa lager är inte öppen källkod.

Vi känner inte heller helt till gränserna för dess minne. Devin hävdar att den ”lär sig över tid”, men hur den sammanfogar ny kunskap i sitt befintliga nätverk (jämfört med att bara lagra det i kunskapsbanken) är ospecificerat. Den maximala längden på konversationshistoriken den effektivt använder är inte dokumenterad. När en session är mycket lång är det möjligt att tidigare delar av chatt- eller kodkontexten beskärs bakom kulisserna. Praktiskt sett håller de flesta användare prompts och kod kortfattade för att undvika kontextöverbelastning.

På säkerhetssidan återstår vissa oklarheter. Till exempel, medan ”förbjudna åtgärder” täcker användarspecifika regler, är det inte klart om Devin har några implicita säkerhetslager (som att upptäcka missbruk av data, partiskhetskontroller eller sandbox-utbrytningar). Eftersom den körs i en VM, hoppas man att den inte kan skada värdsystem, men detaljer om den sandlådan är inte offentliga. Gemenskapen drar slutsatsen att Devins maskin sannolikt använder container-snapshots (som nämnts för RL-träningen) för att isolera körningar (medium.com).

Slutligen tittar många i gemenskapen på hur Devin hanterar tvetydiga eller öppna uppgifter. Försäljningsargumentet kallar den ”helt autonom”, men analytiker noterar att den fortfarande ofta behöver precisa instruktioner. Till exempel, om användarens prompt är vag, kan Devin generera en plan som verkar rimlig men missar viktiga hörnfall. Den kan ställa förtydligande frågor i uppföljningen, men utvecklare undrar ibland hur väl den förstår intention jämfört med att bara mönstermatcha på kod. Dessa aspekter av Devins kognition förlitar sig på den underliggande LLM:s förmågor, vilka vi bara observerar indirekt. Kort sagt, användare bör bedöma Devin mer som en mycket skicklig junior ingenjör än en produktchef – den planerar väl, men kanske inte alltid förstår din intention perfekt.

Kom igång med Devin

Devin riktar sig främst till ingenjörsteam som utför mycket kodningsarbete. Den briljerar med tydligt definierade uppgifter: bygga funktioner från specifikationer, refaktorisera, skriva tester och fixa buggar. Den är mindre beprövad när det gäller högnivådesign eller mycket illa definierade problem. För ett mjukvaruteam kan Devin hjälpa till att avverka rutinarbete så att människor kan fokusera på den kreativa arkitekturen och övervakningen.

För icke-kodare eller nykomlingar kan Devin fortfarande vara användbar men kräver viss installation. Det första steget är att ge Devin åtkomst till ditt kodförråd (via GitHub, GitLab, etc.) och kanske koppla den till Slack eller Teams. Försök sedan med en enkel uppgift. Fråga till exempel: ”Devin, lägg till en ny sida för att lista alla produkter från vår databas i webbgränssnittet, inklusive testtäckning.” Titta på planeringsfasens dialog: Devin kommer att beskriva vilka filer som ska ändras (t.ex. HTML-mall, backend API-kod, etc.) och ställa eventuella nödvändiga frågor. Godkänn planen (eller låt den köra automatiskt), och se den utföras. Använd ”Följ”-panelen för att se varje steg: du kommer att se filredigeringar, skal-kommandon (som att köra testsviter) och webbläsar-snapshots av gränssnittet. Om Devin gör ett misstag eller om du vill ha en ändring, interagera helt enkelt som du skulle i chatten (”Faktiskt, använd detta CSS-tema” eller ”produkttiteln ska vara i versaler”), och Devin kommer att starta en ny redigeringsloop.

Det viktiga åtgärdssteget är att iterera och granska. Kontrollera alltid koden Devin producerar och testa den lokalt. Med tiden kan du berika kunskapsbanken: lägg till anteckningar som ”Vår databas använder PostgreSQL 13” eller ”Vi följer PSR-12-stil i PHP”. Devin kommer att börja införliva dessa i framtida sessioner. Utforska också inställningarna: stäng av Agency om du alltid vill granska förslag, eller slå på den om du litar mer på den. Länka Devin till din CI för automatisk granskning av pull-förfrågningar, men börja med aviseringar så att du kan se hur den hanterar feedback.

I slutändan är Devins arbetsflöde tätt och kraftfullt, men det förlitar sig fortfarande på dig för vägledning. Genom att förstå hur den planerar, använder verktyg och lär sig av feedback (som beskrivits ovan) kan du få ut det mesta av denna nya klass av agentisk kodningsassistent. Nästa bästa steg för ett team som är intresserat av Devin är att registrera sig på devin.ai och köra en liten pilot: lägg till ett webb-repo, be Devin att implementera en funktion och låt den köra i progress-läge. Observera hela ”tänkande”-spåret – den praktiska erfarenheten kommer att klargöra exakt hur Devin väver samman planering, redigering och självrättelse. Därifrån kan du skala upp till fler uppgifter och finjustera dess användning (till exempel anpassade playbooks för din domän). Även om den fortfarande utvecklas, representerar Devin ett stort språng inom AI-verktyg. Genom att lära sig dess arbetsflöde idag kan team förbereda sig för en era där kodningsuppgifter verkligen kan delas med en AI-lagkamrat.

Få nya AI-kodningsforskning och podcast-avsnitt

Prenumerera för att få nya forskningsuppdateringar och podcast-avsnitt om AI-kodningsverktyg, AI-appbyggare, no-code-verktyg, vibe coding och byggande av onlineprodukter med AI.