जून 2026 में स्वायत्त कोडिंग एजेंट: एक व्यापक परिदृश्य और वर्गीकरण

20 जून 2026

स्वायत्त कोडिंग एजेंट एआई कोडिंग सहायक डेवलपर उपकरण ओपन सोर्स एआई एंटरप्राइज़ ऑटोमेशन आईडीई एकीकरण एआई एजेंट वर्गीकरण कोड जनरेशन एआई सॉफ्टवेयर विकास एआई एआई मेमोरी सिस्टम

स्वायत्त कोडिंग एजेंट: परिदृश्य और वर्गीकरण (जून 2026)

परिचय। एआई-संचालित कोडिंग एजेंटों ने सॉफ्टवेयर विकास को तेजी से बदल दिया है। अब वे केवल ऑटोकम्प्लीट सहायक नहीं हैं, बल्कि अब वे डेवलपर्स की ओर से जटिल कार्य (“योजना बनाना, संपादित करना, कोड का परीक्षण करना और बहुत कुछ”) निष्पादित करते हैं। यह बदलाव नाटकीय है: जैसा कि यूआईपाथ के सीईओ कहते हैं, “एआई कोड लिख सकता है… सवाल यह है कि कोड लिखने के बाद क्या होता है” (www.uipath.com)। वास्तव में, 2026 के मध्य तक एक अनुमानित 84% डेवलपर एआई कोडिंग सहायकों का उपयोग करते हैं या करने की योजना बना रहे हैं (www.uipath.com)। आज के एजेंट साधारण कोड-पूर्णता टूल से लेकर पूरी तरह से स्वायत्त सहयोगी तक हैं जो बहु-चरणीय परिवर्तनों की योजना बनाते हैं, बिल्ड/परीक्षण चलाते हैं, और पीआर बनाते हैं। यह लेख 2026 के समृद्ध पारिस्थितिकी तंत्र का मानचित्रण करता है: वाणिज्यिक SaaS और सेल्फ-होस्टेड टूल, ओपन फ्रेमवर्क और एंटरप्राइज़ प्लेटफ़ॉर्म। हम एजेंटों को उनकी स्वायत्तता स्तर, समर्थित भाषाओं, एकीकरण बिंदुओं, सुरक्षा/शासन सुविधाओं और परिनियोजन मॉडल के आधार पर वर्गीकृत करते हैं। हम अनुसंधान वंशों (ट्रांसफार्मर और चेन-ऑफ-थॉट से लेकर मेमोरी-एन्हांस्ड एजेंटों तक) का भी पता लगाते हैं और प्रमुख रिलीज़ की एक समय-सीमा देते हैं। अंत में, नवागंतुकों के लिए हम इन उपकरणों का उपयोग कैसे शुरू करें और एआई-सहायता प्राप्त विकास वर्कफ़्लो बनाने के पहले चरणों की रूपरेखा बताते हैं।

वाणिज्यिक प्लेटफ़ॉर्म

अग्रणी एआई कंपनियों ने विभिन्न उपयोगकर्ताओं के लिए अनुकूलित कोडिंग-एजेंट उत्पाद जारी किए हैं:

गिटहब कोपायलट (ओपनएआई/माइक्रोसॉफ्ट)। 2021 में लॉन्च किया गया, कोपायलट IDEs में कोड पूरा करने के सुझाव देने के लिए कोडेक्स मॉडल का उपयोग करता है। यह एआई पेयर-प्रोग्रामर के लिए पोस्टर चाइल्ड बन गया, जो VS कोड, जेटब्रेन्स और अन्य संपादकों में एकीकृत हो गया। (ओपनएआई का कोडेक्स सार्वजनिक कोड पर फाइन-ट्यून किया गया कोपायलट को शक्ति प्रदान करता है, जिससे एआई सुझाव IDEs में “मुख्यधारा” बन गए (rmax.ai))। कोपायलट दर्जनों भाषाओं (पायथन, जावास्क्रिप्ट, टाइपस्क्रिप्ट, जावा, C#, आदि) का समर्थन करता है और मुफ्त (ओपन-सोर्स) और सशुल्क योजनाओं में पेश किया जाता है, जिसमें एंटरप्राइज़ लाइसेंसिंग भी शामिल है।
अमेज़ॅन कोडव्हिस्परर। 2022 में पेश किया गया, कोडव्हिस्परर एडब्ल्यूएस का कोपायलट-प्रतिस्पर्धी है (aws.amazon.com)। 2023 तक यह मुफ्त और प्रोफेशनल टियर के साथ आम तौर पर उपलब्ध हो गया (aws.amazon.com)। यह भाषाओं की विस्तृत श्रृंखला (पायथन, जावा, जावास्क्रिप्ट/टाइपस्क्रिप्ट, C#, साथ ही गो, रस्ट, कोटलिन, स्काला, रूबी, पीएचपी, SQL, C, C++, शेल, आदि) का समर्थन करता है (aws.amazon.com)। कोडव्हिस्परर एक क्लाउड सेवा के रूप में चलता है, जो एडब्ल्यूएस टूलकिट और उपकरणों में एकीकृत है, और अपने प्रो टियर में एंटरप्राइज़ प्रशासन सुविधाएँ (लाइसेंस/नीति प्रबंधन) प्रदान करता है (aws.amazon.com)।
एन्थ्रोपिक क्लाउड कोड / क्लाउड कोवर्क। एन्थ्रोपिक ने फरवरी 2025 में लॉन्च किए गए एक टर्मिनल-आधारित एजेंट, क्लाउड कोड का बीड़ा उठाया (time.com)। यह उपयोगकर्ता की फ़ाइलों तक पहुँच सकता है, “उप-एजेंटों” को स्पॉन कर सकता है और बहु-चरणीय वर्कफ़्लो (जैसे डीएनए विश्लेषण) निष्पादित कर सकता है (time.com)। (TIME रिपोर्ट करता है कि इसने आनुवंशिक डेटा के माध्यम से स्वायत्त रूप से “एक टमाटर का पौधा उगाया”!) क्लाउड कोड स्वायत्तता और सुरक्षा पर जोर देता है: यह विनाशकारी परिवर्तनों से पहले स्पष्ट “योजना” और एक अनुमोदन लूप का उपयोग करता है (rmax.ai)। जनवरी 2026 में, एन्थ्रोपिक ने क्लाउड कोवर्क के साथ अपनी एजेंट लाइन का विस्तार किया, जो समान क्षमताओं के लिए एक अधिक उपयोगकर्ता-अनुकूल इंटरफ़ेस है (time.com)। क्लाउड कोड प्रमुख भाषाओं (पायथन, जेएस, आदि) में कोडिंग का समर्थन करता है और बेंचमार्किंग से पता चलता है कि यह सॉफ्टवेयर कार्यों में उत्कृष्ट है।
कर्सर (एनीस्फीयर)। कर्सर उन्नत LLM पर निर्मित एक VS कोड-आधारित एआई कोड एडिटर है। 2025 में इसके स्टार्टअप एनीस्फीयर ने $9.9B के मूल्यांकन पर $900M जुटाए (siliconangle.com)। कर्सर इनलाइन पूर्णता, एक चैट/एजेंट टैब, और कार्यों को स्वचालित करने के लिए उपकरण (जैसे प्राकृतिक-भाषा प्रॉम्प्ट द्वारा शेल कमांड उत्पन्न करना) प्रदान करता है (siliconangle.com) (siliconangle.com)। यह एक स्टैंडअलोन एडिटर (VS कोड से फोर्क किया गया) के रूप में काम करता है और 50+ प्रोग्रामिंग भाषाओं में सामग्री लेखन, साथ ही चैट-संचालित संचालन का समर्थन करता है।
गूगल जेमिनी कोड असिस्टेंट। गूगल अब जेमिनी कोड असिस्टेंट (स्टैंडर्ड/एंटरप्राइज़) और ओपन-सोर्स जेमिनी सीएलआई प्रदान करता है। ये गूगल के उन्नत जेमिनी मॉडल (1M-टोकन संदर्भ तक) का उपयोग करते हैं। उदाहरण के लिए, जेमिनी सीएलआई (ओपन सोर्स) आपको किसी भी टर्मिनल में एआई कोडिंग एजेंट चलाने देता है – यह बिल्ट-इन टूल (वेब सर्च, फाइल सिस्टम और शेल एक्सेस) के साथ आता है और गूगल के क्लाउड एलएलएम या स्थानीय मॉडल का उपयोग कर सकता है (github.com)। इसका वर्कस्पेस आपकी कोड फ़ाइलों को पढ़/लिख सकता है और आपके नियंत्रण में कमांड चला सकता है। (सीएलआई गूगल खाते के साथ मुफ्त है, और एंटरप्राइज़ संस्करण अधिक सुरक्षा और एकीकरण जोड़ते हैं।)
आईबीएम वाटसनएक्स कोड असिस्टेंट। आईबीएम एंटरप्राइज़ सॉफ्टवेयर टीमों के लिए वाटसनएक्स कोड असिस्टेंट का विपणन करता है। 2024-25 में इसने विशेष रूप से जावा अनुप्रयोगों की योजना बनाने और अपग्रेड करने के लिए सेवाएं पेश कीं (www.ibm.com)। यह उत्पाद “एंटरप्राइज़-तैयार” है (शासन/अनुपालन के साथ) और विरासत कोड को आधुनिक बनाने के लिए भाषाओं (विशेष रूप से जावा) में काम करता है। आईबीएम आईबीएम वर्कफ़्लो (जैसे DevOps/Jenkins) के साथ गहरे एकीकरण का दावा करता है और सुरक्षा और पैमाने पर ध्यान केंद्रित करता है। इसके गिटहब रेपो में गो, C, C++, जावा, जावास्क्रिप्ट, पायथन, टाइपस्क्रिप्ट, आदि जैसी भाषाओं के लिए समर्थन बताया गया है (github.com)।
अन्य। कई SaaS पेशकश और शुरुआती-चरण प्लेटफ़ॉर्म हैं: कोडिंग के लिए OpenAI का ChatGPT/CoPilot, Microsoft का Copilot for Business और Copilot Chat, Google का BardCode, ओपन सोर्स API (OpenRouter, आदि), और स्टार्टअप्स से विशेष टूल (जैसे Amp Code, Jellyfish, आदि)। कई प्रमुख IDEs (VS Code, JetBrains) में अब कई एजेंट विकल्प शामिल हैं (जैसे जेटब्रेन्स में जूनी और क्लाउड एजेंट (www.jetbrains.com))।

ओपन-सोर्स फ्रेमवर्क

कई ओपन-सोर्स प्रोजेक्ट डेवलपर्स को कोडिंग एजेंटों को स्वयं बनाने या चलाने की अनुमति देते हैं। प्रमुख उदाहरणों में शामिल हैं:

ओपनहैंड्स। यह पायथन-आधारित SDK (और साथ में CLI/GUI) आपको कोड में एजेंट कौशल को परिभाषित करने और उन्हें स्थानीय रूप से चलाने देता है। ओपनहैंड्स एक CLI “एजेंट” प्रदान करता है जिसे आप प्राकृतिक-भाषा कार्यों को देकर बूटस्ट्रैप करते हैं; यह आपकी पसंद के किसी भी LLM (OpenAI, Anthropic, या Ollama/vLLM के माध्यम से एक स्थानीय मॉडल) का उपयोग कर सकता है (github.com) (github.com)। CLI एक IDE-जैसे वर्कफ़्लो का अनुसरण करता है और ब्रांचिंग, PR निर्माण, परीक्षण आदि को स्वचालित कर सकता है। ओपनहैंड्स v1.6 ने अंतहीन लूप से बचने के लिए निष्पादन से पहले एक योजना का मसौदा तैयार करने के लिए एक योजना मोड भी जोड़ा (www.runlocalai.co)। यह दर्जनों भाषाओं (किसी भी LLM के माध्यम से) का समर्थन करता है और पूरी तरह से आपकी मशीन पर चल सकता है या क्लाउड में स्केल कर सकता है।
ओपनक्लॉ। मूल रूप से एक व्यक्तिगत सहायक, ओपनक्लॉ में एक एआई एजेंट अवतार है जो चैट ऐप्स के माध्यम से इंटरफ़ेस करता है। यह पूरी तरह से ओपन-सोर्स और सेल्फ-होस्टेड है (कोई विक्रेता लॉक-इन नहीं) (openclawdoc.com)। ओपनक्लॉ आपको कौशल (मार्कडाउन-परिभाषित क्रियाएं) जोड़ने देता है और 50+ चैनलों (स्लैक, डिस्कॉर्ड, व्हाट्सएप, आदि) से जुड़ता है (openclawdoc.com)। यह मॉडल-अज्ञेयवादी है: यह क्लाउड, GPT, जेमिनी, स्थानीय LLM, आदि से जुड़ सकता है (openclawdoc.com)। ओपनक्लॉ सुरक्षा पर जोर देता है: हर कौशल सीमित फ़ाइल/डेटाबेस एक्सेस के साथ एक अलग सैंडबॉक्स में चलता है, और आपको स्पष्ट रूप से यह अनुमोदित करना होगा कि प्रत्येक एजेंट क्या एक्सेस कर सकता है (openclawdoc.com)। हालांकि सामान्य-उद्देश्यीय, ओपनक्लॉ की पाइपलाइन का उपयोग कोडिंग कार्यों के लिए भी किया जा सकता है।
गूज़। गूज़ (Rust-आधारित डेस्कटॉप ऐप और CLI) कोडिंग सहित किसी भी कार्य के लिए एक बहु-प्लेटफ़ॉर्म एजेंट है। यह 15+ LLM प्रदाताओं—एन्थ्रोपिक, OpenAI, गूगल, Ollama, आदि का समर्थन करता है, आमतौर पर आपकी मशीन पर चलता है। गूज़ उपकरणों के साथ एकीकृत करने के लिए मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP) का उपयोग करता है (70+ एक्सटेंशन प्रलेखित हैं) (github.com)। कोडिंग के लिए, गूज़ MCP के माध्यम से फ़ाइल-सिस्टम और टर्मिनल टूल प्रदान करता है, और बहु-चरणीय सुधारों को व्यवस्थित कर सकता है। ओपनहैंड्स की तरह, यह सेल्फ-होस्टेड और ओपन-सोर्स (MIT लाइसेंस) है। गूज़ कुछ विकल्पों की तुलना में हल्का है लेकिन MCP के माध्यम से एक्स्टेंसिबिलिटी पर जोर देता है।
एडर। एडर (44K गिटहब स्टार, 6.8M इंस्टॉल) एक टर्मिनल-केंद्रित “एआई पेयर प्रोग्रामर” है (aider.chat)। यह क्लाउड या स्थानीय मॉडल दोनों के साथ काम करता है और आपके पूरे कोडबेस को “मैप” करता है ताकि एजेंट के पास प्रोजेक्ट-व्यापी संदर्भ हो। एडर 100+ भाषाओं (पायथन, जावास्क्रिप्ट, रस्ट, रूबी, गो, C/C++, पीएचपी, आदि) का समर्थन करता है (aider.chat)। महत्वपूर्ण रूप से, एडर सभी परिवर्तनों को ऑटो-कमिट करता है: यह गिट का उपयोग करके प्रत्येक एआई एडिट को एक सार्थक कमिट संदेश के साथ रिकॉर्ड करता है (aider.chat)। यह IDEs (VS कोड, जेटब्रेन्स) में भी एकीकृत होता है ताकि आप कोड को एनोटेट कर सकें और एडर परिवर्तनों को लागू कर सके। संक्षेप में, एडर उन डेवलपर्स के लिए है जो एजेंट को अपने कमांड में चाहते हैं: वे परिवर्तनों को प्रॉम्प्ट करते हैं और टूल उन्हें गिट के माध्यम से पारदर्शी रूप से लागू करता है।
IDE एक्सटेंशन (क्लाइन, कंटिन्यू, आदि)। कुछ ओपन एजेंट पूरी तरह से एक संपादक के भीतर रहते हैं। उदाहरण के लिए, क्लाइन एक ओपन-सोर्स VS कोड एक्सटेंशन है जो खुद को एक “स्वायत्त कोडिंग एजेंट” के रूप में वर्णित करता है जो फ़ाइलें बनाने/संपादित करने, कमांड निष्पादित करने और वेब ब्राउज़ करने में सक्षम है – यह सब उपयोगकर्ता की अनुमति से (github.com)। (इसमें योजना/अनुमोदन लूप भी हैं।) कंटिन्यू कई मोड (चैट, इनलाइन ऑटोकम्प्लीट, “इस कोड का विस्तार करें” संपादन) के साथ एक और VS कोड एजेंट सहायक है (marketplace.visualstudio.com)। ये एजेंट IDE में एम्बेड होते हैं और GUI वर्कफ़्लो होते हैं लेकिन कार्यों पर अर्ध-स्वायत्त रूप से काम कर सकते हैं।
जेमिनी सीएलआई (गूगल)। गूगल के जेमिनी 3.5+ मॉडल एक सीएलआई एजेंट प्रदान करते हैं जो ओपन-सोर्स है। जेमिनी-सीएलआई टूल डेवलपर्स को एक टर्मिनल-आधारित एजेंट देता है जो गूगल सर्च और स्टैक-व्यापी फ़ाइल संचालन को इनवोक कर सकता है (github.com)। यह गूगल के क्लाउड मॉडल पूल (मुफ्त टियर उपलब्ध) का उपयोग कर सकता है या स्थानीय मॉडल चला सकता है। यह पूरे रिपॉजिटरी को समझने के लिए बड़े संदर्भ (1M टोकन) का समर्थन करता है। यह सेल्फ-होस्ट और SaaS के बीच एक सेतु है: कोड स्थानीय है लेकिन गूगल की LLM सेवा पर निर्भर करता है (जब तक कि डाउनलोड किए गए मॉडल के साथ न चलाया जाए)।

कुल मिलाकर, ओपन-सोर्स एजेंटों में कई समानताएं हैं: स्थानीय परिनियोजन, लचीला मॉडल विकल्प, बहु-भाषा समर्थन, और मानक विकास उपकरणों (गिट, शेल्स) के साथ एकीकरण। वे शैली में भिन्न हैं: कुछ (ओपनहैंड्स/एडर) CLI के माध्यम से IDE के बाहर काम करते हैं, अन्य (क्लाइन/कंटिन्यू/जेमिनी) संपादकों के भीतर एकीकृत होते हैं, और ऑर्केस्ट्रेशन फ्रेमवर्क (गूज़/MCP-आधारित) हर चीज को एक टूल के रूप में मानते हैं।

एंटरप्राइज़-अनुरूप समाधान

एंटरप्राइज़ों ने अपने आईटी स्टैक में कोडिंग एजेंटों को एम्बेड करना शुरू कर दिया है, जो ऑर्केस्ट्रेशन, गवर्नेंस और स्केलिंग पर ध्यान केंद्रित कर रहे हैं:

यूआईपाथ फॉर कोडिंग एजेंट। यूआईपाथ (रोबोटिक प्रोसेस ऑटोमेशन में एक अग्रणी) ने मई 2026 में यूआईपाथ फॉर कोडिंग एजेंट लॉन्च किया (www.uipath.com) (www.uipath.com)। यह प्लेटफ़ॉर्म एआई कोडिंग एजेंटों को सिर्फ एक और ऑटोमेशन टूल के रूप में मानता है: कंपनियां यूआईपाथ के विज़ुअल वर्कफ़्लो में किसी भी एजेंट (कॉगिटोकॉर्प के, OpenAI के, आदि) को प्लग कर सकती हैं। इसका विचार कंपनी के नियंत्रण के साथ सहज एंड-टू-एंड ऑटोमेशन (बिल्ड, टेस्ट, डिप्लॉय) है। यूआईपाथ “बड़े पैमाने पर ऑर्केस्ट्रेशन” का दावा करता है ताकि एआई-जनित कोड मानव कोड के समान ऑडिट/अनुमति पाइपलाइन से गुजरे (www.uipath.com) (www.uipath.com)। प्रमुख विशेषताओं में भूमिका-आधारित पहुँच, ऑडिट ट्रेल, क्रेडेंशियल वॉल्ट और नीति प्रवर्तन शामिल हैं – अनिवार्य रूप से एआई आउटपुट पर एंटरप्राइज़ अनुपालन लागू करना (www.uipath.com) (www.uipath.com)। व्यवहार में, बड़ी कंपनियां एजेंटों को CI/CD पाइपलाइनों और बहु-प्रणाली वर्कफ़्लो (जैसे मैनुअल हैंडऑफ़ के बिना जिरा मुद्दे को कोड परिवर्तनों से जोड़ना (cookbook.openai.com)) में जोड़ने के लिए यूआईपाथ का उपयोग कर रही हैं।
जेटब्रेन्स एआई असिस्टेंट। जेटब्रेन्स ने अपने IDE सूट (इंटेलिज, पायचार्म, आदि) में एआई असिस्टेंट प्लगइन (2026.1 में जारी) के माध्यम से एजेंटों को एकीकृत किया। उनके दस्तावेज़ कोडिंग एजेंटों को उन प्रणालियों के रूप में वर्णित करते हैं जो “स्वायत्त रूप से बहु-चरणीय विकास कार्यों की योजना बनाते और निष्पादित करते हैं” – फ़ाइलें संपादित करना, परीक्षण चलाना, अपने प्रोजेक्ट पर टूल इनवोक करना (www.jetbrains.com)। जेटब्रेन्स बिल्ट-इन एजेंट (जैसे जूनी, क्लाउड एजेंट, कोडेक्स एजेंट) और एक मानक एजेंट क्लाइंट प्रोटोकॉल (ACP) प्रदान करता है ताकि एंटरप्राइज़ अपने स्वयं के मॉडल को प्लग इन कर सकें। उपयोगकर्ता प्रोजेक्ट-विशिष्ट निर्देशों और “कौशल” के साथ एजेंटों को अनुकूलित कर सकते हैं, और प्रत्येक एजेंट कार्रवाई के लिए स्पष्ट उपयोगकर्ता अनुमोदन की आवश्यकता होती है या मोड के आधार पर स्वचालित पर सेट किया जा सकता है (www.jetbrains.com) (www.jetbrains.com)। यह डेवलपर्स को नियंत्रित करने देता है कि कौन से एआई परिवर्तन कोडबेस में आते हैं। जेटब्रेन्स एजेंटों को परिचित डेवलपर वर्कफ़्लो (IDE विंडो, कोड समीक्षा) के भीतर रखने पर ध्यान केंद्रित करता है।
आईबीएम वाटसनएक्स कोड असिस्टेंट। आईबीएम वाटसनएक्स को “एंटरप्राइज़-तैयार” कोडिंग असिस्टेंट सूट के रूप में विपणन करता है। जीए घोषणा एआई-सहायता प्राप्त विश्लेषण और रिफैक्टरिंग का उपयोग करके एंटरप्राइज़ जावा आधुनिकीकरण पर जोर देती है (www.ibm.com)। आईबीएम की पेशकश आईबीएम के हाइब्रिड क्लाउड और DevOps टूल में प्लग करती है। यह सुरक्षा/अनुपालन (जैसे RBAC, ऑडिट लॉग) पर प्रकाश डालता है और विनियमित उद्योगों में बड़े, विरासत कोडबेस को संभालने के लिए डिज़ाइन किया गया है। इसमें विशेष मॉड्यूल (जैसे मेनफ्रेम कोड के लिए) भी शामिल हैं। आईबीएम का एजेंट सामान्य एंटरप्राइज़ भाषाओं (गो/जावा/पायथन/आदि सहित (github.com)) का समर्थन करता है और इसे उनके वाटसनएक्स एआई प्लेटफॉर्म के हिस्से के रूप में बेचा जाता है, अक्सर कॉर्पोरेट फायरवॉल के पीछे।
अन्य कॉर्पोरेट समाधान। कई विक्रेता अब एआई कोडिंग टूल के “एंटरप्राइज़” टियर या ऑन-प्रेम संस्करण प्रदान करते हैं। एंटरप्राइज़ के लिए गिटहब कोपायलट कंपनियों को एक निजी इंस्टेंस तैनात करने देता है; AWS कोडव्हिस्परर का प्रोफेशनल टियर संगठन-व्यापी नीति नियंत्रण जोड़ता है (aws.amazon.com)। एटलासियन ने जिरा और बिटबकेट में एआई सुविधाओं का निर्माण किया (जैसे पुल अनुरोधों के लिए कोपायलट को सक्षम करना)। यहां तक कि सुरक्षा फर्म (स्निक, चेकमार्क्स) भी नीतिगत बाधाओं के तहत कोड का ऑडिट या उत्पन्न करने के लिए एलएलएम को एकीकृत कर रहे हैं। एकीकृत विषय शासन है: डेटा का एन्क्रिप्शन, उपयोग लॉगिंग, और मानव-इन-द-लूप चेकपॉइंट।

क्षमता के अनुसार वर्गीकरण

नीचे हम एजेंटों को प्रमुख आयामों पर वर्गीकृत करते हैं:

स्वायत्तता स्तर

सहायता प्राप्त सहायता (कम स्वायत्तता)। ये ऐसे उपकरण हैं जो कोड का सुझाव देते हैं लेकिन डेवलपर की पुष्टि के बिना उस पर कार्य नहीं करते हैं। विशिष्ट उदाहरण: गिटहब कोपायलट, बुनियादी चैटजीपीटी कोड पूर्णता, IDE IntelliSense-प्लस (TabNine, प्रॉम्प्ट के माध्यम से कोडेक्स)। वे स्निपेट या एकल फ़ंक्शन उत्पन्न करते हैं, लेकिन डेवलपर्स को प्रत्येक परिवर्तन की मैन्युअल रूप से समीक्षा और एकीकृत करना चाहिए। सुरक्षा उच्च है क्योंकि मानव सभी संपादनों को नियंत्रित करता है।
इंटरैक्टिव सहायक (मध्यम स्वायत्तता)। ऐसे एजेंट जो मार्गदर्शन के साथ बहु-मोड़ वार्तालाप कर सकते हैं या बहु-चरणीय कार्य कर सकते हैं। उदाहरण के लिए, एक डेवलपर कोड को रिफैक्टर करने या एक मॉड्यूल लिखने के लिए एक एजेंट के साथ चैट कर सकता है, और एजेंट प्रतिक्रिया में कोड संपादन निष्पादित करता है। उदाहरणों में एडर जैसे टूल शामिल हैं (आप “त्रुटि प्रबंधन जोड़ें” का अनुरोध करते हैं, यह संपादित करता है और कमिट करता है) या कोड इंटरप्रेटर के साथ चैटजीपीटी (उपयोगकर्ता एक कार्य के लिए प्रॉम्प्ट करता है और निष्पादित उत्तर प्राप्त करता है)। ये सिस्टम अभी भी उपयोगकर्ता प्रतिक्रिया के साथ लूप करते हैं: मानव परीक्षणों की समीक्षा करता है या कमिट को अनुमोदित करता है। वे अक्सर चरणों की योजना बनाते या रूपरेखा बनाते हैं (जैसे IDEs में जूनी/क्लाउड एजेंट) लेकिन अंतिम कमिट के लिए उपयोगकर्ता अनुमोदन की प्रतीक्षा करते हैं।
स्वायत्त एजेंट (उच्च स्वायत्तता)। इस स्तर पर, एजेंट एक उच्च-स्तरीय कमांड लेता है और अपने दम पर एक पूरा वर्कफ़्लो निष्पादित करता है। यह कोडबेस पढ़ता है, एक योजना बनाता है, फ़ाइलें संपादित करता है, परीक्षण चलाता है, और यहां तक कि पुल अनुरोध भी बनाता है—यह सब चरण-दर-चरण मानव प्रॉम्प्ट के बिना (हालांकि एक डेवलपर बाद में समीक्षा कर सकता है)। एन्थ्रोपिक का क्लाउड कोड और कर्सर (एजेंट मोड में) इसका उदाहरण देते हैं: आप कह सकते हैं “उपयोगकर्ता रिपोर्ट सुविधा लागू करें” और एजेंट कोड लिखने, उसे चलाने, त्रुटियों को ठीक करने और परिणाम को कमिट करने के माध्यम से पुनरावृति करेगा। वे बिल्ट-इन योजना लूप पर निर्भर करते हैं: उदाहरण के लिए क्लाउड कोड निष्पादित करने से पहले एक योजना की रूपरेखा तैयार कर सकता है और जोखिम भरे ऑप्स के लिए पुष्टि मांगेगा (rmax.ai)। यूआईपाथ ऑर्केस्ट्रेशन लेयर एजेंटों के बीच पूरी तरह से स्वचालित प्रवाह की भी अनुमति देती है। इन उच्च-स्वायत्तता वाले एजेंटों को मजबूत सुरक्षा नियंत्रण (अनुमोदन/पुनर्प्राप्ति) की आवश्यकता होती है लेकिन वे अंत-से-अंत तक नीरस कार्य को संभालकर उत्पादकता को नाटकीय रूप से बढ़ा सकते हैं।

समर्थित भाषाएँ

आधुनिक एजेंट आमतौर पर सभी मुख्यधारा की प्रोग्रामिंग भाषाओं को कवर करते हैं। उदाहरण के लिए:

वेब और स्क्रिप्टिंग भाषाएँ: पायथन, जावास्क्रिप्ट, टाइपस्क्रिप्ट, पीएचपी, रूबी, गो, रस्ट, कोटलिन, आदि। AWS कोडव्हिस्परर स्पष्ट रूप से रस्ट, गो, कोटलिन, स्काला, आदि सहित 13+ भाषाओं के लिए समर्थन सूचीबद्ध करता है (aws.amazon.com)। एडर “100+ भाषाओं” का दावा करता है, जिसमें पायथन, जावास्क्रिप्ट, रस्ट, रूबी, गो, C/C++, पीएचपी, HTML/CSS, और दर्जनों अन्य शामिल हैं (aider.chat)। आईबीएम का सहायक भी गो, जावा, C/C++, जावास्क्रिप्ट, पायथन, टाइपस्क्रिप्ट, आदि को कवर करता है (github.com)।
एंटरप्राइज़/विरासत भाषाएँ: जावा को सार्वभौमिक रूप से समर्थन प्राप्त है; बड़े वाणिज्यिक उपकरण अक्सर C# और डेटाबेस भाषाओं (SQL, PL/SQL) को भी संभालते हैं। मेनफ्रेम भाषाओं (COBOL) को विशेष समाधानों (आईबीएम के सूट में एक Z संस्करण है) द्वारा नियंत्रित किया जाता है।
इन्फ्रास्ट्रक्चर और शेल: कई एजेंट शेल स्क्रिप्ट या SQL क्वेरी उत्पन्न कर सकते हैं। उदाहरण के लिए, कर्सर एक सिस्टम कार्य का विवरण स्वीकार कर सकता है और एक बैश कमांड आउटपुट कर सकता है (siliconangle.com)। जेमिनी सीएलआई के पास शेल कमांड चलाने के लिए बिल्ट-इन एक्सेस है। कोडव्हिस्परर शेल स्क्रिप्टिंग का भी समर्थन करता है।

व्यवहार में, सार्वजनिक कोड में देखी गई लगभग किसी भी भाषा को एलएलएम बैकएंड द्वारा संभाला जा सकता है। हालांकि, टोकन सीमाएं और उपलब्ध प्रशिक्षण डेटा का मतलब है कि बहुत विशिष्ट या मालिकाना भाषाओं के लिए समर्थन गुणवत्ता भिन्न हो सकती है।

एकीकरण सतहें

कोडिंग एजेंट डेवलपर्स के वर्कफ़्लो में कई इंटरफेस के माध्यम से जुड़ते हैं:

IDEs और संपादक: सबसे सामान्य प्रवेश बिंदु। VS कोड और जेटब्रेन्स IDEs में एजेंटों के लिए प्लगइन/एक्सटेंशन हैं। ये चैट पैन, साइडबार टूल, या कोडलेंस सुझावों के रूप में दिखाई देते हैं। (गिटहब कोपायलट, एडर, क्लाइन, कंटिन्यू, कोडेक्स एजेंट, जूनी, क्लाउड एजेंट, आदि सभी यहां एकीकृत होते हैं)। एक IDE के भीतर, आप आमतौर पर कोड में टिप्पणी करके या कमांड पैलेट का उपयोग करके एक एजेंट को इनवोक करते हैं, और एजेंट फ़ाइलें खोल/संपादित कर सकता है, कोड चला सकता है, और इनलाइन अंतर दिखा सकता है (www.jetbrains.com) (github.com)।
कमांड लाइन / सीएलआई टूल: डेवलपर्स टर्मिनल-आधारित एजेंटों का भी उपयोग करते हैं। उदाहरण: codex-cli/openai टूल, एडर सीएलआई, गूज़ का सीएलआई, जेमिनी सीएलआई। इन्हें एक शेल में डाला जाता है और निर्देश दिए जाते हैं (अक्सर प्रॉम्प्ट या कॉन्फ़िग फ़ाइलों के माध्यम से)। वे स्थानीय रिपॉजिटरी पर काम करते हैं और कमांड या संपादक चला सकते हैं। उदाहरण के लिए, codex-cli (OpenAI से) कार्यों को स्वचालित करने के लिए स्क्रिप्ट किया जा सकता है (जैसे जिरा→पीआर उदाहरण में (cookbook.openai.com))। सीएलआई एजेंट अक्सर शेल पाइपलाइनों में स्क्रिप्टिंग और एकीकरण की अनुमति देते हैं।
CI/CD पाइपलाइनें: एजेंटों को निर्माण/परीक्षण पाइपलाइनों के भीतर तेजी से बुलाया जा रहा है। उदाहरण के लिए, पुल अनुरोधों पर एजेंटों को चलाने के लिए समुदाय-निर्मित गिटहब एक्शन (जैसे ऑटोएजेंट) मौजूद हैं (github.com)। एक विशिष्ट पैटर्न: एक गिटहब एक्शन एक PR पर ट्रिगर होता है, सुधारों का सुझाव देने या परीक्षण चलाने के लिए एक एजेंट (जैसे कर्सर सीएलआई या codex-cli) चलाता है, और टिप्पणियों के रूप में परिणाम वापस पोस्ट करता है (github.com) (cookbook.openai.com)। यह एआई कोड विश्लेषण को PR सबमिट या नाइटली बिल्ड पर स्वचालित रूप से होने देता है, एजेंटों को DevOps में जोड़ता है। कुछ विक्रेता जेनकिन्स/गिटलैब एकीकरण (अक्सर वेबहुक या कस्टम प्लगइन के माध्यम से) भी प्रदान कर सकते हैं।
इश्यू ट्रैकर्स और वर्कफ़्लो टूल: एजेंट कार्य प्रणालियों के साथ एकीकृत हो सकते हैं। उदाहरण के लिए, OpenAI की गिटहब “कुकबुक” जिरा वर्कफ़्लो को स्वचालित करने का तरीका दिखाती है: एक जिरा टिकट को लेबल करने से एक गिटहब एक्शन लॉन्च होता है जो एक एजेंट को PR बनाने और दोनों प्रणालियों को अपडेट करने के लिए चलाता है (cookbook.openai.com)। इसी तरह, असाना या Monday.com में कार्य वेबहुक के माध्यम से एआई कोड कार्यों को ट्रिगर कर सकते हैं। यह सतह अभी भी उभर रही है लेकिन दिखाती है कि एजेंट “टिकटों को कमिट्स” से कैसे जोड़ सकते हैं।
मैसेजिंग और चैटऑप्स: हालांकि विशेष रूप से कोडिंग के लिए कम आम है, कुछ एजेंटों को चैट ऐप्स (स्लैक, टीम्स, डिस्कॉर्ड) के माध्यम से इनवोक किया जा सकता है। ओपनक्लॉ जैसे टूल स्लैक या व्हाट्सएप पर एजेंटों को सुनते हुए प्रदर्शित करते हैं (openclawdoc.com), और गूगल के जेमिनी सीएलआई को भी चैट से बुलाया जा सकता है। कोडिंग संदर्भ में, कोई स्लैक बॉट की कल्पना कर सकता है जो अनुरोध पर कोड एजेंटों को चलाता है, लेकिन वर्तमान में यह अधिक प्रयोगात्मक है।
RPA/ऑर्केस्ट्रेशन: देव टूल से परे, एंटरप्राइज़ बॉट (जैसे यूआईपाथ वर्कफ़्लो) एजेंटों को अन्य प्रणालियों (डेटाबेस, सीआरएम, आदि) के साथ व्यवस्थित कर सकते हैं। यूआईपाथ की पेशकश एजेंटों को एक ऑर्केस्ट्रेटर से जोड़ती है जो कोड एजेंटों को इनवोक कर सकता है, रिट्राई को संभाल सकता है, और पूरे एंटरप्राइज़ फैब्रिक में नीतियों को लागू कर सकता है (www.uipath.com) (www.uipath.com)।

सुरक्षा और शासन

क्योंकि कोडिंग एजेंट उत्पादन कोड को संशोधित कर सकते हैं, सुरक्षा नियंत्रण महत्वपूर्ण हैं। दृष्टिकोणों में शामिल हैं:

अनुमोदन लूप: एजेंट अक्सर महत्वपूर्ण परिवर्तन करने से पहले पुष्टि मांगते हैं। उदाहरण के लिए, एन्थ्रोपिक का क्लाउड कोड अपने संशोधनों की योजना पहले से बनाता है और विनाशकारी कार्यों के लिए “अनुमोदन” की आवश्यकता होती है (rmax.ai)। जेटब्रेन्स का सहायक परिवर्तनों का प्रस्ताव करेगा और उपयोगकर्ता को प्रत्येक अंतर की समीक्षा करने या वापस लेने देगा (www.jetbrains.com)। यह सुनिश्चित करता है कि जोखिम भरे संपादनों के लिए मानव लूप में है।
मेमोरी/गवर्नेंस परतें: नया शोध बार-बार होने वाली गलतियों को रोकने के लिए मेमोरी का लाभ उठाता है। ProjectMem सिस्टम (2026) एक प्रमुख उदाहरण है: यह सभी देव घटनाओं (खोले गए मुद्दे, किए गए सुधार, निर्णय) को एक अपेंड-ओनली लॉग में रिकॉर्ड करता है और उन्हें एजेंट-पहुँच योग्य मेमोरी के रूप में संक्षेप करता है। एजेंट के कार्य करने से पहले, ProjectMem चेतावनी दे सकता है यदि पहले एक समान सुधार विफल हो गया था, प्रभावी रूप से “प्री-एक्शन गेट” या गवर्नेंस फिल्टर के रूप में कार्य कर रहा था (huggingface.co) (huggingface.co)। दूसरे शब्दों में, मेमोरी सिर्फ इतिहास नहीं है – यह सक्रिय रूप से बार-बार होने वाले विनाशकारी व्यवहार को रोकती है।
क्रेडेंशियल और एन्वायरमेंट सैंडबॉक्सिंग: एंटरप्राइज़ समाधान क्रेडेंशियल वॉल्ट और सैंडबॉक्स किए गए रनटाइम प्रदान करते हैं। उदाहरण के लिए, ओपनक्लॉ स्पष्ट रूप से प्रत्येक कौशल को सीमित फ़ाइल/डेटाबेस एक्सेस के साथ एक सैंडबॉक्स में अलग करता है (openclawdoc.com)। यूआईपाथ क्रेडेंशियल प्रबंधन सुनिश्चित करता है कि एजेंट बिना अनुमति के गुप्त प्रणालियों तक नहीं पहुँच सकते हैं (www.uipath.com)। कोड इंटरप्रेटर-शैली के सैंडबॉक्स (जैसे OpenAI के) एजेंट को एक क्षणभंगुर वातावरण में कोड चलाने देते हैं, किसी भी हानिकारक प्रभाव को नियंत्रित करते हैं।
RBAC और ऑडिटिंग: एंटरप्राइज़ पारंपरिक आईटी नियंत्रणों का उपयोग करते हैं। यूआईपाथ और आईबीएम उपकरण हर एजेंट कार्रवाई को लॉग करते हैं और उन्हें उपयोगकर्ता पहचान से जोड़ते हैं, और भूमिका-आधारित पहुँच का उपयोग करते हैं (जैसे केवल वरिष्ठ देव ही एआई परिवर्तनों को तैनात कर सकते हैं) (www.uipath.com)। संगठनात्मक नीतियां कुछ कार्यों को सीधे ब्लॉक कर सकती हैं (जैसे “कोई इंटरनेट एक्सेस नहीं” या “कोई डेटाबेस लेखन नहीं”)।
प्रतिबंधित मॉडल/मेमोरी एक्सेस: कुछ प्लेटफ़ॉर्म “निर्देश फ़िल्टर” लागू करते हैं। जेटब्रेन्स का एआई असिस्टेंट प्रोजेक्ट निर्देशों (AGENTS.md) को संग्रहीत करता है जिनका एजेंट को पालन करना चाहिए (www.jetbrains.com)। MCP फ्रेमवर्क श्वेतसूचियों के माध्यम से उपकरणों को सीमित करते हैं (जैसे एक MCP गिट सर्वर केवल सुरक्षित कमांड को उजागर करता है) (www.runlocalai.co)। भाषा मॉडल प्रदाता कोड पर फ़िल्टर (असुरक्षित पैटर्न के लिए स्कैनिंग) भी प्रदान कर सकते हैं।

संक्षेप में, हर एजेंटिक प्रणाली तकनीकी गार्डरेल (सैंडबॉक्स, श्वेतसूचियां) को समीक्षा प्रक्रियाओं (मानव अनुमोदन, ऑडिट) के साथ जोड़ती है। यह स्तरित सुरक्षा महत्वपूर्ण है जब भी एआई को लाइव कोड पर लिखने के विशेषाधिकार होते हैं।

परिनियोजन मॉडल (SaaS बनाम सेल्फ-होस्टेड)

कोडिंग एजेंट दो व्यापक परिनियोजन फ्लेवर में आते हैं:

SaaS / क्लाउड। कई वाणिज्यिक एजेंट क्लाउड सेवाओं के रूप में पेश किए जाते हैं। उदाहरण के लिए, कोपायलट (गिटहब) और कोडव्हिस्परर (AWS) प्रदाता के सर्वर पर चलते हैं और आप उन्हें एक API या एक्सटेंशन के माध्यम से एक्सेस करते हैं। गूगल के होस्ट किए गए जेमिनी मॉडल भी इसी तरह क्लाउड-आधारित हैं। SaaS संस्करणों को इंटरनेट एक्सेस की आवश्यकता होती है और आमतौर पर विक्रेता को कोड स्निपेट भेजना शामिल होता है। लाभ उपयोग में आसानी और हमेशा-अपडेटेड मॉडल हैं। एंटरप्राइज़ SaaS पेशकशों के लिए, विक्रेता अक्सर ग्राहक डेटा को अलग करते हैं और निजी इंस्टेंस प्रदान करते हैं।

उदाहरण: AWS कोडव्हिस्परर GA को एक क्लाउड सेवा के रूप में वितरित किया जाता है (मुफ्त और प्रो टियर) (aws.amazon.com)। ग्राहक बस अपने IDEs / AWS कंसोल में सेवा को सक्षम करते हैं और भारी काम AWS में होता है। व्यापार-बंद विक्रेता पर कोड स्निपेट के साथ भरोसा करना है।
सेल्फ-होस्टेड / ऑन-प्रेम। कोड को निजी रखने या नियमों का पालन करने के लिए, कई फ्रेमवर्क ऑन-प्रिमाइसेस परिनियोजन की अनुमति देते हैं। ओपन-सोर्स प्रोजेक्ट आमतौर पर आपके अपने हार्डवेयर पर चलते हैं। ओपनक्लॉ स्पष्ट रूप से “पूरी तरह से सेल्फ-होस्टेड” है – कुछ भी कभी भी आपके सर्वर से बाहर नहीं निकलता है (openclawdoc.com)। ओपनहैंड्स और गूज़ एक स्थानीय मशीन या कॉर्पोरेट क्लाउड पर चल सकते हैं (आप LLM इंस्टेंस को नियंत्रित करते हैं)। जेमिनी सीएलआई एक स्थानीय LLM के साथ बैकएंड के रूप में चल सकता है या कंटेनराइज़ किया जा सकता है। कुछ सिस्टम (जैसे ProjectMem) स्थानीय-पहले हैं।

उदाहरण: ओपनहैंड्स Ollama या vLLM के माध्यम से स्थानीय LLM के साथ एकीकृत हो सकता है, जो पूरी तरह से आपके GPU पर चलता है (github.com)। इसी तरह, गूज़ का डेस्कटॉप/सीएलआई स्वाभाविक रूप से चलता है, और स्थानीय या निजी मॉडल से जुड़ता है। एंटरप्राइज़ अक्सर स्थानीय अनुमान सर्वर (एन्थ्रोपिक का क्लाउडसॉनेट ऑन-प्रेम, या एज़ूर एआई स्टूडियो निजी मॉडल) स्थापित करते हैं ताकि एजेंट फायरवॉल के पीछे काम करें।
हाइब्रिड मॉडल: एक सामान्य पैटर्न एक हाइब्रिड “क्लाउड + स्थानीय” सेटअप है। उदाहरण के लिए, ओपनहैंड्स या गूज़ सामान्य कार्यों के लिए एक स्थानीय GPU का उपयोग कर सकते हैं लेकिन कठिन कार्यों के लिए एक बड़े क्लाउड मॉडल पर वापस आ सकते हैं (“स्थानीय फ़ॉलबैक के साथ API के माध्यम से क्लाउड सोननेट”) (www.runlocalai.co)। या जेमिनी सीएलआई जैसे टूल ओपन-सोर्स हैं लेकिन गूगल के क्लाउड LLM पर निर्भर करते हैं (जिसे SaaS माना जा सकता है)।

व्यवहार में, चुनाव प्राथमिकताओं पर निर्भर करता है: स्टार्टअप और व्यक्तिगत डेवलपर अक्सर सुविधा के लिए SaaS का उपयोग करते हैं। संवेदनशील कोड वाली बड़ी टीमें अक्सर सेल्फ-होस्टेड मॉडल (कई ओपन-सोर्स एजेंट) या नियंत्रित क्लाउड पेशकशों का विकल्प चुनती हैं। अच्छी खबर यह है कि दोनों उपलब्ध हैं: दर्जनों फ्रेमवर्क स्पष्ट रूप से हाइब्रिड ऑपरेशन (कोई भी LLM, कोई भी MCP टूल) का समर्थन करते हैं ताकि दोनों मॉडल फिट हो सकें।

अनुसंधान वंश

कई अनुसंधान धागे आज के एजेंटों में परिवर्तित होते हैं। प्रमुख वंशों में शामिल हैं:

ट्रांसफार्मर और एलएलएम प्रगति। पूरा क्षेत्र ट्रांसफार्मर आर्किटेक्चर (वासवानी एट अल. 2017) (rmax.ai) और बड़े पैमाने पर भाषा मॉडलिंग पर आधारित है। 2019-2020 में, GPT-2/3 (OpenAI) ने दिखाया कि बड़े पैमाने पर अप्रशिक्षित प्रशिक्षण ने मॉडल को बहुत धाराप्रवाह बना दिया (rmax.ai)। GPT-3 ने इन-कॉन्टेक्स्ट लर्निंग को लोकप्रिय बनाया, जिसका अर्थ है कि फाइन-ट्यूनिंग के बजाय मॉडल को उदाहरणों/निर्देशों के साथ प्रॉम्प्ट किया जा सकता है। इसने “प्रॉम्प्टिंग को प्रोग्रामिंग लीवरेज में बदल दिया” (rmax.ai)। 2021 में, OpenAI के कोडेक्स (कोड पर फाइन-ट्यून किया गया GPT-3) ने कोड बेंचमार्क (HumanEval) पर सफलता प्रदर्शन हासिल किया और सीधे गिटहब कोपायलट को शक्ति प्रदान की (rmax.ai)।
चेन-ऑफ-थॉट और योजना। शुरुआती एलएलएम केवल टेक्स्ट आउटपुट करते थे। 2022 में काम (ReAct, याओ एट अल.) ने “तर्क और कार्य” को एक स्पष्ट लूप बना दिया (rmax.ai)। ReAct ने मॉडल को चेन-ऑफ-थॉट को टूल कॉल के साथ इंटरलीव करना सिखाया, जिससे एलएलएम को कोड कार्यों के बारे में चरण-दर-चरण तर्क करने की अनुमति मिली। मेटा के टूलफॉर्मर (2023) जैसे संबंधित कार्य ने मॉडल को पीढ़ी के दौरान API कब कॉल करना है, यह तय करने के लिए प्रशिक्षित किया (rmax.ai)। ये विचार सीधे कोडिंग एजेंटों के डिज़ाइनों में फ़ीड करते हैं जहाँ एआई कुछ कोड लिखता है, उसका परीक्षण करता है (एक इंटरप्रेटर के माध्यम से), त्रुटियाँ देखता है, और अपने उत्तर को परिष्कृत करता है (एक साधारण फीडबैक लूप)। टर्मिनल-नेटिव एजेंट जैसे क्लाउड कोड इसका उदाहरण देते हैं: वे आंतरिक रूप से हमले की एक योजना उत्पन्न करते हैं, उसे निष्पादित करते हैं, परीक्षण परिणाम देखते हैं, और यदि आवश्यक हो तो फिर से योजना बनाते हैं (rmax.ai) (rmax.ai)।
एजेंट फ्रेमवर्क और लूपिंग। 2023 में, AutoGPT जैसे लोकप्रिय डेमो ने दिखाया कि उप-कार्यों पर एक प्रबंधित LLM को कैसे स्तरित किया जाए (rmax.ai)। AutoGPT ने कार्यों को बनाकर, उन्हें निष्पादित करके, और परिणामों पर पुनरावृति करके उच्च-स्तरीय लक्ष्यों तक पहुंचने के लिए उप-एजेंटों को स्पॉन किया (हालांकि अक्सर अस्थिर)। 2024 के आसपास, समुदाय ने शानदार डेमो से व्यवस्थित एजेंट फ्रेमवर्क की ओर रुख किया। ये फ्रेमवर्क एजेंटों के लिए पुन: प्रयोज्य शेल प्रदान करते हैं: हुक्ड-इन मेमोरी, मानकीकृत टूल इंटरफेस, अनुमति मॉडल, आदि। 2025 तक, “टर्मिनल-नेटिव एजेंट” (CLI-आधारित रेपो सहायक) एक उत्पाद श्रेणी बन गए (rmax.ai)। उदाहरण के लिए, क्लाउड कोड और कर्सर ने पैटर्न को लोकप्रिय बनाया: “रेपो-जागरूक संदर्भ + संरचित उपकरण + उपयोगकर्ता अनुमोदन” (rmax.ai) (siliconangle.com)। कई ओपन-सोर्स फ्रेमवर्क समान डिज़ाइनों (कोड के लिए संदर्भ विंडो, एकीकृत गिट टूल, स्पष्ट उपयोगकर्ता पुष्टि) पर एकजुट हुए।
मेमोरी ऑग्मेंटेशन। एक महत्वपूर्ण अनुसंधान वंश मेमोरी है। मानक एलएलएम अपने इनपुट संदर्भ से परे स्टेटलेस होते हैं, जो सीमित है। हालिया काम से पता चलता है कि कोडिंग एजेंटों को दीर्घकालिक मेमोरी की आवश्यकता होती है। डु एट अल. द्वारा मार्च 2026 के एक सर्वेक्षण में एजेंट मेमोरी को एक राइट-मैनेज-रीड लूप के रूप में औपचारिक रूप दिया गया है (huggingface.co) और दृष्टिकोणों (इन-कॉन्टेक्स्ट सारांश, पुनर्प्राप्ति बफर, सीखी हुई मेमोरी नीतियां, आदि) की समीक्षा की गई है। वे ध्यान देते हैं कि कोडिंग एजेंट अक्सर सीमित संदर्भ (“प्रति सत्र 5000-20,000 टोकन” प्रत्येक रन के साथ खो जाते हैं) से पीड़ित होते हैं और लगातार लॉग की आवश्यकता होती है (huggingface.co)। ProjectMem (जून 2026) एक ठोस उदाहरण है: यह पिछली त्रुटियों को दोहराने से बचने के लिए हर डेवलपर घटना (बग्स, फिक्स, निर्णय) को रिकॉर्ड करता है (huggingface.co) (huggingface.co)। वास्तव में, मेमोरी शासन बन जाती है – एक एजेंट पहले से आजमाए गए फिक्स को कमिट नहीं करेगा। यह पंक्ति वैनिला एलएलएम अनुसंधान (जो ज्यादातर एकल-सत्र कार्यों पर ध्यान केंद्रित करता है) से मल्टी-सत्र, स्टेटफुल व्यवहार को एकीकृत करके भिन्न है।

संक्षेप में, आधुनिक कोडिंग एजेंट स्केलेबल एलएलएम (GPT-3/4, क्लाउड, जेमिनी, LLaMA डेरिवेटिव) को एजेंटिक तर्क पैटर्न (चेन-ऑफ-थॉट, ReAct, प्लानिंग लूप) और टूल इंटरफेस (सैंडबॉक्स, गिट, शेल) के साथ एक साथ लाते हैं। प्रणालियों के बीच अंतर अक्सर स्वायत्तता की डिग्री, मेमोरी उपयोग और टूल एकीकरण पर निर्भर करता है, लेकिन सभी “प्लान-एक्ट-ऑब्जर्व” चक्र साझा करते हैं।

प्रमुख विकासों की समय-सीमा

2017: ट्रांसफार्मर आर्किटेक्चर पेश किया गया (rmax.ai), कोड के संदर्भ-जागरूक मॉडलिंग को सक्षम करना।
2019-2020: GPT-2/GPT-3 ने उभरते हुए इन-कॉन्टेक्स्ट लर्निंग का प्रदर्शन किया (rmax.ai)। मॉडल बिना फाइन-ट्यूनिंग के सुसंगत टेक्स्ट/कोड लिखने के लिए प्रॉम्प्ट का पालन कर सकते हैं।
2021: OpenAI का कोडेक्स मॉडल जारी किया गया (rmax.ai)। सार्वजनिक रूप से उपलब्ध कोड पर प्रशिक्षित, कोडेक्स कोड बेंचमार्क पर अत्याधुनिक प्रदर्शन हासिल करता है और गिटहब कोपायलट को शक्ति प्रदान करता है। एआई कोड सुझाव (ऑटोकम्प्लीट) मुख्यधारा बन जाते हैं – “कोपायलट युग” (rmax.ai)।
जून 2022: अमेज़ॅन ने कोडव्हिस्परर लॉन्च किया (अप्रैल 2023 में GA) (aws.amazon.com), एडब्ल्यूएस टूल में एकीकृत एक गिटहब-जैसा एआई कोडिंग साथी।
नवंबर 2022: ChatGPT (GPT-3.5-टर्बो) OpenAI द्वारा जारी किया गया, जो तेजी से एक बहु-मोड़ कोड सहायक के रूप में लोकप्रियता हासिल कर रहा है (हालांकि एक पूर्ण एजेंट नहीं)।
अक्टूबर 2022: ReAct पेपर सामने आता है (rmax.ai), एलएलएम के लिए “सोचो-फिर-कार्य करो” प्रतिमान स्थापित करना।
2023 (शुरुआत): मेटा टूलफॉर्मर (मई) जारी करता है और OpenAI कोड इंटरप्रेटर (बाद में ADA ब्रांडेड, नवंबर) जारी करता है (rmax.ai), एक सैंडबॉक्स में एआई सेल्फ-वेरीफाइंग कोड का प्रदर्शन करना।
2023: AutoGPT डेमो रिकर्सिव मल्टी-एजेंट लूप को लोकप्रिय बनाते हैं (rmax.ai)। ओपन-सोर्स फ्रेमवर्क उभरते हैं (जैसे OpenAI का codex CLI, गूगल का जेमिनी CLI, सामुदायिक परियोजनाएं)।
जून 2025: स्टार्टअप एनीस्फीयर (कर्सर) $900M जुटाता है, कंपनी का मूल्यांकन $9.9B पर करता है (siliconangle.com)। प्रतिस्पर्धी परिदृश्य: OpenAI विंडसर्फ ($3B) का अधिग्रहण करता है और गिटहब कोपायलट ~$500M ARR तक पहुंच जाता है (siliconangle.com)।
फरवरी 2025: एन्थ्रोपिक क्लाउड कोड लॉन्च करता है, जो अपनी तरह का पहला टर्मिनल-नेटिव कोडिंग एजेंट है (time.com) (rmax.ai)। यह स्थानीय फ़ाइलें पढ़/लिख सकता है, परीक्षण चला सकता है, और कार्यों के लिए उप-एजेंटों को स्पॉन कर सकता है। महीनों के भीतर यह एक समर्पित उपयोगकर्ता आधार (और $1B ARR राजस्व) जमा करता है (time.com)।
मई 2026: यूआईपाथ यूआईपाथ फॉर कोडिंग एजेंट का अनावरण करता है (www.uipath.com), एजेंटों को एंटरप्राइज़ CI/CD और शासन से जोड़ना। जेटब्रेन्स अपने 2026.1 रिलीज़ को बिल्ट-इन कोडिंग एजेंटों (जूनी, क्लाउड एजेंट) के साथ शिप करता है (www.jetbrains.com)।
जून 2026: एजेंटों के लिए ओपन-सोर्स मेमोरी सिस्टम पहली बार सामने आए (जैसे ProjectMem (huggingface.co))। उद्योग की आम सहमति यह है कि कटिंग एज टर्मिनल/IDE में मजबूत गवर्नेंस के साथ एक फुल-स्टैक एजेंट है, जैसा कि कई उत्पादों में परिलक्षित होता है।

निष्कर्ष: शुरुआत कैसे करें

स्वायत्त कोडिंग-एजेंट पारिस्थितिकी तंत्र विशाल और तेजी से विकसित हो रहा है, लेकिन अच्छी खबर यह है कि “एआई ने सभी के लिए कोडिंग को अनलॉक कर दिया है।” एक नवागंतुक के रूप में, आपको खरोंच से एक सिस्टम बनाने की आवश्यकता नहीं है। सबसे पहले, अपने रोज़मर्रा के टूल में एआई कोडिंग असिस्टेंट आज़माएँ। उदाहरण के लिए, विज़ुअल स्टूडियो कोड में गिटहब कोपायलट या एडब्ल्यूएस कोडव्हिस्परर इंस्टॉल करें (दोनों में मुफ्त टियर या परीक्षण हैं)। एक साधारण प्रोजेक्ट खोलें और एआई से एक छोटा फ़ंक्शन लिखने या रिफैक्टर करने के लिए कहें। यह आपको दिखाएगा कि एक एजेंट कोड को कैसे ऑटोकम्प्लीट कर सकता है और कमिट का सुझाव दे सकता है। वैकल्पिक रूप से, चैटजीपीटी के कोड इंटरप्रेटर (यदि आपके लिए उपलब्ध है) का उपयोग एक नमूना पायथन स्क्रिप्ट पर करें यह देखने के लिए कि यह कोड कैसे चलाता है और उत्तरों को परिष्कृत करता है।

एक बार सहज होने पर, एक ओपन एजेंट के साथ प्रयोग करें। उदाहरण के लिए, ओपनहैंड्स सीएलआई या एडर इंस्टॉल करें और उसे एक कार्य दें (जैसे “इस फ़ंक्शन के लिए यूनिट टेस्ट जोड़ें”)। देखें कि यह फ़ाइलों को कैसे संपादित करता है और परिवर्तनों को कमिट करता है। आप गूगल के मॉडल के साथ स्थानीय रूप से इंटरैक्ट करने के लिए जेमिनी सीएलआई (ओपन-सोर्स) भी आज़मा सकते हैं। परियोजनाओं के प्रबंधन के लिए, जेटब्रेन्स के एआई असिस्टेंट (जूनी/क्लाउड) या VS कोड के कंटिन्यू एक्सटेंशन को देखें – कई गिट और इश्यू ट्रैकर्स के साथ सहजता से एकीकृत होते हैं।

आपकी उत्पाद निर्माण यात्रा में अगला कदम एक एजेंट को एक वास्तविक वर्कफ़्लो में एकीकृत करना है। उदाहरण के लिए, एक गिटहब एक्शन जोड़ें जो हर पुल अनुरोध पर एक सीएलआई एजेंट चलाता है (जैसा कि OpenAI के जिरा-टू-PR उदाहरण में (cookbook.openai.com))। या अपने कोडबेस में एक दोहराव वाले कार्य को स्वचालित करने के लिए ओपनहैंड्स SDK का उपयोग करके एक छोटा एजेंट कौशल बनाने का प्रयास करें (इसके दस्तावेज़ों का पालन करते हुए)। ओपनहैंड्स की साइट पर ट्यूटोरियल और गिटहब पर कई सामुदायिक उदाहरण हैं।

पूरे समय, याद रखें: हमेशा सुरक्षा को ध्यान में रखें। एजेंट के परिवर्तनों की समीक्षा करें, टेस्ट सूट सेट करें, और सैंडबॉक्स सुविधाओं का उपयोग करें। कई फ्रेमवर्क आपको तब तक रीड-ओनली मोड में शुरू करने देते हैं जब तक आप आश्वस्त न हो जाएं। संक्षेप में, छोटे से शुरू करें, करके सीखें, और धीरे-धीरे इन उपकरणों पर अपने वर्कफ़्लो के अधिक हिस्से के साथ भरोसा करें।

कोडिंग में स्वायत्तता यहीं रहने वाली है। जून 2026 तक हमारे पास हॉबीइस्ट स्क्रिप्ट से लेकर एंटरप्राइज़ प्लेटफ़ॉर्म तक का एक समृद्ध पारिस्थितिकी तंत्र है। चाहे आप एक व्यक्तिगत डेवलपर हों या एक बड़ी टीम चला रहे हों, आपके लिए एक एजेंटिक समाधान है। कुंजी है कूदना, यहां सूचीबद्ध उपकरणों के साथ प्रयोग करना और पुनरावृति करना। ऐसा करने में, आप कल के सॉफ्टवेयर को तेजी से बनाने वाली टीमों और कंपनियों की लहर में शामिल होंगे, जिसमें एआई एक सच्चा विकास भागीदार होगा।

नई AI कोडिंग रिसर्च और पॉडकास्ट एपिसोड प्राप्त करें

AI कोडिंग टूल्स, AI ऐप बिल्डर्स, नो-कोड टूल्स, वाइब कोडिंग और AI के साथ ऑनलाइन प्रोडक्ट्स बनाने के बारे में नए रिसर्च अपडेट और पॉडकास्ट एपिसोड प्राप्त करने के लिए सब्सक्राइब करें।

← AI Builds It: Easy Coding Tools पर वापस