Perhitungan Agentik: Organisasi AI perusahaan mempunyai masalah runtime, bukan masalah model — dan sebagian besar perusahaan membuat solusi yang salah


Pada kuartal pertama tahun 2026, Pulse Research dari VentureBeat memunculkan “Mirage Tata Kelola”: kesenjangan antara bagan organisasi tata kelola yang telah dibuat oleh perusahaan dan lapisan kontrol yang sebenarnya mereka bangun. Empat puluh tiga persen mengatakan tim pusat memiliki tata kelola AI; 23% sama sekali tidak setuju siapa pemiliknya; dan 31% menyebut opasitas vendor sebagai satu-satunya kendala terbesar. Gelombang penelitian baru ini menanyakan pertanyaan berikutnya: Setelah Anda mengakui masalah tata kelola, apa yang menjadi kendala pertama saat Anda mencoba memperbaikinya? Jawaban responden kami tidak ambigu. Titik kegagalannya bukanlah pada modelnya. Ini adalah waktu proses. Perusahaan-perusahaan menemukan bahwa agen AI yang dibangun di atas infrastruktur tanpa kewarganegaraan — skrip Python, rantai LangChain, orkestrasi ad hoc — tidak dapat bertahan dalam realitas operasional produksi. Pengulangan ulang kontainer akan menghapus konteks. Biaya token melanggar kasus bisnis. Halusinasi pada Langkah 3 bertambah menjadi kegagalan besar pada Langkah 12. Dan sebagian besar tim teknik menghabiskan lebih banyak waktu untuk mengelola “saluran air” ini dibandingkan membangun kecerdasan yang seharusnya membenarkan investasi tersebut. Apa yang muncul dari survei ini adalah gambaran industri yang berada pada titik kritis. Organisasi-organisasi yang bertahan dalam Agentic Reckoning adalah organisasi-organisasi yang memperlakukan ketahanan waktu proses sebagai masalah teknik kelas satu — bukan sebuah renungan yang harus diperbaiki dengan percobaan ulang dan dorongan. Mereka yang tidak melakukan hal tersebut akan kembali ke tempat RPA meninggalkan perusahaan satu dekade yang lalu: kuburan para pilot pintar yang tidak dapat bertahan di Hari Kedua.MethodologyVentureBeat melakukan survei ini pada bulan Mei 2026 sebagai bagian dari seri Pulse Research yang sedang berlangsung mengenai adopsi AI agen di perusahaan. Responden disaring ke organisasi dengan 100 karyawan atau lebih. Sampel akhir yang memenuhi syarat terdiri dari 132 pemimpin teknologi terverifikasi dan berkualifikasi tinggi yang berada di garis depan penerapan agen AI perusahaan. Mereka mencakup:Direktur AI/Analytics (8%)Direktur Teknik/TI (16%)VP Data/AI/Analytics (5%)VP Teknik/TI (5%)CIO/CTO/CISO (15%) Manajer Produk dan Program (13%) Konsultan (9%) Insinyur Perangkat Lunak dan ML (9%) Arsitek Perusahaan (8%) Lainnya (12%)Industri yang diwakili meliputi Teknologi/Perangkat Lunak (42%), Jasa Keuangan (20%), Layanan Profesional (8%), Layanan Kesehatan/Ilmu Hayati (7%), Ritel/Konsumen (6%), Pendidikan (4%), dan lain-lain. Mengingat kriteria penyaringan kami yang ketat, kelompok ini memberikan gambaran yang kuat dan otoritatif mengenai tren infrastruktur agen yang sedang berkembang. Demografi responden berdasarkan ukuran perusahaan: Perusahaan besar (10.000+ karyawan): 35% dari sampel Perusahaan menengah hingga besar (500–9.999 karyawan): 48% dari sampelPertumbuhan perusahaan (100–499 karyawan): 17% dari sampelTemuan kuantitatif ini menangkap momen penting dalam evolusi infrastruktur dan paling baik disintesiskan bersama dengan laporan tata kelola Kuartal 1 tahun 2026 dari VentureBeat dan percakapan mendalam para praktisi yang dilakukan sepanjang kuartal tersebut. ketidakmampuan infrastruktur runtime untuk mengelola status, bertahan dari kegagalan, dan mengoordinasikan eksekusi — Spine. Kami bertanya langsung kepada responden kami. Tantangan integrasi/tata kelola merupakan masalah terbesar. Namun permasalahan tulang belakang masih tertinggal. Temuan 1 — Runtime adalah masalahnya 47% mengatakan hambatan sebenarnya adalah Kesenjangan Integrasi/Tata Kelola — kurangnya jaringan penghubung terstandar (misalnya, MCP) untuk mengatur akses data secara aman antara agen dan sistem perusahaan 37% mengatakan kegagalan pada dasarnya adalah masalah Spine: infrastruktur stateless terlalu rapuh untuk produksi 17% mengatakan Otak adalah mode kegagalan utama: model frontier masih kekurangan keandalan Sistem 2 yang diperlukan untuk kasus edge yang kompleks setelah alur kerja melebihi 10+ langkah penalaran Namun, 17% masih mengatakan Otak adalah mode kegagalan utama. Itu bukan kesalahan pembulatan — ini adalah sinyal. Organisasi-organisasi dalam kelompok ini tidak mempermasalahkan masalah infrastruktur; mereka memberi tahu kita bahwa model itu sendiri belum cukup andal untuk kasus-kasus edge yang dihasilkan alur kerja mereka. Perdebatan model-versus-runtime sebenarnya bersifat tiga sisi. Baca bersama-sama, ketiga jawaban ini tidak sepenuhnya bertentangan. Kamp Spine dan Gap masing-masing mengalami kesulitan dalam hal infrastruktur dan tata kelola. Kelompok Otak sedang berjuang dengan sesuatu di hulu: keandalan penalaran dalam skala besar. Ini adalah temuan yang signifikan. Perang model terdepan — GPT-5 vs. Claude 4.7 vs. Grok — memakan banyak pemikiran dalam pers teknologi perusahaan. Responden kami mengatakan bahwa perang, untuk saat ini, tidak ada gunanya. Model-model yang ada cukup cerdas, namun infrastruktur di sekitarnya tidak. “Model-model tersebut cukup cerdas, namun infrastruktur tanpa kewarganegaraan (stateless) kita terlalu rapuh untuk mengelola proses agen yang bersifat multi-langkah dan berjalan lama.” — Direktur Teknik/TI, Jasa Keuangan, 10.000–49.999 karyawanTemuan 2: Pajak DIY memakan hidup tim. Kapasitas teknik dikonsumsi oleh pipa ledeng, bukan intelijen. Jika Spine adalah mode kegagalan utama, berapa biaya yang harus dikeluarkan dalam praktiknya? Kami bertanya kepada responden berapa persentase kapasitas teknik mingguan tim mereka yang digunakan untuk membangun dan memelihara “pemipaan” khusus — percobaan ulang manual, kegigihan negara, pos pemeriksaan — dibandingkan logika agen yang sebenarnya. Hasilnya menunjukkan pasar di dua kubu yang berbeda, dengan titik tengah yang berbahaya. Temuan 2 — Pajak DIY memakan hidup tim 27% berada dalam Perangkap Kompleksitas: 25–50% dari setiap sprint hilang karena overhead infrastruktur dan kegagalan hantu 26% membayar Pajak Pemeliharaan (10–25% dari kapasitas sprint): kira-kira satu hari per minggu melakukan debugging skrip yang digantung dan mengelola keadaan dasar 24% berada dalam Krisis Keandalan (>50% kapasitas sprint pada pipa ledeng): lebih dari separuh waktu teknis dihabiskan untuk sistem saraf, bukan otak 23% berada di Zona Efisiensi (<10% of sprint capacity on plumbing): reliability handled by framework or platform; team focuses on core agentic logic The arithmetic is stark. Seventy-seven percent of respondents are spending meaningful engineering time on infrastructure overhead. Just 23% — those whose frameworks are handling reliability — have escaped the tax. The distribution is notably flat: the Crisis and Efficiency poles are the same sizes as the middle categories (Trap and Maintenance Tax). This is the signature of a market that has partially addressed the worst failures but has not yet escaped the structural overhead.The Efficiency Zone respondents are not necessarily in a more sophisticated position. In many cases, they may be on managed platforms that abstract away the durability problem — or they may simply not yet have hit the scale at which stateless architectures begin to fail. The Complexity Trap is often where the Efficiency Zone ends.There’s a direct business consequence for organizations in the Crisis zone. Every engineering hour spent writing retry logic or debugging a "ghost failure" — a silent API timeout that leaves an agent hanging without a traceback — is an hour not spent on the differentiated logic that was supposed to justify the AI investment in the first place.Finding 3: State amnesia is the production killerThe No. 1 technical obstacle has shifted: Cost and hallucination now lead state failuresWhen AI agents fail to reach production or scale, what is the primary technical obstacle? We named five candidates, ranging from model hallucination to cost overruns to latency failures. Finding 3 — State amnesia is the production killer 29% cite the ROI Ceiling: token costs and infrastructure overhead exceed the project's total business value 24% cite Hallucination Propagation: logic drift in early reasoning steps compounding into total system failure 20% cite Ghost Failures: silent API timeouts and state loss where the agent hangs without a traceback 17% cite State Amnesia: agents losing context due to container restarts, deployments, or transient glitches 10% cite Latency and SLA Breaches: agent fails to meet strict Time-to-Resolve promises, creating operational risk even when reasoning is correct Hallucination Propagation at 24% compounds silently — reasoning errors in early steps become catastrophic by Step 10. Ghost Failures at 20% are invisible by definition, which means their real prevalence is likely higher than this number suggests.Finding 4: The observability tax falls heaviest on MicrosoftPlatform visibility costs are not equally distributedOur Q1 2026 research identified vendor opacity as the single biggest obstacle to AI governance — ahead of talent gaps, tooling, and budget. That finding pointed to this question: Which vendor ecosystem, in practice, imposes the highest cost to achieve basic production visibility?We asked respondents which platform requires the most custom telemetry, manual instrumentation, and "logging glue" to achieve visibility into agentic failures. Finding 4 — The observability tax falls heaviest on Microsoft 42% name Microsoft (GitHub Copilot Workspaces / Agent Framework) as the highest Observability Tax 30% name OpenAI (Codex / Agents SDK) 16% name Google (Antigravity IDE / Vertex AI Agent Builder) 12% name Anthropic (Claude Code / Claude Agent SDK) Microsoft's position at the top of this ranking is not noise. It is a structural characteristic of the Microsoft agentic ecosystem — the same Azure/Copilot stack that dominates enterprise AI adoption requires the most instrumentation overhead to see inside.It also reinforces the warning that Brian Gracely, Senior Director at Red Hat, made at VentureBeat’s Boston event in March: that building your control system entirely inside one cloud provider's toolset means "renting a cage." The organizations paying the highest observability tax are precisely those most locked into provider-native tooling.The implication for teams currently evaluating orchestration architecture is direct: observability cost is a real budget item that should appear in any build-vs-buy analysis. A platform that appears cheaper at the API layer may impose substantially higher engineering costs at the telemetry layer.Finding 5: The hype-reality gap belongs to OpenAI and MicrosoftAgentic coding marketing is significantly ahead of production reliability. We asked respondents a pointed question: Which major platform's Agentic Coding marketing is the most disconnected from the actual technical reliability and fault-tolerance of their product? Thirty-two percent said they didn't know — a figure that has held roughly constant across all three waves, suggesting persistent uncertainty is structural, not a sample artifact. Cursor also registered 6% in this wave. Among those with enough production experience to have a view. Finding 5 — The hype-reality gap belongs to OpenAI and Microsoft 45% name Microsoft (GitHub Copilot Workspaces / AutoGen) 22% name OpenAI (Codex / Agents SDK) 12% name Google (Antigravity IDE / Agent Manager) 11% name Anthropic (Claude Code / Claude Agent SDK) Microsoft leads at 45%; OpenAI is second at 22%. The gap is too large to attribute solely to deployment footprint. It suggests that GitHub Copilot Workspaces and AutoGen are generating a specific category of disappointment — probably around the reliability of multi-agent orchestration in production — that accumulates with use. A platform that fewer enterprises are running in production will accumulate fewer credible disappointed practitioners.The more significant observation is what this gap means for decision-makers evaluating new agentic tooling. The marketing around all major platforms describes agentic autonomy and reliability at a level that production deployments are not yet delivering. The organizations in our survey who have moved beyond pilots are encountering the difference firsthand.Finding 6: The security mesh is being built from first principlesEnterprises are not waiting for vendors to solve agent securityHow are enterprises protecting proprietary research data from AI leakage and prompt-driven exfiltration? The security architecture question is one of the most consequential in agentic AI, because agents — unlike static models — can actively call APIs, traverse file systems, and execute code. The blast radius of a security failure is qualitatively different.Policy-as-Code is a leading security mechanism, but not by much.  Finding 6 — The security mesh is being built from first principles 30% are implementing Policy-as-Code (Governance Gates): hard-coded Can/Cannot rules in the orchestration layer that override model-generated intent 25% are using Deterministic Data Masking: middleware that redacts PII before it reaches the inference context 23% are implementing Least-Privilege Identity (NHI): unique, short-lived Non-Human Identities and scoped API keys per agent thread 22% are using Egress-Locked Sandboxing: isolated, egress-controlled containers for untrusted model-generated code The NHI and Policy-as-Code approaches are meaningfully different in their security philosophy. NHI is identity-centric: The question it answers is "who is this agent and what is it allowed to touch?" Policy-as-Code is rule-centric: The question it answers is "regardless of what the model decides to do, what hard stops exist at the infrastructure level?"Rough parity across all four mechanisms is the headline finding. This is what market convergence looks like in early motion: No dominant pattern has emerged. Notably, though, Egress-Locked Sandboxing is a relatively new trend in agentic AI deployments, yet it’s already at 22%. As more agents gain terminal-level access to enterprise systems, the cost-benefit of sandboxing is improving. This is notable given the maturity of the identity management and policy-as-code disciplines in traditional IT security. The AI security layer is, for now, being built largely from scratch.The Egress-Locked Sandboxing number deserves attention despite its smaller share. Sandboxing untrusted code execution is the most technically intensive of the four approaches, but it is also the most direct defense against prompt injection attacks that try to execute malicious code through agent tooling. As agentic systems gain more terminal-level access — a trend our survey confirms is accelerating — this approach may prove more important than its current adoption rate suggests."How do we audit agentic tools that have terminal-level access to our proprietary repos?"— Composite concern expressed by multiple respondentsFinding 7: The complexity cliff is real, and most are climbing itThe migration away from stateless architectures is underway — but fragmentedThe central thesis of the Agentic Reckoning is that stateless Python/LangChain architectures cannot survive the complexity cliff — the point at which multi-step, long-running agent workflows begin failing at rates that make production deployment untenable. We asked respondents directly: are you migrating toward durable execution frameworks to solve for state loss?The answers reveal a market in transition, with meaningful disagreement about the right destination. Finding 7 — The complexity cliff is real, and most are climbing it 32% are in Active Migration: moved or actively moving agent logic into durable orchestration layers for state persistence and auditability 27% are in Governance-First Architecture Evaluation: adopting durable runtimes specifically to enforce data boundaries and deterministic fallbacks 21% are adopting Policy-as-Code Governance Gates as their primary response to the Complexity Cliff 20% are making a Stateless Commitment: sticking with stateless chains and attempting to solve reliability through prompting and retries The 20% committed to stateless architectures — attempting to solve a structural durability problem through better prompting — are the cohort most likely to encounter State Amnesia and Ghost Failures as their workloads scale. It’s essentially the same trap that RPA teams fell into a decade ago, when brittle process automations were patched with increasingly elaborate rule sets rather than re-architected on more resilient foundations.The Stateless Commitment cohort deserves a reinterpretation. These teams are not all naive: some are building on managed platforms that genuinely abstract state management. But a portion is patching structural fragility with prompting improvements, and the Ghost Failures data in Finding 3 suggests this approach may be encountering its ceiling.The combined 59% who are either in Active Migration or in Governance-First Evaluation represent the market's leading edge — organizations that have recognized the architectural problem and are investing to solve it structurally.Finding 8: The “polyglot orchestration” lead is narrow — the field is fragmentedArchitectural conviction is spread across multiple betsWhat is the longterm architectural philosophy winning enterprises' strategic investment? We offered four options representing the major bets available in the current market. Finding 8 — The "polyglot orchestration" lead is narrow 39% are making the Polyglot Bet: hybrid layered orchestration using model-native reasoning for non-deterministic planning, with deterministic rules engines for mission-critical execution 28% are betting on the Cloud-Native Managed Stack: primary cloud provider (AWS Step Functions, Microsoft ADK) for full integration 16% are betting on the Model-Native Monolith: Frontier Labs (OpenAI/Anthropic) to handle the full stack — reasoning, state, and execution 16% are betting on Independent Durable Runtime: agnostic execution layers (LangGraph, Temporal, Restate) for full data sovereignty The Polyglot Bet's lead suggests that enterprises are seeing advantages of using a flexible approach: Using model-driven architectures where non-deterministic reasoning works well, but using deterministic structures and pipelines where accuracy and mission-critical execution is at stake.This has direct competitive implications for the frontier labs and cloud providers. The cohort saying the use a Cloud-Native Managed Stack is significant. This likely reflects the enterprise reality that Azure OpenAI Service and AWS Bedrock deployments come with built-in organizational gravity — procurement relationships, security approvals, and existing data pipelines. The Independent Durable Runtime bet at 16% signals that a cohort of teams have rejected both cloud lock-in and frontier lab dependency in favor of full architectural sovereignty.The Polyglot result also helps explain why the observability and governance problems described in this survey are so persistent. When your architecture deliberately spans multiple orchestration layers and multiple providers, no single vendor's telemetry gives you the full picture. The "Dynatrace for AI" — the unified observability platform called for by Mass General Brigham's CTO Nallan Sriraman at the VentureBeat Boston event — becomes not just desirable but structurally necessary."Enterprises trust no single provider enough to give them full control, yet they lack the engineering capacity to build entirely from scratch." — Survey respondentFinding 9: User acceptance rate is the emerging production standardThe market is settling on a human-trust metric as its primary A-SLAWhat metrics are enterprises actually using to determine whether an AI agent is ready for production? We asked respondents to identify their primary Agentic SLA (A-SLA) indicator — the number that, above all others, tells them whether an agent can ship. Finding 9 — User acceptance rate is the emerging production standard 47% User Acceptance Rate: the percentage of autonomous actions accepted as-is without human intervention 30% Context Fidelity: the agent's ability to maintain state and memory over a 48-hour+ execution window 12% Tool Selection Accuracy: the rate at which the agent selects the correct tool or API call for each task step (target: >99%) 11% Latency Jitter: konsistensi waktu respons di seluruh loop penalaran non-deterministik Tingkat Penerimaan Pengguna sebagai metrik produksi yang dominan adalah penting karena ini merupakan ukuran kepercayaan manusia, bukan ukuran kinerja teknis. Ia tidak menanyakan apakah agen itu berlari cepat atau dalam keadaan terawat. Ia menanyakan apakah manusia yang meninjau keluarannya memilih untuk menerimanya. Ini sebenarnya adalah tes Turing tingkat lapangan yang diterapkan pada tingkat tindakan. Kegigihan UAR sebagai metrik terdepan mencerminkan realitas di mana sebagian besar penerapan agen perusahaan masih berada: dalam postur human-in-the-loop, di mana tindakan agen memerlukan tinjauan manusia sebelum dieksekusi. Itu adalah respon rasional terhadap Penyebaran Halusinasi dan Kegagalan Hantu yang dijelaskan sebelumnya dalam survei ini. Organisasi-organisasi yang belum memecahkan masalah ketahanan runtime, dengan bijaksana, tetap menjaga agar manusia tetap mengetahui perkembangannya — dan pada 132 responden, tidak ada bukti bahwa hal ini akan berubah. Posisi Context Fidelity pada angka 30% adalah temuan yang paling signifikan. Hal ini dilacak langsung dengan data Migrasi Aktif di Temuan 7: Semakin banyak tim beralih ke kerangka kerja eksekusi yang tahan lama, masalah memori 48 jam+ menjadi perhatian produksi utama mereka. Tim yang telah menyelesaikan State Amnesia kini fokus pada apakah agen mereka dapat mengingat apa yang dilakukannya kemarin. Runtuhnya Latensi Jitter dari 25% menjadi 11% memberikan kisah yang saling melengkapi: kecepatan mentah tidak lagi menjadi kekhawatiran utama. Ketepatan dan daya tahan telah mengambil tempatnya. Intinya: Perhitungannya adalah waktu proses, bukan penalaran. Data menceritakan kisah yang konsisten: Ada defisit waktu proses untuk agen. Perusahaan menghabiskan lebih banyak waktu untuk pembangunan infrastruktur dibandingkan intelijen agen, dan Amnesia Negara masih mengklaim penerapan produksi. Namun garis patahan masih terlihat. Batasan ROI telah melampaui Amnesia Negara sebagai penyebab utama kematian produksi – yang berarti masalah infrastruktur bukan lagi sekedar masalah teknis. Ekonomi token dan overhead orkestrasi kini menghabiskan cukup banyak nilai bisnis sehingga sponsor proyek mengambil keputusan penting sebelum tim teknik dapat menyelesaikan masalah ketahanan. Propagasi Halusinasi masih menjadi masalah besar. Pemungutan suara Otak di Temuan 1 tetap signifikan. Dan kepemimpinan Polyglot sangatlah rapuh, dengan beragam arsitektur yang terwakili dengan baik. Model-model tersebut, menurut penilaian sebagian besar responden, cukup cerdas — namun 17% tidak setuju. Yang masih belum cukup cerdas adalah infrastruktur yang melingkupinya: manajemen negara, toleransi kesalahan, kemampuan observasi, tata kelola identitas, dan lapisan eksekusi deterministik yang mengubah penilaian model menjadi sesuatu yang dapat dipertaruhkan oleh perusahaan dalam operasinya. 39% yang menjadikan Polyglot Bet mewakili pemikiran arsitektur perusahaan terdepan saat ini. Mereka membangun sistem yang kecerdasan modelnya dipertahankan dan dimanfaatkan, namun lapisan eksekusinya — Spine — bersifat deterministik, dapat diaudit, dan tahan lama berdasarkan desainnya. Mereka tidak menunggu laboratorium perbatasan untuk menyelesaikan masalah ini untuk mereka. Mereka tidak yakin bahwa dorongan yang lebih baik akan memperbaiki kerapuhan infrastruktur. Mereka sedang membangun bidang kendali. Organisasi-organisasi yang masih berkomitmen pada arsitektur stateless – masih percaya bahwa percobaan ulang secara manual dan dorongan cerdas dapat menggantikan eksekusi yang tahan lama – adalah organisasi yang paling mungkin berkontribusi pada gelombang berikutnya dari data ini. Kegagalan Hantu adalah hambatan utama. Polanya sudah lazim: Pengguna awal mendiagnosis masalah secara arsitektural, bermigrasi ke runtime yang tahan lama, dan keluar dari mode kegagalan. Penggerak yang terlambat mewarisinya. Tebing Kompleksitas tidak bersifat teoritis. Ini adalah tembok yang paling banyak dituju oleh arsitektur agen saat ini. Perhitungannya adalah waktu proses dan keekonomian, bukan alasan. Berdasarkan tanggapan survei dari 132 responden perusahaan yang memenuhi syarat (100+ karyawan). Ukuran sampelnya kecil; data harus diperlakukan sebagai terarah. Respondennya meliputi Direktur, VP, CIO, CTO, dan Arsitek Perusahaan di bidang Teknologi, Jasa Keuangan, Ritel, Layanan Kesehatan, dan sektor lainnya.


Diterbitkan : 2026-06-02 18:49:00

sumber : venturebeat.com