Hướng Dẫn Claude Managed Agents (Hiểu Đúng, Set-Up & Sử Dụng Trong 10 Phút)
Anthropic ra Claude Managed Agents public beta là mình "nghịch" sớm để lên hướng dẫn cho anh em liền nè! Coi cái hay, cái dở của tính năng mới này có gì tại bài viết này.
Anthropic (Cha đẻ của Claude AI) vừa ra mắt Claude Managed Agents (Public Beta) là mình đã lập tức ngồi xuống test ngay bằng cách đọc kĩ docs, xem demo, đọc engineering blog từ team họ & cũng thử thực hành để hiểu rõ bản chất của cái tính năng này là gì.
Thú thật thì đây không phải là một tính năng mới thêm vào Claude, mà đúng ra là Anthropic thay đổi toàn bộ cách AI agent được build và deploy, theo mình thì tính năng này sẽ ảnh hưởng đến bất kỳ ai đang dùng AI cho automation, hay đang có kế hoạch tính build AI Agent.
QUILIX AI Insights là newsletter chia sẻ về chủ đề AI. Tại đây, bạn sẽ tìm được nhiều tin tức, kiến thức, kỹ năng AI được cập nhật liên tục mỗi ngày.
Mục lục
Hầu Hết AI Agent Không Bao Giờ Ra Production
Nếu bạn đã từng thử build một AI agent thực sự, không phải chatbot, mà là agent tự làm việc, tự gọi tool, tự xử lý task trong nhiều bước nha!
Bạn sẽ biết vấn đề này rõ “mồn một” hơn bất cứ ai hết.
Trước khi Agent của bạn làm được bất cứ thứ gì, bạn phải tự lo toàn bộ phần cơ sở hạ tầng (Infrastructure) xung quanh:
Server để chạy Agent.
Sandbox để Claude build code an toàn.
Hệ thống lưu trạng thái để Agent không quên nó đang làm gì.
Xử lý lỗi khi mạng ngắt giữa chừng.
Bảo mật credentials để không bị lộ API key.
(Và nhiều thứ khác nữa)
Nhưng đó mới chỉ là những thứ CẦN có để con Agent của bạn có thể chạy được, chưa tính đến Mức Độ Tin Cậy của Output (Reliability) khi task làm việc đó kéo dài nhiều giờ.
Rồi mỗi khi Claude ra model mới, cái harness bạn build có thể phải viết lại từ đầu vì hành vi của thay đổi. Xong thì bạn bị rơi vào vòng xoáy giới hạn khi bạn tự *siết* AI để nó không trở nên thông minh hơn, bằng cách cho rằng nó đúng trên các giả định đã lỗi thời.
Đây là lý do hầu hết team dừng lại ở mức prototype chạy trên máy local và không bao giờ đưa Agent của họ lên production được, mấu chốt không phải vì họ thiếu ý tưởng hiện thực hóa điều đó, mà vì cái đống cơ sở hạ tầng (infrastructure) phía sau con Agent tốn quá nhiều thời gian và chi phí.
Trên benchmark METR, Claude đã vượt mốc tương đương 10 giờ làm việc của con người. Khi task chạy nhiều giờ như vậy, infrastructure xung quanh phải đủ uy tín (reliable) để không crash giữa chừng và tự có khả năng recover khi có sự cố xảy ra. Và nếu bạn muốn tự build một cái tương tự, thì ước chừng ngốn 3 đến 6 tháng cho engineering, và hơn $50.000 developer salary.
Claude Managed Agents ra đời để giải quyết những vấn đề trên!
Giải Thích Dễ Hiểu Về Claude Managed Agents
Thay vì bạn tự build và duy trì toàn bộ hạ tầng (infrastructure) để chạy AI agent, Anthropic với tính năng này sẽ làm hết phần đó giúp bạn.
Bạn chỉ cần định nghĩa agent của mình làm gì:
Model nào dùng.
System prompt là gì.
Tools nào có.
Kết nối với công cụ bên ngoài nào.
Anthropic sẽ lo phần còn lại:
Harness để Claude thực thi.
Sandbox để chạy code an toàn
Infrastructure để khắc phục nếu bị disconnect.
Recover từ các lần FAIL.
Agent của bạn nhận được bộ chứa riêng (container) trên cloud của Anthropic. Nó có thể chạy bash commands, đọc và ghi file, search web, fetch URLs, và thực thi code. Nếu đóng laptop và trở lại vào ngày hôm sau, agent đó vẫn đang chạy phà phà và bạn sẽ thấy được mọi thứ nó đã làm.
Và vì Anthropic duy trì harness, mỗi khi Claude cập nhật và giỏi hơn, harness cũng được cập nhật theo. Bạn sẽ không cần lo về việc agent mình đang giới hạn Claude bằng các giả định cũ.
Vào platform.claude.com ngay bây giờ, bạn sẽ thấy dashboard với một câu hỏi duy nhất: “What do you want to build?”, gõ mô tả hoặc chọn template, con agent của bạn sẽ đi vào hoạt động trong 4 bước.
Sự Quan trọng Của Kiến Trúc “Não Tách Khỏi Tay Chân”
Đây là phần trình bay kỹ thuật nhất của bài, nhưng cũng là phần mình thấy hay ho nhất, bạn sẽ không cần biết lập trình để hiểu tại sao thiết kế này quan trọng, chỉ cần đọc kĩ đoạn văn sau.
Team Anthropic nhận ra rằng bài toán mở rộng (scaling) agent không phải là về thiết kế harness hoàn hảo, mà là về hạ tầng (infrastructure), nên họ quyết định tách hệ thống thành ba phần hoàn toàn độc lập.
Họ gọi concept này là: “Não Tách Khỏi Tay Chân”
Phần não là Claude cùng với harness của nó, nơi intelligence và decision-making xảy ra.
Phần tay chân là sandbox và tools, nơi actions thực sự xảy ra trong thế giới thật: chạy code, gọi API, đọc file, search web.
Phần nhật ký là session log, ghi lại toàn bộ lịch sử của một lần chạy.
Trước đây, cả “não” lẫn “tay chân” đều nằm chung trong một container. Nghe rất chi là hợp lý, nhưng vấn đề là nếu container đó crash thì mất hết cả hai.
Và vì mọi thứ nằm chung một chỗ, thông tin xác thực (credentials) của bạn cũng nằm ở đó, tức là nếu có ai tiêm (inject) được câu lệnh độc hại nào vào agent của bạn, họ có thể đọc được toàn bộ API key và các thông tin nhạy cảm (Tấn công bảo mật).
Với thiết kế mới mà team Anthropic:
Não chạy một chỗ, tay chân chạy một chỗ khác, session log lưu một chỗ khác nữa. Mỗi thứ có thể fail hoặc được thay thế độc lập mà không ảnh hưởng đến nhau.
Thông tin xác thực (Credentials) được lưu trong vault bảo mật riêng, agent không bao giờ trực tiếp cầm API key của bạn.
Kết quả đo được từ kiến trúc “creepy” này là p50 thời gian chờ từ lúc gửi task đến lúc nhận được token đầu tiên giảm 60%. Còn p95, tức là những session chậm nhất, giảm hơn 90%. Sự khác biệt giữa cảm giác agent đang nghĩ và agent bị đơ đã rõ ràng hơn.
Và vì ba phần này độc lập nhau, khi Claude được cập nhật, Anthropic chỉ cần update phần não mà không cần rebuild phần tay chân, hay session infrastructure.
Bốn Khái Niệm Cần Hiểu (Trước Khi Sử Dụng)
Toàn bộ hệ thống Managed Agents này chỉ xoay quanh bốn thứ thôi!
Agent là bộ não được cấu hình sẵn với: Model bạn chọn, System prompt, Danh sách tool, MCP servers và Skills. Bạn tạo một lần rồi dùng lại nhiều lần bằng ID. Nếu mà thay đổi system prompt, hay thêm tool thì chỉ cần update con agent đó, tất cả session sau đều dùng config mới, việc này giống như một hồ sơ nhân viên: Tạo một lần, sau đó bạn có thể dựa vào và tham chiếu thông tin đó liên tục.
Environment là cái container cloud mà agent chạy trong đó, có Python, Node.js, Go cài sẵn, có cấu hình network, có file mount nếu cần. Packages được cache sau khi cài lần đầu, nghĩa là mỗi session mới bắt đầu với packages đã sẵn sàng, không cần chờ install lại, điều này giống như blueprint của môi trường làm việc: Config một lần, provision nhiều lần.
Session là một lần agent chạy thực sự, nhận task, thực thi, trả kết quả. Quan trọng là session log được lưu bền vững trên server, kể cả khi mạng bạn ngắt giữa chừng. Agent không mất trạng thái, reconnect lại là tiếp tục chiến được. Một agent có thể có hàng nghìn sessions.
Events là cách bạn và agent giao tiếp với nhau: Bạn gửi message, agent gửi lại kết quả, tool gửi lại output. Tất cả stream qua SSE và được lưu vào session log.
Một điểm quan trọng nhiều người hay nhầm: Session log không phải là context window của Claude.
Context window của Claude có giới hạn, nhưng session log thì không, nó lưu toàn bộ lịch sử.
Agent có thể đọc lại bất kỳ đoạn nào của session bất cứ lúc nào thay vì phải nhớ hết mọi thứ trong context.
Hướng Dẫn Setup Claude Manage Agents (Trong 10 Phút)
BƯỚC 1: Tạo Agent
Vào platform.claude.com. Có hai cách để bạn bắt đầu.
Cách MỘT là chọn template có sẵn.
Anthropic cung cấp hơn 10 template được preconfigure:
Deep Researcher cho research đa bước với source synthesis và citations.
Support Agent cho customer support từ docs.
Data Analyst để load và visualize data.
Incident Commander để triage Sentry alert và mở Linear ticket tự động.
Feedback Miner để cluster feedback từ Slack và Notion thành themes.
Field Monitor để scan blog và viết weekly brief.
Structured Extractor để parse text thành typed JSON.
Sprint Retro Facilitator để pull sprint từ Linear và viết retro doc.
Cách HAI là mô tả bằng ngôn ngữ thường.
Gõ thẳng vào input box điều bạn muốn, ví dụ “An agent that monitors my competitors’ pricing pages daily and sends me a Slack summary of any changes.” Claude tự build agent config cho bạn.
Sau đó configure thêm: Model giữa Sonnet 4.6 cho speed và Opus 4.6 cho complex reasoning, system prompt, tools như bash và web search và file operations, MCP servers để kết nối Slack hay Linear hay GitHub hay Notion, Skills cho các file workflow với xlsx, pptx, docx, pdf.
BƯỚC 2: Configure Environment
Pre-install packages cần thiết như pandas, numpy, ffmpeg, hay bất kỳ thứ gì agent cần. Configure networking, mặc định unrestricted hoặc lock down theo domain cụ thể. Mount files hay datasets agent sẽ cần access.
BƯỚC 3: Start Session
Nhấn Start. Agent live trong sandboxed container trên cloud Anthropic. Send message và xem agent think, decide, execute, stream kết quả real-time.
Ba điều cần biết mà hầu hết người không để ý:
Sessions survive disconnects, đóng laptop và ngày mai quay lại agent vẫn đang chạy và bạn thấy mọi thứ nó đã làm.
Built-in prompt caching tự động, cache hits tốn chi phí thấp hơn 10 lần.
Checkpointing, nếu container fail thì agent recover từ checkpoint cuối, không mất công việc đã làm.
BƯỚC 4: Integrate (Tích hợp)
Copy agent ID và embed vào product qua API. Connect webhook để trigger theo sự kiện. Dùng SDK cho Python, TypeScript, Java, Go, C#, Ruby, PHP. Hoặc tiếp tục dùng thẳng từ console.
Dashboard cung cấp full session tracing: Mọi tool call, mọi quyết định, mọi failure. Debug production agents mà không cần đoán mò.
Bốn Case Sử Dụng Thực Tế (Cùng Ví Dụ Cụ Thể)
Event-triggered: Một sự kiện xảy ra trong hệ thống trigger Managed Agent xử lý mà không có con người trong vòng lặp. Sentry đang dùng pattern này: Từ lúc bug được phát hiện đến lúc PR sẵn sàng để review, hoàn toàn tự động không cần human approve.
Scheduled: Agent chạy theo lịch định kỳ. Nhiều người dùng pattern này để tạo daily brief tự động về X activity hay GitHub commits của team. Cài một lần, chạy mỗi ngày mà không cần trigger từ con người.
Fire-and-forget: Assign task qua Slack hay Microsoft Teams và nhận lại deliverable như spreadsheet, slides, hay mini app. Notion đang dùng pattern này để cả team delegate task cho Claude trong workspace.
Long-horizon tasks: Đây là một repo auto-research của Andrej Karpathy (Obsidian) và dùng Managed Agent để nghiên cứu cách áp dụng một thư viện kỹ thuật vào engineering blog content. Rakuten cũng dùng pattern này để deploy 4 specialist agents cho các phòng ban khác nhau, mỗi cái trong dưới một tuần. Vibecode dùng nó để người dùng đi từ prompt đến app deployed nhanh hơn 10 lần.
Chi Phí Claude Managed Agents Là Bao Nhiêu?
Có ba thành phần chi phí.
Session runtime tính $0.08 mỗi giờ, metered đến millisecond, idle time miễn phí.
Tokens theo giá Claude chuẩn: Sonnet 4.6 là $3 per 1 triệu input tokens và $15 per 1 triệu output tokens.
Web search tính $10 per 1.000 lần search.
Để dễ hình dung:
Một coding session 20 phút tốn khoảng $0.40. Một customer support agent xử lý một ticket trong 3 phút tốn khoảng $0.05.
So sánh:
Chi phí tự build hạ gầng (infrastructure) tương tự, ước chừng là 3 đến 6 tháng engineering time và hơn $50.000 tiền lương developer. Đây là một API call.
Ai Nên Dùng Ngay, Ai Chưa Nên?
Thành thật mà nói, Managed Agents không dành cho tất cả người dùng, ít nhất là ở thời điểm này.
Nếu bạn đang ở giai đoạn mới bắt đầu với AI: Claude Chat và Claude Projects là đủ rồi, chưa cần đụng vào Manage Agents.
Nếu bạn đang build automation đơn giản không cần AI tự quyết định: n8n hay Make.com vẫn nhanh hơn vì có UI kéo thả, không cần đụng vào mấy cái API.
NHƯNG, nếu bạn đang build agent thực sự cần chạy lâu, cần xử lý nhiều bước, cần connect với nhiều tool khác nhau, và không muốn tự build infrastructure từ đầu: Managed Agents là thứ đáng thử đó, nó vẫn còn là Public beta, nên bạn sẽ không cần vào waitlist để dùng, chỉ cần truy cập platform.claude.com.
Đang chạy production: Notion serving teams lớn, Asana, Rakuten với 4 specialist agents cho các phòng ban, Sentry với automated bug-to-PR pipeline. Đây không phải case thử nghiệm mà đang phục vụ hàng triệu người dùng thật.
Ba Tính Năng Coming Soon Từ Claude Managed Agents
Hiện tại Managed Agents có một điểm hạn chế quan trọng: Chưa có scheduled trigger.
Bạn không thể bảo agent cứ 30 phút là wake up và check xem có task mới nào không.
Phải có external trigger gọi API để agent bắt đầu chạy. Đây là điểm n8n hay triggerdev vẫn mạnh hơn hiện tại.
Nhưng có 3 thứ đang ở research preview mà khi ra sẽ thay đổi cách dùng con Claude Managed Agents này rất đáng kể, đó là:
Outcomes là tính năng agent tự đặt tiêu chí thành công, tự đánh giá kết quả của mình, và tự lặp lại cho đến khi đạt (Không cần người dùng check-in)
Multi-agent coordination là một agent điều phối nhiều agent khác chạy song song, mỗi agent chuyên một task, kết quả được tổng hợp lại với nhau.
Persistent memory là memory tồn tại xuyên suốt các session thay vì reset mỗi lần, Agent sẽ nhớ context từ tuần trước, từ tháng trước đến thời điểm hiện tại.
Ba thứ cộng lại có nghĩa là: AI có thể tự giao việc cho chính nó, tự đánh giá kết quả, và nhớ mọi thứ xuyên suốt. Đó là thứ nhiều người đang hình dung khi nói về AI làm việc thực sự.
Nhận Định Cá Nhân Từ QUILIX AI
Sau khi đọc kỹ cả technical design, engineering blog, và pricing, mình thấy như này:
Điều thứ nhất là về triết lý thiết kế. Quyết định tách não, tay chân, và nhật ký thành ba interface độc lập không phải là quyết định kỹ thuật thông thường. Đó là quyết định về sự thừa nhận rằng harness tốt nhất hôm nay sẽ là nút thắt của ngày mai vì Claude sẽ tiếp tục giỏi hơn. Thay vì cố thiết kế harness hoàn hảo, họ thiết kế hệ thống mà harness có thể được thay thế mà không phá vỡ gì hết. Đây là cách đúng để build thứ gì đó trên nền tảng đang thay đổi nhanh.
Điều thứ hai là về con số $0.05 mỗi ticket và $0.40 mỗi coding session 20 phút. Những con số này thay đổi calculus của rất nhiều bài toán. Trước đây câu hỏi luôn là “Có đáng bỏ engineering time để build agent không?” Với cái giá sử dụng này thì CÓ LẼ câu hỏi thay đổi thành “Mình muốn agent làm cái gì tiếp theo?”
Điều thứ ba là thứ mình thấy thực sự quan trọng cho người dùng Việt Nam nói riêng. Ba tính năng coming soon, Outcomes, Multi-agent coordination, và Persistent memory, khi cộng lại sẽ tạo ra thứ mà mình chỉ có thể mô tả là AI nhân viên thật sự đầu tiên (Không phải chatbot, không phải tool). Nhân viên tự đặt tiêu chí, tự đánh giá, tự nhớ context, tự chạy song song nhiều task. Và khi điều đó xảy ra, người đã có kinh nghiệm với Managed Agents sẽ có lợi thế đáng kể so với người mới bắt đầu.
Template mình sẽ test đầu tiên là Field Monitor để quét blog AI hàng tuần và tạo brief. Nếu nó chạy đúng như mô tả, đó là vài giờ mỗi tuần mình lấy lại được để tập trung vào thứ quan trọng hơn.
Tổng Kết
Claude Managed Agents giải quyết ba vấn đề cùng lúc: Harness stale khi Claude update, infrastructure không reliable cho long-horizon tasks, và engineering cost quá cao để hầu hết team có thể ship.
Bằng cách tách não, tay chân, và nhật ký thành ba interface độc lập và managed toàn bộ infrastructure, Anthropic cho phép bạn tập trung vào việc agent làm gì thay vì lo plumbing.
Nếu bạn đang build agent hoặc đang tính bắt đầu, đây là thời điểm đúng để thử. Barrier từ months xuống còn minutes. platform.claude.com, không cần waitlist.
Bạn đang build gì hoặc đang gặp vấn đề gì với AI automation? Comment xuống dưới nhé, mình muốn biết anh em đang ở đâu trong hành trình này.
1% better everyday with AI. Mình TIN CHẮC bạn làm được!
Chú Thích Thuật Ngữ
Agent Harness: Code trung gian đứng giữa AI model và thế giới bên ngoài. Nhận lệnh từ AI, route đến tool đúng, quản lý context, xử lý lỗi.
Sandbox: Môi trường thực thi cô lập nơi agent chạy code mà không ảnh hưởng đến hệ thống bên ngoài.
Session Log: Nhật ký đầy đủ của một lần chạy agent, bao gồm mọi quyết định, tool call, và kết quả. Khác với context window của Claude ở chỗ không có giới hạn kích thước.
Checkpointing: Cơ chế lưu trạng thái định kỳ để khi có sự cố, hệ thống recover từ điểm lưu gần nhất thay vì bắt đầu lại từ đầu.
Prompt Caching: Tái sử dụng kết quả xử lý các đoạn text đã được xử lý trước. Cache hits tốn chi phí thấp hơn 10 lần so với xử lý lại.
MCP (Model Context Protocol): Giao thức chuẩn mở của Anthropic cho phép AI model kết nối với công cụ và dữ liệu bên ngoài như Slack, GitHub, Notion.
Long-horizon tasks: Task cần chạy trong thời gian dài từ nhiều giờ đến nhiều ngày với nhiều bước liên tiếp.
SSE (Server-Sent Events): Kỹ thuật stream dữ liệu từ server về client theo thời gian thực, cho phép bạn thấy kết quả của agent ngay khi nó được tạo ra thay vì phải chờ toàn bộ xong mới nhận.
p50 và p95: Chỉ số đo performance. p50 là điểm giữa của tất cả giá trị đo được. p95 là điểm mà 95% các trường hợp nhanh hơn, tức là đại diện cho những trường hợp chậm nhất.
METR Benchmark: Hệ thống đánh giá khả năng AI agent hoàn thành task phức tạp, đo bằng số giờ làm việc tương đương của con người.
Theo dõi mình ở các mạng xã hội khác:

