23 mẹo xài Claude AI để không bị giới hạn sử dụng (Token Usage Limit)

Một vấn đề "nhức nhối" của các bạn mới dùng Claude AI, chưa "sướng" được bao nhiêu thì đã tắt hứng. Bài viết này là 23 mẹo dùng Claude để tiết kiệm token và hạn chế việc dính Limit khi dùng AI.

Apr 18, 2026

QUILIX AI Insights là newsletter chia sẻ về chủ đề AI. Tại đây, bạn sẽ tìm được nhiều tin tức, kiến thức, kỹ năng AI được cập nhật liên tục mỗi ngày.

Ai đã đã từng chạm limit trên Claude & ngồi nhìn màn hình báo “you’ve reached your limit” thì giơ tay và vui lòng đọc ngay bài này nhé!

If you're hitting your Claude usage limits first thing in the morning, here's 5 little tricks to stop running out of tokens: 1. Fix long chats before they get expensive Every new

Sau một thời gian xài hao token, mình đã ngộ nhận & rút ra được 23 thói quen để bạn khó mà chạm limit dù dùng Claude AI cả ngày.

Bài này chia sẻ lại toàn bộ theo cách Ruben Hassid lý giải trong article “How to stop hitting Claude usage limits.”, kèm theo những gì mình thấy thực sự quan trọng nhất với các bạn đang dùng Claude AI tại Việt Nam.

How to AI

How to stop hitting Claude usage limits.

3 months ago · 958 likes · 297 comments · Ruben Hassid

Mục lục

Token Là Gì? Tại Sao Credits Hay Biến Mất?

Trước khi vào 23 thói quen, cần hiểu một khái niệm cốt lõi: Token trong Claude AI.

Token là đơn vị đo lường mà Claude dùng để tính chi phí cho việc dùng AI của bạn.

Cứ hiểu đơn giản như này:

Một token xấp xỉ một từ. Bạn gửi một tin nhắn, Claude đọc lại toàn bộ cuộc trò chuyện từ đầu, mọi tin nhắn trước đó, mọi câu trả lời trước đó, tất cả.

Tin nhắn đầu tiên thì tốn rất ít. Nhưng mà tin nhắn thứ 30 thì Claude đang đọc lại 29 lần trao đổi trước khi bắt đầu nghĩ về câu hỏi mới của bạn.

Đó là lý do credits (tín dụng) “bốc hơi” rất nhanh, chat của bạn càng dài, thì mỗi tin nhắn càng đắt đỏ hơn.

Mọi thói quen trong bài viết này đều xoay quanh một ý tưởng:

Tránh lãng phí token để dành chúng cho việc thực sự quan trọng.

Nhóm 1: Những Thói Quen Ít Người Biết

Đây là những thứ thay đổi cách mình dùng token nhiều nhất.

Thói quen 1: Convert file trước khi upload

Một trang PDF tốn 1.500 đến 3.000 token. Screenshot còn tệ hơn, ảnh 1000x1000 pixel tốn khoảng 1.300 token. File DOCX và PPTX còn chứa metadata ẩn mà mình không thể thấy được.

Thay vào đó, bạn extract (trích xuất) cái text đó ra, copy phần liên quan vào file text hoặc markdown, hoặc cap màn hình (screenshot) để lấy phần cần thiết, điều này có thể giúp bạn tiết kiệm từ 1.300 token xuống dưới 100.

Nếu upload cùng file PDF 15 trang vào 4 chat khác nhau, mình đã đốt hơn 180.000 token cho một tài liệu có thể convert thành 2.000 token text sạch.

Workflow yêu thích của mình: Gõ doc.new trên URL bar, paste text cần upload, download dưới dạng file .md.

Thói quen 2: Plan trong Chat, tạo file ở cuối

Anthropic xác nhận việc tạo file như spreadsheet, docs, presentations tốn nhiều limit hơn việc bạn chat thông thường.

Vì vậy đừng mở Cowork và nói liền: “Tạo cho tôi 1 biểu đồ tài chính”, hay tạo thứ gì đó.

Thay vào đó: Mở Chat, vạch ra cấu trúc prompt, thống nhất các sections, yêu cầu outpit bạn mong muốn. Khi biết chính xác bạn muốn gì, lúc đó mới copy và chuyển sang Cowork và dán “Build this exact file.”, điều này góp phần làm cho AI suy nghĩ ở mức rẻ hơn, nhưng execute (thực thi tác vụ) với khối lượng token “ngốn” hơn.

Bạn copy câu trả lời từ Claude Chat (sau khi bạn thấy ưng ý), rồi dán vào Cowork + Opus 4.6 + Extended thinking.

Thói quen 3: Nói “Ask me questions” thay vì viết prompt dài

Một prompt 500 từ tốn 500 token mỗi lần Claude đọc lại toàn bộ cuộc trao đổi trước đó của bạn.

Nhưng nếu bạn viết prompt 15 từ và để Claude hỏi lại bằng AskUserQuestion, câu hỏi này chỉ tạo ra một lần & câu trả lời của mình chỉ là click ngắn thay vì các dòng prompt rườm rà, mà chưa chắc đã đúng cấu trúc.

Prompt dưới 30 từ mà mình hay dùng:

I want to [task] to [success criteria]. Read my folder. Ask me questions using AskUserQuestion before you start.

Lúc này click options để trả lời các câu hỏi kiểu Multiple Question của Claude gần như không tốn token bằng việc bạn prompt hỏi trực tiếp, còn nếu bạn gõ dài cái instructions thì sẽ tốn rất nhiều đó!

Thói quen 4: Dùng voice-to-text “làm giàu” ngữ cảnh

Nghe có vẻ phức tạp, nhưng nó sẽ là việc bạn nói để tiết kiệm token hơn đó!

Đồng ý không? Lâu lâu làm việc mà lười quá, bạn hay prompt nhanh kiểu “Làm lại tốt hơn đi” trên 1 cái file hay input text nào đó.

Nhưng bạn đâu biết, kiểu này rất mơ hồ, nó làm Claude đoán sai ngữ cảnh mà bạn đặt ra trong prompt, sau đó output không như mong muốn thì bạn lại gửi thêm và thêm tin nhắn để chỉnh sửa, rất tốn token.

Khi nói bằng “voice-to-text”, mình sẽ tự nhiên cho AI nhiều ngữ cảnh (context) hơn trong một lần prompt, việc này giúp mình ít tin nhắn hơn và tiết kiệm token hơn.

Thói quen 5: Đừng bảo Claude làm lại toàn bộ

Nếu như phần 3 của một đoạn output bị làm sai, bạn đừng nói “Làm lại đi”, “Sửa lại cái báo cáo đi”.

Hãy nói “Chỉ làm lại phần 3 của report trên và làm 1 cách tiết kiệm token nhất có thể”.

Nên nhớ là mỗi lần sửa hay làm lại toàn bộ, tức là toàn bộ output được AI generate lại. Nếu report đó tốn 2.000 token, tức là 2.000 output token sẽ bị “phung phí thêm” một lần nữa.

Lưu ý là hãy thêm vào prompt: “Không bình luận, không giải thích, tôi chỉ cần output của phần 3 báo cáo này, bạn làm lại đi” để AI chính xác bạn muốn gì.

Thói quen 6: Nhồi tasks vào một tin nhắn

Ba prompt riêng lẻ bằng ba lần context khởi chạy, tức là tốn token cho 3 lần chạy đó, còn một prompt với ba tasks bằng một lần chạy, tức 1 lần đốt token.

Vậy nên, thay vì gửi “Tóm tắt bài viết này” rồi “List ra các ý trọng tâm”, rồi “Đề xuất tiêu đề nổi bật”, bạn hãy gộp và viết thành 1 output: “Tóm tắt bài viết này, list các ý trọng tâm và đề xuất tiêu đề nổi bật”.

Làm cách này thì output thường tốt hơn vì Claude thấy được toàn cảnh bức tranh mà bạn đang muốn “vẽ” trong cùng một lúc.

Thói quen 7: Dùng cùng cấu trúc prompt mọi lần

Anthropic xác nhận các prompt giống nhau và thường xuyên được sử dụng sẽ tải cache (bộ nhớ đệm) ít hơn.

Vậy nên, bạn cần giữ các prompt lặp lại vào 1 thư viện (prompt library) trên Excel hoặc Notion để tái sử dụng nhiều lần sau này.

Thói quen 8: Edit tin nhắn thay vì gửi follow-up

Đây là trick mà mình thích nhất!

Trong Chat, bạn có thể click Edit trên tin nhắn gốc, sửa lại, và tạo lại output.
Yên tâm là thông tin trong prompt cũ được thay thế, không có stack thêm vào cái prompt bạn vừa chỉnh sửa.
Mỗi lần nói “Không, ý mình là” hay “Thật ra, chuyển [X] thành [Y]” là bạn đang thêm vào lịch sử trò chuyện trong chat, cái nút Edit giúp bạn tránh được điều này.

Hãy quay lại tin nhắn trước đó của bạn và nhấp vào nút Chỉnh sửa.

Nó sẽ mở một hộp thoại như thế này, bạn chỉnh sửa lời nhắc và nhấn Lưu.

Thói quen 9: Chọn đúng Claude model cho đúng việc

Câu hỏi nhanh? Vào Claude Chat & sử dụng với model Haiku.
Viết report dựa trên files bạn tự cung cấp? Claude Cowork với Opus là ok nhất!
Build chart từ data có sẵn? Claude Code với Sonnet.

Mỗi sản phẩm AI model của Claude đều tốn giá token khác nhau (Chat là ít nhất, Cowork là nặng nhất)

Dùng Cowork cho mấy công việc thực ra dùng Chat và model Haiku đã lảm tốt, thì đó là một sự phung phí token á!

Như tên gọi cho thấy, nó nghiên cứu khá sâu rộng (Sử dụng rất nhiều token).

Nhóm 2: Những Thói Quen Cơ Bản & Quan Trọng

Thói quen 10: Giữ file ABOUT ME dưới 2.000 từ

Cowork đọc folder trước mỗi task.

Vì vậy, nếu file about-me của bạn có 22.000 từ, đó là hàng nghìn token “đang âm thầm bị đốt” trước khi bất kỳ công việc thật sự nào bắt đầu bất cứ task hay session nào.

Mẹo là cuối mỗi session của Cowork, hãy prompt:

Viết một bản ghi chú phiên họp (session-notes.md) ghi lại các quyết định quan trọng và các bước tiếp theo.

Ở Session tiếp theo, bắt đầu bằng việc prompt:

Read session-notes.md first.

Điều này giúp cho Claude Cowork làm việc trên ngữ cảnh trước đó mà không cần “giải mã” lại từ đầu, giúp bạn tiết kiệm token hơn.

Bạn có thể tải xuống và bắt đầu một phiên mới. Không lãng phí token nào cả.

Thói quen 11: Khởi động Conversaiton mới, thay vì promp tiếp

Một session 20 tin nhắn trong chat sẽ đốt khoảng 105.000 token.

Session 30 tin nhắn thì đốt 232.000 token.

Khi Cowork đi sai hướng, hãy prompt “Khởi động Conversation từ đây” trên một tin nhắn trước đó. Việc restart này làm càng nhiều sẽ giúp bạn tiết kiệm nhiều token hơn.

Thói quen 12: Tóm tắt và start Chat mới mỗi 15 đến 20 tin nhắn

Conversation dài là một “lò nung token”.

Có một developer track usage của anh ấy và thấy 98.5% token được dùng để đọc lại history, trong đó chỉ có 1.5% là được sử dụng vào các công việc đang diễn ra.

Khi session Cowork dài, bạn hỏi Claude tóm tắt lại mọi thứ quan trọng, copy bản tóm tắt đó, mở session mới, paste vào tin nhắn đầu tiên và tiếp tục làm việc.

Thói quen 13: Dùng Sonnet hoặc Haiku cho task đơn giản

Kiểm tra ngữ pháp, brainstorm, chỉnh format, trả lời nhanh, Sonnet cân hết, mà chi phí rẻ hơn rất nhiều.

Opus + Extended Thinking là “máy chạy hạng nặng”, vì vậy bạn đừng mang máy hạng nặng ra để… dời một cái ghế.

Quy tắc của mình là nếu Claude trả lời được trong dưới 30 giây, thì thường chẳng cần đến model Opus.

Thói quen 14: Đừng nhét toàn bộ folder vào Cowork

Mỗi file Cowork mở ra đều “đốt” token.

File càng nặng, Cowork càng dễ tóm tắt qua loa thay vì đọc kỹ.

Nếu không cần file để chạy các task bạn đang làm, đừng cho Cowork đọc file đó.

Trong Cowork, khi hiển thị “Work in a project” có nghĩa là chưa có dự án nào được chọn. Tiết kiệm token tối đa (cho các tác vụ đơn giản)

Thói quen 15: Bắt đầu chat mới khi topic thay đổi

Ví dụ minh họa: Đừng trộn LinkedIn post, client proposal và công thức nấu ăn trong cùng một chat.

Claude sẽ cứ lôi lại đoạn viết LinkedIn và proposal mỗi lần bạn hỏi “Tối nay ăn gì”.

Muốn đổi chủ đề thì hãy luôn luôn tạo chat mới.

Thói quen 16: Tắt các tính năng không dùng đến

Đơn cử như Web Search, connectors và chế độ Explore đều “ngốn” thêm token cho mỗi câu trả lời. Nếu không cần nó thì mặc định của mình là tắt hết. Chỉ bật đúng tính năng cho từng task, không bật toàn bộ cho tài khoản..

Và khi dùng connectors, hãy ra yêu cầu thật cụ thể: “Tìm trên Slack trong 7 ngày gần đây các tin nhắn về launch sản phẩm trong Qúy 2”, điều này sẽ rẻ hơn rất nhiều so với “Tìm trên Slack mọi thứ liên quan đến việc launch sản phẩm”.

Ở đây mình có công cụ Web Search cộng với rất nhiều connectors Vì vậy, có rất nhiều công cụ được sử dụng. Hãy tắt chúng đi nếu bạn không cần nha!

Thói quen 17: Dùng Projects cho các công việc lặp lại

Nếu bạn upload cùng một file PDF vào 5 chat khác nhau, Claude sẽ *token hóa lại* mỗi lần: 5 chat = 5 lần đọc lại từ đầu.

Giải pháp là dùng Projects.

Bạn đã tải file lên dự án của mình một lần và tất cả các chat sau này của bạn đều biết đến tệp đó (Mà không cần phải đọc lại nhiều lần).

Bạn chỉ cần cập nhật một lần, file được ghi vào Cache (Bộ nhớ đệm) để tái sử dụng ở những lần sau.

Với các gói trả phí, Projects còn hỗ trợ RAG (Retrieval-Augmented Generation - Tạo tăng cường truy xuất), lúc này Claude sẽ chỉ truy xuất những thông tin liên quan, thay vì nhét cả tài liệu vào cửa sổ ngữ cảnh (context window).

Thói quen 18: Tắt Memory và thêm User Preferences

Mỗi lần mở chat mới mà không có ngữ cảnh (context) lưu sẵn, bạn sẽ tốn 3–5 tin nhắn chỉ để “set up” lại từ đầu.

Giải pháp là vào Settings > General > Personal preferences, thiết lập Styles trong model selector, chọn Concise hoặc tự tạo style riêng.

Style sẽ được lưu và áp dụng cho mọi cuộc chat sau, không ngốn thêm context, tức là không phí thêm token.

Thói quen 19: Dùng scheduled tasks cho việc lặp lại

Nếu chạy cùng báo cáo hay task mỗi tuần, đừng làm thủ công trong seassion của Cowork, hãy dùng plugin: /schedule

Nhóm 3: Thói Quen Đặc Thù Cho Claude Cowork & Claude Code

Thói quen 20: Cho Claude Code một cái scope rõ ràng trước khi sử dụng nó

Sessions của Claude Code có thể đốt token nhanh hơn bất cứ thứ gì khác nếu bạn không cẩn thận.

Code có xu hướng đi rộng, nó khám phá files, đọc directories, chạy checks.

Nếu không nói chính xác cần gì, nó sẽ truy cứu mọi thứ. Vì vậy, đây là ví dụ minh họa về việc cung cấp scope cho Claude Code, không cho Claude Code “muốn làm gì thì làm”.

Tạo biểu đồ cột từ tệp CSV này để hiển thị doanh thu hàng tháng trong năm 2025. Lưu biểu đồ dưới dạng chart.png

Thói quen 21: Dùng CLAUDE.md file để set permanent context (bối cảnh vĩnh viễn)

Trước mỗi task, code sẽ đọc file `CLAUDE.md` nếu có.

Hãy đặt tất cả instructions lặp lại vào đó: Làm ở folder nào, dùng ngôn ngữ gì, naming conventions ra sao.

Viết một lần, dùng mãi, khỏi phải nhắc lại, tiết kiệm token mỗi session.

Nhưng nhớ giữ ngắn: `CLAUDE.md` càng dài, Claude càng dễ bỏ sót những chỉ dẫn quan trọng của bạn.

Thói quen 22: Spread work qua cả ngày

Claude áp dụng giới hạn theo “khung thời gian trong 5 giờ”.

Nếu bạn đốt sạch hạn mức chỉ trong một buổi sáng, phần lớn dung lượng cả ngày sẽ bị phí.

Cách làm tối ưu hơn là chia thành 2–3 phiên (Sáng–Chiều–Tối).

Mỗi lần quay lại, lượt dùng trước đó đã tự “trôi” khỏi cửa sổ 5 giờ, giúp bạn lấy lại hạn mức sử dụng.

Thói quen 23: Ngừng dùng Claude vào mấy cái Claude không giỏi

Claude không giỏi tạo ảnh nên nếu bạn đã tốn 5 tin nhắn để mô tả một visual mà chỉ nhận lại mấy cách “chữa cháy” tạm bợ, thì chuyển sang Gemini.

Claude cũng không mạnh về tìm kiếm thời gian thực, mảng này Grok nhanh và chuẩn hơn.

Bạn nên dùng đúng tool AI cho đúng việc.

Mà dù sao thì giờ cũng có Claude Design rồi, bạn có nhu cầu tạo ảnh thì vọc thử, xem Claude Design tại đây.

Bắt Đầu Từ Đâu?

23 mẹo này bạn nên lưu lại trước, nhưng mình thấy không cần điều chỉnh và áp dụng cả 23 mẹo này cùng một lúc

Nếu dùng Cowork hàng ngày, bắt đầu với thói quen 1, 2, và 5: Convert files trước khi upload, plan trong Chat trước khi build & ngừng bảo “làm lại” toàn bộ.
Nếu chủ yếu dùng Chat, bắt đầu với 8, 15, và 17: Edit thay vì correct, new chat mỗi topic & dùng Projects cho recurring files.
Nếu đang ở plan $20 và hay chạm limit, bắt đầu với 6, 13, và 22: Batch prompts, dùng model rẻ hơn & spread sessions qua cả ngày.

Nhận Định Cá Nhân Của QUILIX AI

Sau khi đọc xong 23 thói quen này, thứ mình thấy quan trọng nhất không phải là bất kỳ mẹo cụ thể nào, mà là ở cái model đằng sau đó.

Hầu hết người dùng Claude như một chatbot: Gõ câu hỏi, nhận câu trả lời, gõ thêm. Mỗi lần gõ thêm là một lần đốt token vào cái context & cái ngữ cảnh này thì ngày càng phình to.

Những người dùng Claude hiệu quả nhất mình quan sát thấy đều có một điểm chung: Họ đầu tư thời gian vào lần đầu tiên để dịnh hình context chuẩn nhất có thể, thay vì gửi nhiều follow-up messages và chỉnh dần, vừa tốn time mà vừa tốn tiền (Token)

Thói quen 3 (nói “ask me questions”), thói quen 4 (dùng voice để give richer context), và thói quen 6 (batch tasks) đều là biểu hiện của cùng một triết lý: Làm đúng ở điểm đầu và Claude sẽ đem lại hiệu quả công việc tốt hơn, tốn ít token hơn.

Đây cũng là lý do mình thấy việc hiểu token không chỉ là chuyện tiết kiệm tiền, nó còn thay đổi cách mình giao tiếp với AI và cải thiện giao tiếp đó tốt hơn, cụ thể là cung cấp context đầu đủ, cụ thể để tạo ra kết quả tốt hơn.

Tổng Kết

Hiểu cách token hoạt động là nền tảng của tất cả các công cụ AI ngoài kia. Claude cũng không phải là không có giới hạn, nhưng khi biết cách quản lý token, giới hạn đó hiếm khi là vấn đề của bạn.

23 thói quen này đều đi theo một nguyên tắc: Đừng lãng phí token vào context không cần thiết, files thừa, hay yêu cầu AI làm lại mấy cí không cần thiết. Điều này giúp bạn dùng AI vào thứ thực sự tạo ra output tốt hơn.

Bạn đang ở plan nào và hay chạm limit ở chỗ nào? Comment xuống dưới nhé, mình muốn biết anh em đang gặp khó khăn ở đâu & có mẹo nào hay thì chỉnh mình nhé!

1% better everyday with AI. Mình TIN CHẮC bạn làm được!

Chú Thích Thuật Ngữ

Token: Đơn vị đo lường của AI. Xấp xỉ một từ. Dùng để tính chi phí và giới hạn sử dụng.
Context Window: Lượng text tối đa Claude có thể đọc và nhớ trong một lần. Conversation càng dài, mỗi tin nhắn mới càng tốn nhiều token hơn vì Claude đọc lại tất cả.
Prompt Caching: Kỹ thuật tái sử dụng kết quả xử lý các đoạn text đã được xử lý trước. Giảm chi phí đáng kể khi dùng cùng structure nhiều lần.
RAG (Retrieval-Augmented Generation): Kỹ thuật cho phép AI chỉ retrieve đoạn text liên quan thay vì load toàn bộ document vào context window. Projects trên paid plans dùng RAG.
Cowork: Chế độ agentic của Claude có thể tự chạy code, đọc file, và thực hiện tasks phức tạp. Tốn token nhiều hơn Chat thông thường.
AskUserQuestion: Tool trong Claude cho phép AI đặt câu hỏi dạng multiple choice cho người dùng. Click options tốn gần như không có token, rẻ hơn nhiều so với gõ paragraphs.
CLAUDE.md: File config đặc biệt mà Claude Code đọc trước mỗi task. Dùng để set permanent instructions mà không cần lặp lại mỗi session.
Extended Thinking: Tính năng cho phép Claude “suy nghĩ” lâu hơn cho complex tasks. Tốn nhiều token hơn nhưng cho output tốt hơn với tasks đòi hỏi reasoning sâu.
Rolling 5-hour Window: Claude giới hạn usage theo cửa sổ 5 tiếng cuộn, không phải theo ngày cố định. Spread sessions qua cả ngày để tận dụng tối đa.

Theo dõi mình ở các mạng xã hội khác:

QUILIX AI Insights

Discussion about this post

Ready for more?