OpenAI ra mắt GPT-5.4: AI đang học cách làm việc thật sự

Không chỉ là model mới: Đây là cột mốc AI lần đầu tiên vượt mặt con người trên benchmark công việc thực tế. Nhưng bức tranh không đơn giản như OpenAI muốn bạn nghĩ.

Mar 07, 2026

GPT-5.4 là gì và nó đến từ đâu?

OpenAI ra mắt GPT-5.4 hạn chế 'ảo giác' - Báo VnExpress — ↑ GPT-5.4 ra mắt ngày 05.03.2026 — chưa đầy 3 tháng sau GPT-5.2. OpenAI đang tăng tốc release rất mạnh.

Vào ngày 05/03/2026, OpenAI chính thức công bố GPT-5.4, model mà họ gọi là “frontier model hiệu quả và mạnh mẽ nhất cho công việc chuyên nghiệp”. Nó có mặt ngay trên ChatGPT, API và Codex.

Nhưng để hiểu GPT-5.4 là gì, bạn cần biết nó đến từ đâu. Chỉ trong vòng vài tháng, OpenAI đã release liên tiếp: GPT-5.2 (tháng 12/2025), GPT-5.3 Instant (vài ngày trước), và bây giờ là GPT-5.4. Tốc độ này cho thấy cuộc đua AI đang ở trạng thái sprint, không phải marathon.

GPT-5.4 được thiết kế để hợp nhất ba thứ: khả năng reasoning từ GPT-5.2, sức mạnh coding từ GPT-5.3 Codex, và thêm vào đó là native computer-use, tức là AI lần đầu tiên có thể tự mình điều khiển máy tính như một người dùng thật.

Theo Gizmodo, thời điểm ra mắt GPT-5.4 không phải ngẫu nhiên. OpenAI đang chịu áp lực lớn sau quyết định ký hợp đồng với Bộ Quốc phòng Mỹ, một quyết định khiến khoảng 1.5 triệu người dùng rời bỏ nền tảng. GPT-5.4 là cách OpenAI cố lấy lại niềm tin.

4 tính năng thực sự đáng chú ý

Professional work spreadsheet analysis — ↑ GPT-5.4 được tối ưu đặc biệt cho spreadsheet, presentation và document — công việc thực tế của hàng triệu knowledge worker.

🖥️ Native Computer-Use: Lần đầu tiên trên model đa năng

Đây là tính năng lớn nhất. GPT-5.4 là model đầu tiên của OpenAI có khả năng điều khiển máy tính thật, click chuột, gõ phím, đọc màn hình, không chỉ trả lời câu hỏi.

Trong API và Codex, agent có thể thực hiện workflow phức tạp xuyên nhiều ứng dụng mà không cần người ngồi giám sát từng bước.

📊 Tối ưu hóa cho công việc văn phòng thực tế

OpenAI đặt trọng tâm vào spreadsheet, presentation, và document. Trên internal benchmark về mô hình tài chính (loại công việc mà analyst ngân hàng thường làm), GPT-5.4 đạt 87.3%, tăng hơn 8% so với GPT-5.2. Đây là con số đáng kể trong một tác vụ đòi hỏi độ chính xác cao.

🧠 Outline kế hoạch trước khi thực thi

Trong ChatGPT, GPT-5.4 Thinking bây giờ có thể hiển thị kế hoạch làm việc ngay từ đầu và bạn có thể chỉnh hướng trong khi nó đang chạy, không cần đợi xong mới sửa. Đây là thay đổi UX quan trọng, giảm đáng kể thời gian lặp lại.

⚡Token efficiency: Dùng ít hơn, làm được nhiều hơn

GPT-5.4 tiêu thụ ít token hơn đáng kể so với GPT-5.2 cho cùng một task. Dù giá token input tăng từ $1.75 lên $2.5/1M tokens, tổng chi phí thực tế có thể thấp hơn nhờ model cần ít token hơn để hoàn thành cùng một công việc.

Con số benchmark: Ấn tượng, nhưng cần đọc kỹ

Data analysis benchmark chart — ↑ Benchmark ấn tượng, nhưng luôn nhớ hỏi: “Ai thiết kế bài test này?”

⚠ Lưu ý quan trọng khi đọc benchmark: GDPval và benchmark spreadsheet đều do OpenAI tự thiết kế và công bố. OSWorld-Verified là benchmark độc lập và ở đó GPT-5.4 đạt 75%, vượt mức trung bình của con người (72.4%). Con số này đáng tin hơn vì không phải “tự chấm bài”.

Giá cả và availability: Ai dùng được ngay?

Pricing subscription technology — ↑ GPT-5.4 Pro dành cho nhu cầu enterprise: Giá không hề rẻ!

Đây là phần mà nhiều người quan tâm nhất. GPT-5.4 có ba phiên bản với mức truy cập khác nhau:

Nếu bạn là người dùng ChatGPT Plus, bạn sẽ thấy GPT-5.4 Thinking thay thế GPT-5.2 Thinking trong thời gian tới. Với developer dùng API, mức giá tăng nhưng token efficiency tăng tương ứng, nên chi phí thực tế cần test cụ thể trên use case của từng người.

Góc nhìn của QUILIX: Đây có thực sự là bước ngoặt?

Technology competition race future — ↑ Cuộc đua AI đang ở giai đoạn quyết định và GPT-5.4 là một nước cờ quan trọng.

Thẳng thắn mà nói:

GPT-5.4 là bản nâng cấp thực chất, không phải marketing chạy theo trend.

Con số 75% trên OSWorld-Verified, vượt mức trung bình con người, là lần đầu tiên mình thấy một model đa năng (Không phải model chuyên biệt) làm được điều này trên benchmark độc lập. Đó là tín hiệu thật, không phải số tự chấm.
Nhưng có hai điều mình muốn anh em lưu ý. Thứ nhất, “native computer-use” vẫn đang ở API và Codex, không phải ChatGPT thông thường. Hầu hết người dùng sẽ chưa trải nghiệm được phần thú vị nhất ngay lập tức.
Thứ hai, thời điểm ra mắt ngay sau khủng hoảng Pentagon contract cho thấy áp lực PR của OpenAI đang rất lớn, điều này không có nghĩa sản phẩm tệ, nhưng cần test thực tế thay vì chỉ tin vào bài PR.
Điều mình thực sự hứng thú nhất: Tính năng outline kế hoạch trước khi thực thi. Đây là thay đổi workflow thực sự, thay vì AI làm xong rồi bạn mới thấy kết quả, giờ bạn có thể “lái” nó giữa chừng. Với những task dài và phức tạp, điều này sẽ tiết kiệm rất nhiều thời gian lặp lại.
Xu hướng rõ ràng: AI đang dịch chuyển từ “trả lời câu hỏi” sang “làm việc thay bạn”. GPT-5.4 là bước tiến thuyết phục nhất trong hướng đó mà mình thấy từ trước đến giờ. - QUILIX AI Insights.

Bạn đang dùng model nào cho công việc chính hiện tại? Và nếu bạn đã thử agent computer-use, dù là của OpenAI, Anthropic (Claude AI) hay bất kỳ ai, mình muốn nghe trải nghiệm thực tế của anh em. Hãy comment bên dưới nhé!

QUILIX AI Insights

Discussion about this post

Ready for more?