Bài đăng BridgeBench lan truyền cho rằng Claude Opus 4.6 bị ‘nerf’, nhiều người chỉ trích đây là khoa học thiếu chính xác

  • Một bài đăng lan truyền trên X cho rằng tỷ lệ "hallucinations" của Claude Opus 4.6 đã tăng 98%.
  • Các nhà phê bình cho rằng phép so sánh này sử dụng kích thước kiểm tra khác nhau, không cùng tiêu chí đánh giá.
  • Phân tích cùng nhiệm vụ cho thấy chỉ có thay đổi tối thiểu, nằm trong phạm vi biến động thông thường của AI.
Promo

BridgeMind AI cho rằng Claude Opus 4.6 của Anthropic đã bị giảm chất lượng một cách âm thầm sau khi kiểm tra lại bài kiểm tra về “hallucination”. Bài đăng gây sốt này đã vấp phải nhiều chỉ trích vì phương pháp kiểm tra thiếu chặt chẽ.

Thông tin trên đã tạo ra tranh luận sôi nổi về việc liệu các công ty AI có đang âm thầm hạ cấp các mô hình trả phí để tiết kiệm chi phí hay không.

Được tài trợ
Được tài trợ

BridgeMind nói số lần “hallucination” tăng 98%

BridgeMind, nhóm phát triển bài kiểm tra Benchmark BridgeBench cho lập trình viên, đăng tải thông tin cho rằng Claude Opus 4.6 đã tụt hạng từ vị trí thứ hai xuống thứ mười trên bảng xếp hạng tỉ lệ “hallucination” của họ. Độ chính xác được cho là đã giảm từ 83.3% xuống còn 68.3%.

“CLAUDE OPUS 4.6 ĐÃ BỊ NERF. BridgeBench vừa chứng minh điều này. Tuần trước, Claude Opus 4.6 đứng thứ 2 về độ chính xác (83.3%) trên bài kiểm tra Hallucination. Hôm nay, sau khi kiểm tra lại, Claude Opus 4.6 chỉ còn đứng thứ 10 với độ chính xác vỏn vẹn 68.3%,” họ viết.

Bài đăng này nhấn mạnh đây là “bằng chứng cho thấy khả năng suy luận bị suy giảm”. Tuy nhiên, nếu xem kỹ dữ liệu gốc thì câu chuyện lại khác.

Nhiều ý kiến cho rằng phương pháp so sánh bị sai cơ bản

Theo chuyên gia khoa học máy tính Paul Calcraft, kết luận trên là “một ví dụ điển hình về khoa học tệ”, khi mà cách kiểm định có nhiều điểm không hợp lý.

“Thực sự là một ví dụ tồi về khoa học. Hôm nay bạn kiểm tra Opus với 30 nhiệm vụ, trong khi điểm trước đó chỉ với *6* nhiệm vụ. Khi so sánh 6 nhiệm vụ trùng nhau: điểm số hôm nay là 85.4%, hôm trước là 87.6%. Sự thay đổi này chủ yếu do *1 lần* tạo lỗi, rất có thể chỉ là do ngẫu nhiên thống kê,” Calcraft bình luận.

Điểm cao trước đó chỉ dựa trên 6 nhiệm vụ kiểm tra. Lần kiểm tra lại mới nhất đã mở rộng lên 30 nhiệm vụ.

Được tài trợ
Được tài trợ

Khi so ở 6 nhiệm vụ trùng lặp, kết quả gần như không đổi, chỉ giảm nhẹ từ 87.6% xuống 85.4%.

Mức giảm nhỏ này thực ra chủ yếu do một lần duy nhất mô hình tạo ra đáp án sai trong một nhiệm vụ. Vì không kiểm tra nhiều lần, kết quả như vậy hoàn toàn nằm trong biên dao động thống kê thông thường của mô hình AI.

Các mô hình ngôn ngữ lớn không cho kết quả cố định, nên chỉ một đầu ra không tốt trong mẫu nhỏ cũng có thể làm thay đổi kết quả đáng kể.

Sự bất mãn rộng hơn đang tạo nên làn sóng tranh luận

Tuy vậy, bài đăng của BridgeMind vẫn đánh trúng tâm lý nghi ngờ. Kể từ khi ra mắt vào tháng 02/2026, Claude Opus 4.6 liên tục gặp phản ánh về chất lượng ngày càng giảm.

Nhiều lập trình viên phản ánh mô hình trả lời ngắn hơn, làm theo hướng dẫn kém hơn, và suy luận bị hạn chế nhất là giờ cao điểm.

Một phần nguyên nhân do thay đổi chủ động từ phía sản phẩm. Anthropic đã giới thiệu chức năng điều khiển tư duy (adaptive thinking controls) cho phép mô hình tự điều chỉnh nguồn lực để suy luận. Mức nỗ lực mặc định đã chuyển sang “trung bình”, chú trọng hiệu quả thay vì đào sâu tối đa.

Một nghiên cứu độc lập dựa trên 6,800 lượt sử dụng Claude Code cho thấy độ sâu suy luận giảm tới khoảng 67% vào cuối tháng 02.

Tỉ lệ mô hình đọc toàn bộ file trước khi sửa code giảm từ 6.6 xuống chỉ còn 2.0. Điều này cho thấy AI chỉ cố sửa code dù chưa thật sự kiểm tra kỹ file đó.

Điều này có ý nghĩa gì với người dùng AI?

Thực trạng này phản ánh căng thẳng đang lớn dần trong ngành AI. Sau khi ra mắt, các công ty tối ưu mô hình cho chi phí và quy mô; trong khi người dùng “nặng đô” lại mong muốn mô hình luôn hoạt động ở hiệu suất đỉnh cao. Sự khác biệt này đang làm suy giảm lòng tin của họ.

Dựa vào dữ liệu hiện có, thông tin từ BridgeBench chưa đủ chứng minh có chuyện giảm chất lượng chủ động. Bản so sánh giữa hai bài kiểm tra không đồng nhất, trong khi kết quả trùng lặp giữa các lần test lại gần như không sai biệt.

Dù vậy, sự bực bội của người dùng không phải không có lý do. Việc áp dụng kiểm soát hiệu suất và tối ưu dịch vụ đã làm thay đổi cách Claude Opus 4.6 vận hành thực tế. Với các lập trình viên cần đầu ra ổn định, điều này rất đáng quan tâm.

Tính đến ngày 13/04, Anthropic vẫn chưa có phản hồi chính thức về các cáo buộc từ BridgeBench.

Để đọc các phân tích thị trường tiền điện tử mới nhất từ BeInCrypto, nhấp vào đây.

Tuyên bố miễn trừ trách nhiệm

Tất cả thông tin có trên trang web của chúng tôi được xuất bản với thiện chí và chỉ dành cho mục đích thông tin chung, phù hợp với nguyên tắc của Trust Project. Bất kỳ hành động nào người đọc thực hiện đối với thông tin được tìm thấy trên trang web của chúng tôi, họ cần phải đánh giá lại và hoàn toàn chịu rủi ro từ quyết định của chính họ. Vui lòng tham khảo Điều khoản và Điều kiện, Chính sách quyền riêng tư, và Tuyên bố miễn trừ trách nhiệm của chúng tôi.

Được tài trợ
Được tài trợ