Phản ứng ngược về Claude Fable 5 gia tăng khi người dùng cho rằng Anthropic đã ‘kiềm chế’ AI chủ lực của mình

  • Điểm kiểm tra BridgeBench cho Claude Fable 5 giảm từ 86.2 xuống còn 25.9 sau khi phát hành lại.
  • Chỉ có 3 trong số 12 tác vụ gỡ lỗi chạy mà không phải chuyển sang Opus 4.8 yếu hơn.
  • Anthropic thừa nhận nhiều kết quả dương tính giả hơn nhưng cho biết mô hình cốt lõi vẫn không thay đổi.
Promo

Claude Fable 5 của Anthropic đang phải đối mặt với làn sóng phản đối dữ dội sau khi được phát hành lại vào ngày 01/07/2024. Nhiều người dùng cho biết những rào cản kiểm soát nghiêm ngặt hơn đã làm giảm khả năng lập trình, sửa lỗi và hoạt động tự động của mẫu AI chủ lực này.

Nhóm kiểm thử BridgeMind báo cáo điểm số của Claude Fable 5 đã giảm mạnh trên bộ đánh giá BridgeBench của mình. Trong khi đó, Anthropic khẳng định bản chất mô hình không thay đổi mà nguyên nhân là do bộ lọc an toàn được siết chặt hơn.

Được tài trợ
Được tài trợ

Điểm đánh giá của Claude Fable 5 giảm mạnh sau lần phát hành lại

BridgeMind đã chạy lại phiên bản Fable 5 phát hành ngày 01/07/2024 và ghi nhận các chỉ số giảm rõ rệt. Khả năng sửa lỗi giảm từ 86.2 xuống còn 25.9, tái cấu trúc mã giảm từ 73.6 xuống 38.4, còn khả năng xử lý thông tin sai lệch giảm từ 75.9 xuống 61.7.

Điểm BridgeBench của Claude Fable 5 trước và sau phát hành lại, Nguồn: Người dùng trên X
Điểm BridgeBench của Claude Fable 5 trước và sau phát hành lại, Nguồn: Người dùng trên X

Cách chấm điểm đằng sau các con số này cũng rất đáng chú ý. Chỉ có 3 trên 12 nhiệm vụ sửa lỗi được hoàn thành mà không phải dựa vào Claude Opus 4.8, và mỗi lần dự phòng đều bị chấm điểm 0.

Như vậy, sự sụt giảm chủ yếu phản ánh các nhiệm vụ bị chặn, chứ không phải do khả năng tư duy yếu hơn.

BridgeMind nhấn mạnh rằng Fable 5 vẫn đạt hiệu quả tương tự so với phiên bản tháng 06/2024 khi hoàn thành được nhiệm vụ trọn vẹn.

“Mô hình này không tệ đi. Nó chỉ bị ‘nhốt’ lại,” họ cho biết.

Theo dõi chúng tôi trên X để cập nhật tin tức mới nhất

Được tài trợ
Được tài trợ

Mốc thời gian đã lý giải phần nào sự căng thẳng này. Anthropic ra mắt Fable 5 ngày 09/06/2024, sau đó Washington ngưng cung cấp chỉ ba ngày sau. Đến ngày 30/06/2024, cơ quan quản lý mới gỡ bỏ lệnh hạn chế xuất khẩu, 4 ngày sau khi quyền truy cập Mythos 5 được khôi phục cho khoảng 100 tổ chức tại Mỹ.

Việc truy cập lại Fable 5 cũng kèm theo giới hạn. Trong tuần đầu (đến hết ngày 07/07/2024), người dùng chỉ được phép sử dụng tối đa 50% so với hạn mức tuần, sau đó sẽ phải sử dụng theo hình thức trả phí.

Anthropic giải thích về biên an toàn mở rộng

Anthropic đã giải thích về sự đánh đổi này trong một thông báo ngày 30/06/2024. Công ty cho biết đã cố tình mở rộng biên an toàn, tức là bộ lọc hiện nay sẽ chặn cả những yêu cầu vốn khá an toàn. Bộ lọc mới này có thể ngăn chặn hơn 99% các “chiêu” vượt rào mà các nhà nghiên cứu của Amazon từng ghi nhận trước đó.

Các lệnh bị chặn sẽ được chuyển sang Opus 4.8, kèm theo thông báo đến người dùng. Dù vậy, Anthropic cũng thừa nhận rằng bộ lọc đang cản nhiều nhiệm vụ lập trình, sửa lỗi hợp lệ hơn trước đây.

Kết quả kiểm tra nội bộ của Anthropic cũng chỉ ra rằng Fable 5 không phải là rủi ro đặc biệt. Một số đối thủ như GPT-5.5 hay Kimi K2.7 cũng gặp các lỗ hổng tương tự.

Anthropic cho biết các chuyên gia của Bộ Thương mại Mỹ cũng đã kiểm thử và đánh giá cả hai phiên bản bảo vệ của hệ thống là cực kỳ mạnh mẽ.

Ảnh hưởng lần này không chỉ dừng ở một chu kỳ sản phẩm. Việc gián đoạn đã khiến châu Âu chủ động mời gọi Anthropic, trong khi các mô hình AI của Trung Quốc lại đang dần bắt kịp các phòng nghiên cứu hàng đầu tại Mỹ.

Hiện Anthropic đang cùng Amazon, Microsoft và Google xây dựng bộ tiêu chuẩn đánh giá mức độ nghiêm trọng của các hành vi vượt rào bảo mật (jailbreak). Việc cải thiện bộ lọc để giảm cảnh bảo nhầm sẽ là yếu tố quyết định liệu người dùng chuyên sâu có tiếp tục gắn bó hay chuyển sang nền tảng khác.


Để đọc các phân tích thị trường tiền điện tử mới nhất từ BeInCrypto, nhấp vào đây.

Tuyên bố miễn trừ trách nhiệm

Tất cả thông tin có trên trang web của chúng tôi được xuất bản với thiện chí và chỉ dành cho mục đích thông tin chung. Bất kỳ hành động nào người đọc thực hiện đối với thông tin được tìm thấy trên trang web của chúng tôi, họ cần phải đánh giá lại và hoàn toàn chịu rủi ro từ quyết định của chính họ. Vui lòng tham khảo Điều khoản và Điều kiện, Chính sách quyền riêng tư, và Tuyên bố miễn trừ trách nhiệm của chúng tôi.

Được tài trợ
Được tài trợ