Chi phí đánh giá các mô hình AI lý luận ngày càng tăng cao

Chi phí đánh giá các mô hình AI lý luận ngày càng tăng cao

15/04/2025 | Tác giả: Huy Đức (theo TechCrunch) Lượt xem: 80


Chi phí đánh giá các mô hình AI lý luận ngày càng tăng cao

Các chuyên gia cho biết mô hình AI lý luận liên tục ra mắt, nhưng việc đánh giá lại tốn kém hơn, khiến hoạt động kiểm chứng độc lập trở nên khó khăn.

Hàng loạt công ty AI tung ra các mô hình AI với năng suy nghĩ qua các bước như OpenAI, DeepSeek, hiệu quả hơn so với mô hình không lý luận trước đây.

Tuy nhiên, theo dữ liệu từ Artificial Analysis, tổ chức kiểm tra và đánh giá AI độc lập, chi phí "chấm điểm" mô hình lý luận OpenAI o1 theo 7 tiêu chuẩn phổ biến là MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 và MATH-500 có giá 2.767 USD. Tương tự, Claude 3.7 Sonnet, mô hình lai của Anthropic, cần 1.485 USD.

Một số ứng dụng AI tạo sinh trên smartphone. Ảnh: Bảo Lâm
Một số ứng dụng AI tạo sinh trên smartphone. Ảnh: Bảo Lâm

Artificial Analysis cho biết đã chi tổng cộng 5.200 USD để đánh giá chưa đến 10 mô hình lý luận, gấp đôi số tiền 2.400 USD công ty dùng để đánh giá hơn 80 sản phẩm không lý luận. Ví dụ, mô hình không lý luận GPT-4o, ra tháng 5/2024, chỉ đòi hỏi 108,85 USD, o3-mini cần 344 USD, còn Claude 3.6 Sonnet bản không lý luận là 81,41 USD.

Artificial Analysis không phải là bên duy nhất đối mặt với sự gia tăng chi phí đánh giá AI. Ross Taylor, CEO AI General Reasoning, nói đã chi 580 USD để chấm điểm Claude 3.7 Sonnet với 3.700 câu gợi ý. Ông ước tính một lần sử dụng MMLU Pro - bộ câu hỏi được thiết kế để đánh giá kỹ năng hiểu ngôn ngữ của AI - tốn hơn 1.800 USD.

Việc thử nghiệm đắt đỏ do mô hình tạo ra nhiều token. Token là phần văn bản thô, ví dụ từ "fantastic" chia thành "fan", "tas", và "tic". Artificial Analysis cho biết o1 của OpenAI tạo hơn 44 triệu token trong quá trình thử nghiệm của công ty, gấp 8 lần số lượng GPT-4o tạo ra.

Theo Jean-Stanislas Denain, nhà nghiên cứu cao cấp tại Epoch AI, các tiêu chuẩn hiện đại cũng kéo theo việc tạo ra nhiều token vì liên quan đến nhiệm vụ phức tạp nhiều bước.

Một số công ty AI, trong đó có OpenAI, cung cấp quyền truy cập miễn phí hoặc hỗ trợ giảm giá cho một số tổ chức chấm điểm benchmark, nhưng điều này được cho là có thể ảnh hưởng đến kết quả, tác động tới đến tính toàn vẹn của điểm số.

Theo VNEpress

https://vnexpress.net/chi-phi-danh-gia-cac-mo-hinh-ai-ly-luan-ngay-cang-tang-cao-4872497.html


Chia sẻ trên

14/04/2025 | Tác giả: Khánh Vy

Mỹ vừa chốt đơn hơn 7 tỷ USD một 'mỏ vàng' của Việt Nam: Thuế nhập khẩu được miễn 0%, nước ta là ông lớn thứ 5 thế giới

Mỹ là thị trường xuất khẩu lớn nhất của Việt Nam ở mặt hàng tỷ đô này.

14/04/2025 | Tác giả: HV

VinFast tiếp tục dẫn đầu tại Việt Nam khi bàn giao hơn 12.100 xe vào tháng 3

Với hơn 12.100 ô tô điện được bàn giao đến tay khách hàng tại Việt Nam trong tháng 3/2025, VinFast không chỉ khẳng định vị thế dẫn đầu thị trường ô tô Việt Nam mà còn bỏ xa hai đối thủ bám đuối là Toyota và Hyundai.

14/04/2025 | Tác giả: Viễn Thông

Người Việt thận trọng chi tiêu trước biến động

Trước các tin tức về thuế quan của Mỹ, người tiêu dùng thêm thận trọng chi tiêu, nên đòi hỏi nhà chức trách, doanh nghiệp có nhiều biện pháp kích cầu, củng cố niềm tin.

Tài khoản của quý khách chưa đủ điều kiện để thực hiện chức năng này

Để có thể tham gia đăng ký tài khoản mua - bán với siêu ứng dụng VIVINA. Quý khách cần đăng ký làm chủ gian hàng với đầy đủ thông tin xác thực và được chập thuận bởi BQT. Vui lòng nhấn vào đường dẫn dưới để biết thêm thông tin...