OpenAI phiên âm hàng triệu giờ video YouTube để đào tạo GPT-4

Phạm Hải

Trong nỗ lực bảo mật dữ liệu chất lượng cao để đào tạo các mô hình trí tuệ nhân tạo khổng lồ, những công ty AI lớn như OpenAI, Google và Meta hiện đang đẩy mạnh sử dụng các chiến thuật thu thập dữ liệu “mờ ám”. Một báo cáo của New York Times gầy đây cho biết OpenAI đã cố tình sao chép hơn một triệu giờ video YouTube thành dữ liệu để đào tạo mô hình ngôn ngữ lớn (LLM) tiên tiến nhất của mình: GPT-4.

Theo đó, OpenAI đã phát triển mô hình sao chép âm thanh Whisper, giúp công ty thu thập dữ liệu từ video YouTube. NY Times đưa tin rằng OpenAI hoàn toàn biết phương pháp này có thể bị giám sát chặt chẽ, nhưng vẫn tiếp tục thực hiện vì họ tin rằng việc sử dụng là hoàn toàn hợp pháp. Điều thú vị là Google, công ty sở hữu YouTube, cũng bị cáo buộc có liên quan đến hoạt động tương tự đối với các mô hình AI của mình, tức là trực tiếp vi phạm bản quyền của người tạo ra video.

Đồng quan điểm với NY Times, báo cáo của The Information nhấn mạnh rằng OpenAI đã loại bỏ dữ liệu từ video và podcast trên YouTube để đào tạo hai hệ thống AI của mình, đồng thời úp mở rằng chủ tịch OpenAI, Greg Brockman, cũng đã biết và đồng tình với cách làm này.

Trong một cuộc phỏng vấn mới đây với Bloomberg, Giám đốc điều hành YouTube, Neil Mohan, nói rằng chính sách của công ty "không cho phép tải xuống những nội dung như bản ghi hoặc bit video, và đó là sự vi phạm rõ ràng các điều khoản dịch vụ của chúng tôi". Tuy nhiên, khi được hỏi liệu dữ liệu YouTube có đang bị OpenAI “lạm dụng” hay không, vị CEO chỉ đưa ra câu trả lời tương đối mơ hồ: "Tôi đã thấy các báo cáo cho thấy dữ liệu của YouTube có thể đã được sử dụng hoặc không. Bản thân tôi không có thông tin gì cả".

Báo cáo của NY Times tuyên bố thêm rằng một số nhân sự của Google đã nắm được thông tin về hoạt động sao chép dữ liệu YouTube của OpenAI, nhưng họ không thể làm bất cứ điều gì vì bản thân công ty Mountain View cũng sử dụng phương pháp tương tự để đào tạo các mô hình AI của riêng mình. Tuy nhiên, Google đã nói với The NY Times rằng họ chỉ thực hiện việc thu thập dữ liệu video sau khi người tạo video đã đồng ý.

Thậm chí, Google còn được cho là đã "điều chỉnh chính sách quyền riêng tư" vào tháng 6 năm 2023, "để cho phép khai thác dữ liệu Google Docs có sẵn công khai, các đánh giá trên Google Maps và nhiều loại tài liệu trực tuyến khác để đào tạo các sản phẩm A.I. của công ty".

Thứ Ba, 30/04/2024 00:47

3 ★ 1 👨 109