Toàn thể internet hiện thuộc về Google AI ?
Bản cập nhật mới nhất về chính sách bảo mật của Google sẽ cho phép công ty có quyền thu thập bất kỳ nội dung nào trên web có thể hỗ trợ xây dựng và cải thiện các công cụ AI của mình.
“Google sử dụng thông tin để cải thiện các dịch vụ của chúng tôi và phát triển các sản phẩm, tính năng và công nghệ mới mang lại lợi ích cho người dùng và cộng đồng,” chính sách bảo mật mới của Google cho biết. “Ví dụ, chúng tôi sử dụng thông tin có sẵn công khai để giúp đào tạo các mô hình AI của Google và xây dựng các sản phẩm và tính năng như Google Dịch, Bard và các khả năng của Cloud AI.”

Gizmodo lưu ý rằng chính sách này hiện nay đã được cập nhật để nói về “mô hình AI” trong khi trước đây nó nói về “mô hình ngôn ngữ.” Ngoài ra, chính sách cũng đã thêm Bard và AI đám mây, trong khi trước đây nó chỉ đề cập đến Google Dịch, là các dịch vụ mà nó thu thập dữ liệu để sử dụng.
Chính sách bảo mật, được cập nhật vào cuối tuần qua, có vẻ đặc biệt đáng ngại vì nó cho thấy bất kỳ thông tin nào bạn tạo ra trên mạng đều có thể bị Google sử dụng để đào tạo các mô hình AI của mình.
Các từ ngữ được đề cập không chỉ mô tả những sản phẩm trong hệ sinh thái Google theo cách này hay cách khác mà còn được thông tin chi tiết theo cách mà Google có thể có quyền truy cập thông tin từ bất kỳ bộ phận nào của web.
Các vấn đề lớn xung quanh việc phát triển trí tuệ nhân tạo hàng loạt là những câu hỏi về quyền riêng tư, sao chép bản quyền và liệu AI có thể truyền tải thông tin chính xác. Các phiên bản sớm của chatbot như ChatGPT dựa trên các mô hình ngôn ngữ lớn (LLMs) đã sử dụng các nguồn công khai, chẳng hạn như lưu trữ web common crawl, WebText2, Books1, Books2 và Wikipedia làm dữ liệu đào tạo.
ChatGPT sớm mang tai tiếng vì bị hạn chế về thông tin sau năm 2021 và sau đó điền vào các câu trả lời với dữ liệu sai. Đây có thể là một trong những lý do Google muốn có quyền truy cập không giới hạn vào dữ liệu web để hỗ trợ các công cụ như Bard, để được huấn luyện thực tế và có thể là theo thời gian thực cho các mô hình AI của mình.
Gizmodo cũng lưu ý rằng Google có thể sử dụng chính sách mới này để thu thập nội dung cũ nhưng vẫn do con người tạo ra, chẳng hạn như những bài đánh giá hoặc bài viết blog đã bị quên lãng, để vẫn có được cảm giác về cách văn bản và lời nói của con người được phát triển và phát tán. Tuy nhiên, vẫn chưa rõ Google sẽ sử dụng dữ liệu mà nó thu thập như thế nào.
Một số nền tảng truyền thông xã hội, bao gồm Twitter và Reddit, là những nguồn thông tin cập nhật lớn đã hạn chế quyền truy cập công khai trong bối cảnh sự phổ biến của chatbot AI, khiến cộng đồng của họ bực bội.
Cả hai nền tảng đều đã đóng quyền truy cập miễn phí vào API của mình, giới hạn người dùng không thể tải xuống số lượng lớn bài đăng để chia sẻ ở nơi khác, dưới lớp vỏ bọc bảo vệ tài sản trí tuệ của họ. Điều này thay vào đó đã làm hỏng nhiều công cụ bên thứ ba vốn giúp cho cả Twitter và Reddit hoạt động trơn tru.
Cả Twitter và Reddit đều phải đối mặt với những tổn thất và tranh cãi khác khi mối quan tâm của các ông chủ về việc AI chiếm ưu thế tăng cao.