Đằng sau mỗi phản hồi thông minh từ chatbot là một kho dữ liệu khổng lồ và trong một số trường hợp, hàng nghìn tỉ từ được lấy từ các bài báo, sách và bình luận trực tuyến để dạy hệ thống AI hiểu truy vấn của người dùng. Quan niệm thông thường trong ngành này là cần ngày càng nhiều thông tin càng tốt để tạo ra các sản phẩm AI thế hệ tiếp theo.
Tuy nhiên, tồn tại một vấn đề lớn với kế hoạch đó: Chỉ có một lượng dữ liệu chất lượng cao có sẵn trên internet. Để sở hữu chúng, các công ty AI thường trả hàng triệu USD cho các nhà xuất bản để cấp phép nội dung của họ hoặc thu thập dữ liệu từ các trang web, dẫn đến nguy cơ đối mặt với vụ kiện bản quyền. Ngày càng nhiều công ty AI hàng đầu đang khám phá một cách tiếp cận khác, gây ra tranh cãi trong cộng đồng AI: Sử dụng dữ liệu tổng hợp, hay bản chất là dữ liệu fake (giả).
Đây là cách hoạt động: Các hãng công nghệ có thể sử dụng hệ thống AI của riêng họ để tạo ra văn bản và các phương tiện truyền thông khác. Dữ liệu nhân tạo này sau đó được sử dụng để đào tạo các phiên bản tương lai của cùng những hệ thống AI đó, theo cái mà Giám đốc điều hành Anthropic - Dario Amodei gọi là “công cụ tạo dữ liệu vô hạn” tiềm năng. Bằng cách này, các công ty AI có thể tránh gây ra nhiều lo ngại về pháp lý, đạo đức và quyền riêng tư.
Ý tưởng về dữ liệu tổng hợp trong điện toán không phải là mới. Đó là kỹ thuật đã được sử dụng trong nhiều thập kỷ cho mọi thứ, từ ẩn danh thông tin cá nhân đến mô phỏng điều kiện đường sá cho công nghệ ô tô tự lái. Thế nhưng, sự phát triển của AI tạo sinh giúp việc tạo dữ liệu tổng hợp có chất lượng tốt hơn trên quy mô lớn trở nên dễ dàng hơn, đồng thời cũng tạo thêm tính cấp thiết mới để thực hiện điều đó.
AI tạo sinh là một loại AI có mục tiêu chính là tạo ra thông tin mới, thường thông qua quá trình học máy và học sâu. Loại AI này không chỉ giải quyết các nhiệm vụ cụ thể, mà còn có khả năng tạo ra dữ liệu, văn bản, hình ảnh, âm thanh, video và nhiều loại thông tin khác.
Một ví dụ nổi tiếng về AI tạo sinh là mô hình ngôn ngữ lớn GPT của OpenAI, có khả năng tạo ra văn bản mới, dựa trên dữ liệu mà nó đã được huấn luyện trước đó.
Anthropic nói với hãng tin Bloomberg rằng đã sử dụng dữ liệu tổng hợp để xây dựng mô hình mới nhất hỗ trợ chatbot của mình là Claude. Meta Platforms và Google sử dụng dữ liệu tổng hợp để phát triển các mô hình nguồn mở gần đây của họ.
Google DeepMind cho biết dựa vào phương pháp này để giúp đào tạo một mô hình AI có thể giải các bài toán hình học cấp độ Olympic. Nhiều người thắc mắc liệu OpenAI có sử dụng dữ liệu tổng hợp để đào tạo Sora, mô hình chuyển văn bản thành video chân thực, hay không. OpenAI nói với Bloomberg rằng đang khám phá việc sử dụng dữ liệu tổng hợp nhưng sẽ không xác nhận thêm thông tin chi tiết.
Tại Microsoft, nhóm nghiên cứu AI tạo sinh đã chuyển sang sử dụng dữ liệu tổng hợp cho một dự án gần đây. Họ muốn xây dựng một mô hình AI nhỏ hơn, ít tốn tài nguyên hơn mà vẫn có khả năng ngôn ngữ và suy luận hiệu quả. Để làm được điều đó, nhóm này đã cố gắng bắt chước cách trẻ học ngôn ngữ thông qua việc đọc truyện.
Thay vì cung cấp cho mô hình AI một lượng lớn sách dành cho trẻ em, đội ngũ Microsoft đã đưa ra danh sách 3.000 từ mà đứa trẻ 4 tuổi có thể hiểu được. Sau đó, họ yêu cầu mô hình AI tạo ra một câu chuyện dành cho trẻ em bằng cách sử dụng một danh từ, một động từ và một tính từ trong danh sách đó. Các nhà nghiên cứu Microsoft lặp lại lời nhắc đó hàng triệu lần trong nhiều ngày, tạo ra hàng triệu truyện ngắn mà cuối cùng đã giúp phát triển một mô hình ngôn ngữ khác có khả năng tốt hơn. Microsoft đã tạo ra dòng mô hình ngôn ngữ mới nhỏ gọn này (có tên Phi-3), nguồn mở và có sẵn cho công chúng.
Sébastien Bubeck, Phó chủ tịch phụ trách AI tại Microsoft, nói: “Đột nhiên, bạn có nhiều quyền kiểm soát hơn. Bạn có thể quyết định ở mức độ chi tiết hơn nhiều về những gì muốn mô hình AI của mình học”.
Theo Sébastien Bubeck, với dữ liệu tổng hợp, bạn cũng có thể hướng dẫn các hệ thống AI tốt hơn trong quá trình học hỏi bằng cách thêm nhiều giải thích hơn vào dữ liệu, nếu không thì máy có thể gặp khó khăn để xử lý.
Thế nhưng, một số chuyên gia AI lo lắng về rủi ro của những kỹ thuật như vậy. Vào năm ngoái, nhóm các nhà nghiên cứu tại Đại học Oxford, Cambridge và một số trường lớn khác đã xuất bản một bài viết giải thích cách sử dụng dữ liệu tổng hợp do ChatGPT tạo ra để xây dựng mô hình AI mới có thể dẫn đến “sự sụp đổ mô hình”.
Trong thử nghiệm của họ, mô hình AI được xây dựng trên đầu ra của ChatGPT bắt đầu bộc lộ “những khiếm khuyết không thể khắc phục” và dường như mất trí nhớ về những gì nó được đào tạo ban đầu.
Trong một ví dụ, các nhà nghiên cứu đã gợi ý mô hình ngôn ngữ lớn bằng văn bản về kiến trúc lịch sử của Anh. Sau khi các nhà nghiên cứu đào tạo lại mô hình ngôn ngữ lớn bằng dữ liệu tổng hợp nhiều lần, nó bắt đầu tạo ra những câu nói lảm nhảm vô nghĩa về thỏ rừng.
Các nhà nghiên cứu cũng đưa ra lo ngại rằng dữ liệu tổng hợp có thể làm tăng thêm sự thiên vị và độc hại trong bộ dữ liệu. Về phần mình, một số người ủng hộ dữ liệu tổng hợp nói rằng với các biện pháp phù hợp, mô hình AI được phát triển theo cách này có thể chính xác hoặc tốt hơn cái được xây dựng trên dữ liệu thực.
“Dữ liệu tổng hợp có thể hữu ích nếu được thực hiện đúng cách. Tuy nhiên, không có câu trả lời rõ ràng về cách thực hiện đúng đắng; một số thành kiến có thể rất khó nhận thấy với con người”, theo Zakhar Shumaylov, tiến sĩ nghiên cứu sinh tại Đại học Cambridge, đồng tác giả bài viết về “sự sụp đổ mô hình”.
Ngoài ra, còn có một cuộc tranh luận mang tính triết học hơn: Nếu các mô hình ngôn ngữ lớn bị mắc kẹt trong vòng đào tạo vô tận về nội dung của chính chúng, liệu AI có ít quan tâm đến bắt chước trí thông minh con người mà tập trung nhiều hơn vào việc bắt chước ngôn ngữ của các máy khác không?
Percy Liang, giáo sư khoa học máy tính của Đại học Stanford, cho biết để tạo ra dữ liệu tổng hợp hữu ích, các công ty vẫn cần những tác phẩm thực sự mang trí tuệ con người như sách, bài báo và mã. “Dữ liệu tổng hợp không phải là dữ liệu thực, giống như cách bạn mơ thấy mình leo lên đỉnh Everest không thực sự là leo lên đỉnh núi này”, Percy Liang viết trong một email.
Những người tiên phong trong lĩnh vực dữ liệu tổng hợp và AI đồng ý rằng không thể loại con người ra khỏi quá trình phát triển và tinh chỉnh các mô hình AI. Con người thực sự vẫn cần thiết để tạo và tinh chỉnh các tập dữ liệu nhân tạo.
Sébastien Bubeck nói: “Dữ liệu tổng hợp không phải là nơi bạn nhấn nút và nói: ‘Này, tạo một số dữ liệu cho tôi’. Đó là một quy trình rất phức tạp. Cần rất nhiều sức lao động của con người để tạo ra dữ liệu tổng hợp ở quy mô lớn”.