
Selama bertahun-tahun, pekerja Meta telah membincangkan secara dalaman mengenai menggunakan karya yang dilindungi hak cipta yang diperolehi melalui cara yang dipertikaikan dari segi undang-undang untuk melatih model AI syarikat, menurut dokumen mahkamah yang dibuka pada hari Khamis.
Dokumen-dokumen itu dikemukakan oleh pihak plaintif dalam kes Kadrey v. Meta, salah satu pertikaian hak cipta AI yang sedang berlangsung perlahan-lahan di sistem mahkamah Amerika Syarikat. Defendan, Meta, mengatakan bahawa melatih model-model pada karya yang dilindungi IP, khususnya buku-buku, adalah "penggunaan yang adil." Pihak plaintif, termasuk penulis Sarah Silverman dan Ta-Nehisi Coates, tidak bersetuju.
Bahan-bahan sebelum ini yang dikemukakan dalam saman tersebut mendakwa bahawa CEO Meta, Mark Zuckerberg, memberikan izin kepada pasukan AI Meta untuk melatih menggunakan kandungan berhak cipta dan bahawa Meta menghentikan rundingan lesen data latihan AI dengan penerbit buku. Tetapi dokumen-dokumen baru, yang kebanyakkannya menunjukkan bahagian-bahagian perbualan kerja dalaman antara kakitangan Meta, memberikan gambaran yang paling jelas setakat ini mengenai bagaimana Meta mungkin telah menggunakan data berhak cipta untuk melatih modelnya, termasuk model dalam keluarga Llama syarikat.
Dalam satu perbualan, pekerja Meta, termasuk Melanie Kambadur, pengurus kanan bagi pasukan penyelidikan model Llama Meta, membincangkan latihan model pada karya yang mereka tahu mungkin menimbulkan masalah undang-undang.
“[P]endapat saya akan (dalam garis ‘meminta maaf, bukan izin’): kami cuba mendapatkan buku-buku tersebut dan eskalasikannya kepada eksekutif sehingga mereka membuat keputusan,” tulis Xavier Martinet, seorang jurutera penyelidikan Meta, dalam percakapan bertarikh Februari 2023, menurut dokumen-dokumen itu. “[I]ni sebabnya mereka menubuhkan organisasi ai gen ini untuk [sic]: supaya kami boleh lebih berani risiko.”
Martinet mencadangkan idea untuk membeli e-buku pada harga runcit untuk membina satu set latihan daripada membuat perjanjian lesen dengan penerbit buku individu. Selepas seorang kakitangan lain mencadangkan bahawa menggunakan bahan yang tidak sah, dilindungi hak cipta mungkin adalah asas cabaran undang-undang, Martinet bertegas, berhujah bahawa “berbilion” syarikat permulaan mungkin sudah menggunakan buku-buku yang dipiratekan untuk latihan.
“Maksud saya, kes terburuk: kita mendapati bahawa akhirnya ok, sementara berbilion permulaan [sic] hanya merampas beribu-ribu buku di bittorrent,” tulis Martinet, menurut dokumen-dokumen itu. “[P]endapat saya lagi: cuba mengadakan perjanjian dengan penerbit secara langsung memakan masa lama …”
Dalam perbualan yang sama, Kambadur, yang mencatat bahawa Meta sedang berunding dengan platform hosting dokumen Scribd “dan lain-lain” untuk lesen, memperingatkan bahawa menggunakan data “yang tersedia secara umum” untuk latihan model akan memerlukan kelulusan, peguam Meta sedang “kurang berhati-hati” daripada mereka sebelum ini dengan kelulusan tersebut.
“Ya, kita pasti perlu mendapatkan lesen atau kelulusan pada data yang tersedia secara umum masih,” kata Kambadur, menurut dokumen-dokumen itu. “[B]ezanya sekarang adalah kita mempunyai lebih banyak wang, lebih ramai peguam, lebih banyak bantuan perniagaan, keupayaan mempercepatkan/menaik taraf untuk kelajuan, dan peguam lebih sedikit konservatif dalam kelulusan.”
Percakapan mengenai Libgen
Dalam perbualan kerja lain yang diterangkan dalam dokumen-dokumen itu, Kambadur membincangkan kemungkinan untuk menggunakan Libgen, sejenis “pengagregat pautan” yang menyediakan akses kepada karya-karya yang dilindungi hak cipta daripada penerbit, sebagai alternatif kepada data sumber yang boleh dilisensikan oleh Meta.
Libgen telah didakwa beberapa kali, diperintahkan untuk ditutup, dan didenda berpuluh-puluh juta dolar kerana penyelewengan hak cipta. Salah seorang rakan sekerja Kambadur menyahut dengan tangkapan skrin hasil carian Google untuk Libgen yang mengandungi potongan “Tidak, Libgen tidak sah.”
Beberapa pembuat keputusan dalam Meta nampaknya berkeyakinan bahawa tidak menggunakan Libgen untuk latihan model boleh ernyata merosotkan daya saing Meta dalam perlumbaan AI, menurut dokumen-dokumen tersebut.
Dalam satu emel yang dialamatkan kepada Naib Presiden AI Meta, Joelle Pineau, Sony Theakanath, pengarah pengurusan produk di Meta, menyebut Libgen sebagai “penting untuk mencapai nombor SOTA dalam semua kategori,” merujuk kepada melebihi model-model AI terbaik, yang terbaik keadaan seni (SOTA) dan kategori penanda aras.
Theakanath juga mengemukakan “mengawal” dalam emel itu yang bertujuan untuk membantu mengurangkan eksposur undang-undang Meta, termasuk membuang data dari Libgen yang “jelas ditandakan sebagai dipiratekan/dicuri” dan juga hanya tidak menggantung penggunaan secara umum. “Kami tidak akan mendedahkan penggunaan set data Libgen yang digunakan untuk latihan,” seperti yang dinyatakan Theakanath.
Dalam amalannya, pengawalan ini merangkumi menyemak semula fail-fail Libgen bagi perkataan seperti “dicuri” atau “dipirate,” menurut dokumen-dokumen tersebut.
Dalam satu perbualan kerja, Kambadur menyebut bahawa pasukan AI Meta juga menala model untuk “elak soalan berisiko PI” — maksudnya, menyusun model untuk menolak menjawab soalan seperti “menghasilkan tiga halaman pertama ‘Harry Potter and the Sorcerer’s Stone’” atau “beritahu saya buku-buku elektronik yang anda dilatih.”
Dokumen-dokumen tersebut mengandungi pendedahan-pendedahan lain, yang menyiratkan bahawa Meta mungkin telah mengendalikan data Reddit untuk latihan model tertentu, mungkin dengan meniru tingkah laku aplikasi pihak ketiga bernama Pushshift. Khasnya, Reddit mengatakan pada April 2023 bahawa mereka merancang untuk mulai mengenakan bayaran syarikat AI untuk mengakses data latihan model.
Dalam satu perbualan yang bertarikh Mac 2024, Chaya Nayak, pengarah pengurusan produk di unit AI generative Meta, berkata bahawa kepimpinan Meta sedang mempertimbangkan untuk “mengatasi” keputusan-keputusan terdahulu mengenai set-set latihan, termasuk keputusan untuk tidak menggunakan kandungan Quora atau buku berlesen dan artikel saintifik, untuk memastikan model syarikat mempunyai data latihan yang mencukupi.
Nayak menyiratkan bahawa set data latihan bersebelah Meta — pos Facebook dan Instagram, teks yang diterjemahkan dari video di platform Meta, dan beberapa mesej Meta for Business — hanya tidak mencukupi. “[K]ita memerlukan lebih data,” katanya.
Pihak plaintif dalam Kadrey v. Meta telah meminda tuntutan mereka beberapa kali sejak kes tersebut difailkan di Mahkamah Wilayah Utara California, Bahagian San Francisco, pada tahun 2023. Yang terbaru mengatakan bahawa Meta, antara tuntutan-tuntutan lain, mentauliah beberapa buku dipiratekan dengan buku yang bertauliah untuk menentukan sama ada ia masuk akal untuk mengejar perjanjian lesen dengan penerbit.
Sebagai tanda bahawa Meta menganggap taruhan undang-undang sangat tinggi, syarikat itu telah menambah dua penuntut Mahkamah Agung dari firma guaman Paul Weiss ke pasukan pembelaannya dalam kes tersebut.
Meta tidak menjawab segera permintaan untuk mengulas.