
MLCommons, kumpulan kerja keselamatan AI tanpa untung, telah bekerjasama dengan platform pembangunan AI Hugging Face untuk mengeluarkan salah satu koleksi rakaman suara domain awam terbesar di dunia untuk penyelidikan AI.
Set data, yang dipanggil Pertuturan Rakyat Tanpa Penyeliaan, mengandungi lebih dari sejuta jam audio yang merangkumi sekurang-kurangnya 89 bahasa. MLCommons mengatakan mereka bermotivasi untuk membuatnya dengan keinginan untuk menyokong R&D dalam "pelbagai bidang teknologi pertuturan".
"Menyokong penyelidikan pemprosesan bahasa semulajadi yang lebih luas untuk bahasa selain Bahasa Inggeris membantu membawa teknologi komunikasi kepada lebih ramai orang di seluruh dunia," tulis pertubuhan itu dalam catatan blognya pada hari Khamis. "Kami jangkakan beberapa lorong untuk komuniti penyelidikan untuk terus membina dan membangunkan, terutamanya dalam bidang-bidang seperti peningkatan model pertuturan bahasa sumber rendah, pengiktirafan pertuturan yang dipertingkatkan di merata-rata aksen dan dialek, dan aplikasi baru dalam sintesis pertuturan."
Ini adalah matlamat yang mulia, pastinya. Tetapi set data AI seperti Pertuturan Rakyat Tanpa Penyeliaan boleh membawa risiko bagi penyelidik yang memilih untuk menggunakannya.
Data berat sebelah adalah salah satu risiko tersebut. Rakaman dalam Pertuturan Rakyat Tanpa Penyeliaan berasal dari Archive.org, badan tanpa untung yang mungkin paling dikenali kerana alat arsip web Wayback Machine. Oleh kerana ramai penyumbang Archive.org berbahasa Inggeris - dan Amerika - hampir kesemua rakaman dalam Pertuturan Rakyat Tanpa Penyeliaan adalah dalam Bahasa Inggeris dengan aksen Amerika, menurut readme di laman projek rasmi.
Ini bermakna bahawa, tanpa penapisan yang berhati-hati, sistem AI seperti pengiktirafan pertuturan dan model sintesis suara yang dilatih dengan Pertuturan Rakyat Tanpa Penyeliaan mungkin menunjukkan beberapa kecenderungan yang sama. Mereka mungkin, sebagai contoh, menghadapi kesulitan untuk menyalin Bahasa Inggeris yang dinyatakan oleh penutur bukan asli, atau mengalami masalah dalam menghasilkan suara sintetik dalam bahasa selain Bahasa Inggeris.
Pertuturan Rakyat Tanpa Penyeliaan mungkin juga mengandungi rakaman dari individu yang tidak sedar bahawa suara mereka digunakan untuk tujuan penyelidikan AI - termasuk aplikasi komersial. Walaupun MLCommons mengatakan bahawa semua rakaman dalam set data adalah domain awam atau terdapat di bawah lesen Creative Commons, terdapat kemungkinan kesilapan dibuat.
Menurut analisis MIT, ratusan set data latihan AI yang tersedia secara umum tidak mempunyai maklumat lesen dan mengandungi kesilapan. Penggiat pencipta termasuk Ed Newton-Rex, CEO badan tanpa untung fokus etika AI Fairly Trained, telah membuat kes untuk pencipta tidak perlu "opt-out" dari set data AI kerana beban opt-out yang memberati pencipta tersebut.
"Ramai pencipta (contohnya pengguna Squarespace) tidak mempunyai cara yang bermakna untuk opt-out," tulis Newton-Rex dalam kemas kini di X bulan Jun lepas. "Bagi pencipta yang boleh opt-out, terdapat beberapa kaedah opt-out yang bertindih, yang (1) sangat membingungkan dan (2) jauh dari lengkap dalam liputannya. Walaupun opt-out universal yang sempurna wujud, adalah sangat tidak adil untuk meletakkan beban opt-out kepada pencipta, memandangkan AI generatif menggunakan kerja mereka untuk bersaing dengan mereka - banyak yang tidak akan sedar mereka boleh opt-out."
MLCommons mengatakan bahawa mereka komited untuk mengemaskini, mengekalkan, dan meningkatkan kualiti Pertuturan Rakyat Tanpa Penyeliaan. Tetapi mengambil kira potensi kecacatan, adalah penting untuk para pembangun melaksanakan berhati-hati yang serius.