Ribuan repositori GitHub yang terdedah, kini peribadi, masih boleh diakses melalui Copilot

Penyelidik keselamatan memberi amaran bahawa data yang terdedah di internet, walaupun hanya seketika, boleh bertahan dalam chatbot AI generatif dalam talian seperti Microsoft Copilot jauh selepas data tersebut telah dibuat peribadi.

Ribuan repositori GitHub yang sebelum ini awam daripada beberapa syarikat terbesar di dunia terjejas, termasuk Microsoft, menurut penemuan baru dari Lasso, sebuah syarikat keselamatan siber Israeli yang memberi tumpuan kepada ancaman AI generatif yang muncul.

Penemu bersama Lasso, Ophir Dror memberitahu TechCrunch bahawa syarikat itu menemui kandungan dari repositori GitHub sendiri muncul dalam Copilot kerana telah diindeks dan di-cache oleh enjin carian Bing milik Microsoft. Dror berkata repositori tersebut, yang tersilap telah dibuat awam untuk tempoh yang singkat, sejak itu telah ditetapkan sebagai peribadi, dan mengaksesnya di GitHub menghasilkan ralat "halaman tidak dijumpai".

"Di Copilot, agak mengejutkan, kami menemui salah satu repositori peribadi kami sendiri," kata Dror. "Jika saya melayari web, saya tidak akan melihat data ini. Tetapi sesiapa sahaja di dunia boleh bertanya kepada Copilot soalan yang betul dan mendapatkan data ini."

Selepas menyedari bahawa mana-mana data di GitHub, walaupun seketika, boleh berpotensi terdedah oleh alat seperti Copilot, Lasso menyiasat lebih lanjut.

Lasso mengekstrak senarai repositori yang pernah awam pada mana-mana ketika pada tahun 2024 dan mengenal pasti repositori yang sejak itu telah dipadamkan atau ditetapkan sebagai peribadi. Dengan menggunakan mekanisme cache Bing, syarikat itu menemui lebih daripada 20,000 repositori GitHub yang sejak itu peribadi masih mempunyai data yang boleh diakses melalui Copilot, menjejaskan lebih daripada 16,000 organisasi.

Lasso memberitahu TechCrunch sebelum menerbitkan penyelidikan bahawa organisasi yang terjejas termasuk Amazon Web Services, Google, IBM, PayPal, Tencent, dan Microsoft. Amazon memberitahu TechCrunch selepas penerbitan tarikh ini bahawa ia tidak terjejas oleh isu ini. Lasso berkata ia "mengeluarkan semua rujukan kepada AWS mengikut nasihat pasukan undang-undang kami" dan bahawa "kami teguh dengan penyelidikan kami."

Bagi beberapa syarikat yang terjejas, Copilot boleh diminta untuk mengembalikan arkib GitHub yang mengandungi harta intelektual, data korporat yang sensitif, kunci akses, dan token, kata syarikat itu. Lasso mencatat bahawa ia menggunakan Copilot untuk mendapatkan kandungan repo GitHub - yang telah dipadamkan oleh Microsoft - yang memuatkan alat yang membolehkan penciptaan imej AI yang "mengganggu dan berbahaya" menggunakan perkhidmatan AI awan Microsoft.

Dror berkata Lasso menghubungi semua syarikat yang terjejas yang telah "terjejas secara besar" oleh pendedahan data dan menasihati mereka untuk memutarkan atau mencabut kunci yang dikompromi.

Tiada syarikat yang terjejas yang dinyatakan oleh Lasso yang menjawab soalan TechCrunch. Microsoft juga tidak menjawab pertanyaan TechCrunch.

Lasso memberitahu Microsoft mengenai penemuan tersebut pada November 2024. Microsoft memberitahu Lasso bahawa ia mengklasifikasikan isu itu sebagai "keparahan rendah," menyatakan bahawa tingkah laku cache ini adalah "berkaitan". Microsoft tidak lagi menyertakan pautan ke cache Bing dalam hasil cariannya mulai Disember 2024.

Walau bagaimanapun, Lasso mengatakan walaupun ciri cache itu dilumpuhkan, Copilot masih mempunyai akses ke data walaupun tidak dapat dilihat melalui carian web tradisional, menunjukkan penyelesaian sementara.

Dikemaskini dengan komen selepas penerbitan dari Amazon Web Services dan Lasso.