Kajian Microsoft menunjukkan bahawa model AI masih kesulitan untuk debug perisian

Model AI dari OpenAI, Anthropic, dan makmal AI teratas lain semakin digunakan untuk membantu tugas pengaturcaraan. CEO Google Sundar Pichai berkata pada bulan Oktober bahawa 25% kod baru di syarikat itu dihasilkan oleh AI, dan CEO Meta Mark Zuckerberg telah menyatakan hasrat untuk meluaskan penggunaan model coding AI di syarikat media sosial tersebut.

Walau bagaimanapun, malah model terbaik hari ini juga menghadapi kesulitan untuk menyelesaikan ralat perisian yang tidak akan mengelirukan pengaturcara yang berpengalaman.

Kajian baru dari Microsoft Research, bahagian R&D Microsoft, mendedahkan bahawa model, termasuk Claude 3.7 Sonnet Anthropic dan o3-mini OpenAI, gagal untuk debug banyak isu dalam satu perisian benchmark pembangunan yang dipanggil SWE-bench Lite. Keputusan tersebut adalah peringatan keras bahawa, walaupun pernyataan berani dari syarikat seperti OpenAI, AI masih belum sepadan dengan pakar manusia dalam domain seperti pengaturcaraan.

Para penulis kajian menguji sembilan model berbeza sebagai rangkaian untuk “agen berdasarkan prompt tunggal” yang mempunyai akses kepada beberapa alat debug, termasuk debug Python. Mereka memberi agen ini tugas untuk menyelesaikan set 300 tugas debug perisian dari SWE-bench Lite.

Menurut para penulis, walaupun dilengkapi dengan model yang lebih kuat dan baru, agen mereka jarang dapat menyelesaikan lebih separuh daripada tugas debug dengan jayanya. Claude 3.7 Sonnet memiliki kadar kejayaan purata tertinggi (48.4%), diikuti oleh o1 OpenAI (30.2%), dan o3-mini (22.1%).

Graf dari kajian itu. “Peningkatan relatif” merujuk kepada peningkatan model yang diperoleh dari dilengkapi dengan alat debug.Kredit Imej: Microsoft

Kenapa prestasi yang tidak memuaskan? Beberapa model menghadapi kesulitan dalam menggunakan alat debug yang tersedia bagi mereka dan memahami bagaimana alat berbeza mungkin membantu dengan isu yang berbeza. Namun, masalah yang lebih besar adalah kekurangan data, menurut para penulis. Mereka meramalkan bahawa tidak cukup data yang mewakili “proses membuat keputusan berurutan” - iaitu, jejak debug manusia - dalam data latihan model semasa.

“Kami sangat yakin bahawa latihan atau penalaan semula [model] boleh menjadikan mereka debuger interaktif yang lebih baik,” tulis para penulis dalam kajian mereka. “Walau bagaimanapun, ini akan memerlukan data khusus untuk memenuhi latihan model sedemikian, sebagai contoh, data trajektori yang merakam agen berinteraksi dengan debuger untuk mengumpul maklumat yang diperlukan sebelum mencadangkan penyelesaian ralat.”

Penemuan ini tidak begitu mengejutkan. Banyak kajian telah menunjukkan bahawa AI yang menghasilkan kod cenderung memperkenalkan kerentanan keselamatan dan ralat, kerana kelemahan dalam bidang seperti keupayaan untuk memahami logik pengaturcaraan. Penilaian terbaru mengenai Devin, alat pengaturcaraan AI yang popular, mendapati bahawa ia hanya dapat menyelesaikan tiga daripada 20 ujian pengaturcaraan.

Namun demikian, kajian Microsoft adalah salah satu tinjauan yang lebih terperinci di kawasan masalah yang berterusan bagi model. Ini mungkin tidak meredakan antusiasme pelabur terhadap alat bantu coding bertenaga AI, tetapi dengan sedikit nasib, ia akan membuat para pembangun - dan ketua mereka - berfikir dua kali sebelum membenarkan AI menjalankan pertunjukan pengaturcaraan.

Bagi apa yang berharga, semakin ramai pemimpin teknologi telah menolak idea bahawa AI akan mengautomatiskan pekerjaan pengaturcaraan. Pengasas Microsoft Bill Gates berkata beliau yakin bahawa pengaturcaraan sebagai profesion akan terus kekal. Begitu juga dengan CEO Replit Amjad Masad, CEO Okta Todd McKinnon, dan CEO IBM Arvind Krishna.