
Adakah penyelidik telah menemui 'undang-undang penskalaan' AI yang baru? Itulah yang beberapa desas-desus di media sosial menunjukkan - tetapi pakar-pakar skeptikal.
Undang-undang penskalaan AI, sedikit konsep informal, menggambarkan bagaimana prestasi model AI meningkat apabila saiz dataset dan sumber komputasi yang digunakan untuk melatihnya meningkat. Sehingga kira-kira setahun yang lalu, penskalaan 'pra-latihan' - melatih model yang lebih besar pada dataset yang lebih besar - adalah undang-undang dominan jauh, sekurang-kurangnya dalam erti bahawa kebanyakan makmal AI di barisan hadapan menerimanya.
Pra-latihan tidak hilang, tetapi dua undang-undang penskalaan tambahan, penskalaan selepas latihan dan penskalaan masa ujian, telah muncul untuk melengkapinya. Penskalaan selepas latihan pada dasarnya adalah mengimbas tingkah laku model, manakala penskalaan masa ujian melibatkan menggunakan lebih banyak komputasi pada inferens - iaitu menjalankan model - untuk memacu bentuk "penalaran" (lihat: model seperti R1).
Penyelidik Google dan UC Berkeley baru-baru ini mencadangkan dalam satu kertas apa yang beberapa pemerhati dalam talian gambarkan sebagai undang-undang keempat: "cari masa inferens".
Carian masa inferens membolehkan model menghasilkan banyak jawapan yang mungkin kepada pertanyaan secara selari dan kemudian memilih yang "terbaik" dari kelompok itu. Penyelidik menyatakan ia boleh meningkatkan prestasi model yang berusia setahun seperti Gemini 1.5 Pro Google ke tahap yang melampaui model "penalaran" o1-preview OpenAI dalam penanda kepandaian dan matematik.
Kertas kami memberi tumpuan kepada paksi carian ini dan trend penskalaannya. Sebagai contoh, hanya dengan mengambil sampel secara rawak 200 jawapan dan pengesahan kendiri, Gemini 1.5 (sebuah model awal tahun 2024 yang kuno!) mengalahkan o1-Preview dan menghampiri o1. Ini tanpa penalaan, RL, atau pengesah benar. pic.twitter.com/hB5fO7ifNh
- Eric Zhao (@ericzhao28) 17 Mac 2025
“Dengan hanya secara rawak mengambil sampel 200 jawapan dan mengesahkan diri, Gemini 1.5 - sebuah model awal tahun 2024 - mengalahkan o1-preview dan menghampiri o1,” Eric Zhao, seorang penyelidik felo kedoktoran Google dan salah seorang penulis bersama kertas itu, menulis dalam beberapa hantaran di X. “Keajaiban adalah pengesahan diri secara semulajadi menjadi lebih mudah pada skala besar! Anda akan mengharapkan memilih satu penyelesaian yang betul menjadi lebih sukar semakin besar kolam penyelesaian anda, tetapi sebaliknya adalah keadaannya!”
Banyak pakar mengatakan bahawa hasil ini tidak mengejutkan, bagaimanapun, dan carian masa inferens mungkin tidak berguna dalam banyak skenario.
Matthew Guzdial, seorang penyelidik AI dan profesor muda di Universiti Alberta, memberitahu TechCrunch bahawa pendekatan ini berfungsi dengan baik apabila terdapat "fungsi penilaian" yang baik - dengan kata lain, apabila jawapan terbaik kepada suatu soalan dapat diperoleh dengan mudah. Tetapi kebanyakan pertanyaan tidaklah begitu jelas.
“[J]ika kita tidak dapat menulis kod untuk menentukan apa yang kita mahukan, kita tidak boleh menggunakan carian [masa inferens] ini,” katanya. “Untuk sesuatu seperti interaksi bahasa am, kita tidak boleh melakukan ini [...] Ia pada amnya bukanlah pendekatan yang hebat untuk benar-benar menyelesaikan kebanyakan masalah.”
Mike Cook, seorang penyelidik felo di King's College London yang mengkhusus dalam AI, bersetuju dengan penilaian Guzdial, menambah bahawa ia menyoroti jurang di antara "penalaran" dalam pengertian AI dan proses pemikiran kita sendiri.
“[Carian masa inferens] tidak 'meningkatkan proses penalaran' model,” kata Cook. “[I]t hanya merupakan cara kita berkerja mengelakkan batasan teknologi yang cenderung membuat kesilapan dengan sokongan yang sangat yakin [...] Intuitif jika model anda membuat kesilapan 5% dari masa ke masa, maka memeriksa 200 percubaan pada masalah yang sama sepatutnya membuat kesilapan-kesilapan itu lebih mudah dikenal pasti.”
Bahawa carian masa inferens mungkin mempunyai batasan berita yang pasti tidak disukai oleh industri AI yang mencari membuat model "penalaran" berkembang secara komputer-kajian. Seperti yang disebutkan oleh penulis bersama kertas itu, model penalaran pada hari ini boleh merampas ribuan dolar komputasi pada satu masalah matematik.
Nampaknya pencarian teknik penskalaan baru akan terus berlanjut.