Minggu ini dalam AI: Mungkin kita sepatutnya mengabaikan penanda aras AI untuk masa ini

Selamat datang ke buletin AI reguler TechCrunch! Kami akan bercuti untuk sementara waktu, tetapi anda boleh mencari liputan AI kami, termasuk ruangan saya, analisis harian kami, dan berita penting, di TechCrunch. Jika anda ingin cerita-cerita tersebut dan banyak lagi di peti masuk anda setiap hari, daftar masuk untuk newsletter harian kami di sini.

Minggu ini, syarikat AI jutawan Elon Musk, xAI, melancarkan model AI unggulan terbarunya, Grok 3, yang menggerakkan aplikasi chatbot Grok syarikat itu. Dilatih di sekitar 200,000 GPU, model ini mengatasi beberapa model terkemuka lain, termasuk dari OpenAI, dalam penanda aras untuk matematik, pemrograman, dan lain-lain.

Tetapi apakah penanda aras ini benar-benar memberi maklumat kepada kita? Di TC, kami sering melaporkan angka penanda aras dengan enggan kerana mereka adalah salah satu cara yang (relatif) standard dalam industri AI mengukur peningkatan model. Penanda aras AI yang popular cenderung menguji pengetahuan esoterik, dan memberikan skor secara agregat yang berkorelasi buruk dengan kecekapan dalam tugas yang paling orang hirau.

Seperti yang ditunjukkan oleh profesor Wharton, Ethan Mollick, dalam siri pos di X selepas perkenalan Grok 3 Isnin lalu, terdapat "keperluan mendesak untuk ujian yang lebih baik dan autoriti ujian yang bebas". Syarikat AI sering melaporkan hasil penanda aras sendiri lebih kerap daripada tidak, seperti yang diandaikan oleh Mollick, menjadikan hasil tersebut lebih sukar diterima dengan nilai sebenar.

"Penanda aras awam adalah 'meh' dan tepu, menyebabkan ujian AI yang banyak seperti ulasan makanan, berdasarkan citarasa," tulis Mollick. "Jika AI penting dalam kerja, kita perlukan lebih banyak."

Terdapat pelbagai ujian bebas dan organisasi yang mencadangkan penanda aras baru untuk AI, tetapi kelebihan relatif mereka jauh dari perkara yang disetujui dalam industri. Sesetengah pengulas dan pakar AI mencadangkan sejajar penanda aras dengan kesan ekonomi untuk memastikan kebergunaannya, manakala yang lain berhujah bahawa penggunaan dan utiliti adalah penanda aras sebenar.

Perdebatan ini mungkin akan berterusan hingga ke akhir zaman. Mungkin kita sepatutnya, sebagaimana pengguna X Roon syor, lebih kurang memberi perhatian kepada model-model baru dan penanda aras kecuali terdapat kemajuan teknikal AI utama. Demi kesihatan mental kolektif kita, mungkin itu bukan idea terburuk, walaupun ia menyebabkan tahap FOMO AI tertentu.

Seperti yang disebutkan di atas, Minggu ini dalam AI akan bercuti. Terima kasih kerana tetap setia dengan kami, pembaca, sepanjang perjalanan yang berliku-liku ini. Hingga jumpa lagi.

Berita

Kredit Gambar: Nathan Laine/Bloomberg / Getty Images

OpenAI cuba "membetulkan semula" ChatGPT: Max menulis tentang bagaimana OpenAI mengubah pendekatan pembangunan AI untuk secara khusus merangkul "kebebasan intelektual," tidak kira seberapa mencabar atau kontroversi sesuatu topik itu.

Startup baru Mira: Bekas CTO OpenAI, Mira Murati, mempunyai startup baru, Thinking Machines Lab, yang bercadang untuk membina alat untuk "membuat AI berfungsi untuk keperluan dan matlamat unik [orang]."

Grok 3 datang: Startup AI Elon Musk, xAI, telah mengeluarkan model AI unggulan terbarunya, Grok 3, dan mengumumkan keupayaan baru untuk aplikasi Grok untuk iOS dan web.

Konferens yang sangat Llama: Meta akan menganjurkan konferens pembangunannya yang pertama yang didedikasikan untuk AI generatif pada musim bunga ini. Dikenali sebagai LlamaCon selepas model AI generatif keluarga Llama Meta, konferens ini dijadualkan pada 29 April.

AI dan kedaulatan digital Eropah: Paul mewawancarai OpenEuroLLM, satu kerjasama antara kira-kira 20 organisasi untuk membina "siri model asas untuk AI yang telus di Eropah" yang memelihara "kepelbagaian bahasa dan budaya" semua bahasa EU.

Kertas penyelidikan minggu ini

Kredit Gambar: Jakub Porzycki/NurPhoto / Getty Images

Peselidik OpenAI telah mencipta penanda aras AI baru, SWE-Lancer, yang bertujuan untuk menilai kecekapan pengaturcaraan sistem AI yang kuat. Penanda aras terdiri daripada lebih 1,400 tugas kejuruteraan perisian bebas yag merangkumi pembetulan bug dan pelancaran ciri hingga tilak tawaran pelaksanaan teknikal peringkat pengurus.

Menurut OpenAI, model AI terbaik, Claude 3.5 Sonnet milik Anthropic, mendapat skor 40.3% dalam penanda aras SWE-Lancer penuh - menunjukkan bahawa AI masih mempunyai jalan yang panjang. Perlu diingat bahawa para penyelidik tidak menguji model-model baru seperti o3-mini milik OpenAI atau R1 milik syarikat AI China, DeepSeek.

Model minggu ini

Syarikat AI China bernama Stepfun telah mengeluarkan model AI "terbuka", Step-Audio, yang boleh memahami dan menghasilkan pertuturan dalam beberapa bahasa. Step-Audio menyokong bahasa Cina, Inggeris, dan Jepun dan membolehkan pengguna menyesuaikan emosi dan walaupun dialek audio sintetik yang diciptanya, termasuk nyanyian.

Stepfun adalah antara beberapa syarikat startup AI China yang didanai dengan baik yang melepaskan model di bawah lesen yang sanggup. Ditubuhkan pada tahun 2023, Stepfun dilaporkan baru-baru ini menutup rundingan dana bernilai beberapa ratus juta dolar daripada sejumlah pelabur termasuk firma ekuiti swasta milik negara China.

Bekas-bekas

Kredit Gambar: Nous Research

Nous Research, sebuah kumpulan penyelidikan AI, telah melepaskan apa yang dikatakan sebagai salah satu model AI pertama yang menyatukan penalaran dan keupayaan model bahasa "intuitif".

Model, DeepHermes-3 Preview, boleh mengalih daya "jejala berfikir" panjang untuk ketepatan yang lebih baik dengan kadar pengiraan yang tinggi. Dalam mod "penalaran", DeepHermes-3 Preview, sama dengan model AI penalaran lain, "berfikir" lebih lama untuk masalah yang lebih sukar dan menunjukkan proses berfikirnya untuk sampai pada jawapan.

Anthropic dilaporkan merancang untuk melepaskan model yang serupa secara seni bina tidak lama lagi, dan OpenAI telah mengatakan bahawa model seumpama itu dalam perancangan dekat mereka.