OpenAI melancarkan o1, sebuah model yang boleh memeriksa fakta sendiri

Pembuat ChatGPT OpenAI telah mengumumkan pelancaran produk utama berikutnya: Sebuah model AI generatif yang dikenali sebagai Stroberi, secara rasmi dipanggil OpenAI o1.

Untuk lebih tepat, o1 sebenarnya merupakan keluarga model. Dua model tersedia pada hari Khamis di ChatGPT dan melalui API OpenAI: o1-pratonton dan o1-mini, sebuah model yang lebih kecil, lebih cekap yang bertujuan untuk penghasilan kod.

Anda perlu berlangganan ChatGPT Plus atau Team untuk melihat o1 dalam pelanggan ChatGPT. Pengguna perniagaan dan pendidikan akan mendapat akses pada awal minggu depan.

Oleh kerana pengalaman chatbot o1 agak asas pada masa ini. Berbeza dengan GPT-4o, pendahulu o1, o1 tidak boleh melayari web atau menganalisis fail lagi. Model ini mempunyai ciri-ciri analisis imej, tetapi ianya telah dimatikan menunggu ujian tambahan. Dan o1 adalah terhad pada kadar; had mingguan pada masa ini adalah 30 mesej untuk o1-pratonton dan 50 untuk o1-mini.

Disebabkan oleh harganya yang mahal. Sangat mahal. Dalam API, o1-pratonton adalah $15 setiap 1 juta token input dan $60 setiap 1 juta token output. Itu 3 kali ganda kos berbanding GPT-4o untuk input dan 4 kali ganda kos untuk output. (Token adalah bit data mentah; 1 juta adalah bersamaan dengan kira-kira 750,000 perkataan.)

OpenAI berkata bahawa mereka merancang untuk memberikan akses o1-mini kepada semua pengguna percuma ChatGPT tetapi belum menetapkan tarikh pelancarannya. Kami akan mengekalkan syarikat ini kepada kata-katanya.

Rantaian penalaran

OpenAI o1 mengelak sesetengah celah penalaran yang biasanya memerangkap model AI generatif kerana ia boleh memeriksa fakta sendiri dengan menghabiskan lebih banyak masa mempertimbangkan semua bahagian soalan. Apa yang membuat o1 'merasa' qualitatif berbeza daripada model AI generatif lain adalah keupayaannya untuk 'berfikir' sebelum memberi jawapan kepada pertanyaan, menurut OpenAI.

Bila diberikan lebih banyak masa untuk 'berfikir', o1 boleh menyelesaikan tugas secara holistik - merancang dan melaksanakan siri tindakan selama tempoh masa yang panjang yang membantu model ini sampai pada jawapan. Ini menjadikan o1 sesuai untuk tugas-tugas yang memerlukan mensintesiskan hasil daripada beberapa sub-tugas, seperti mendeteksi e-mel privasi dalam peti masuk peguam atau brainstorming mengenai strategi pemasaran produk.

Dalam siri pos di X pada hari Khamis, Noam Brown, seorang saintis penyelidikan di OpenAI, berkata bahawa 'o1 dilatih dengan pembelajaran menguatkan'. Ini mengajar sistem tersebut 'berfikir' sebelum memberi jawapan melalui rantaian pemikiran peribadi' dengan ganjaran apabila o1 mendapat jawapan betul dan hukuman apabila tidak, katanya.

Brown menambah bahawa OpenAI menggunakan algoritma optimasi baru dan dataset latihan yang mengandungi 'data penalaran' dan kesusasteraan saintifik yang secara khusus diadaptasi untuk tugas-tugas penalaran. 'Semakin lama [o1] berfikir, semakin baik prestasinya,' katanya.

TechCrunch tidak ditawarkan peluang untuk menguji o1 sebelum pelancarannya; kami akan mendapatkan maklumat tentangnya secepat mungkin. Tetapi mengikut pandangan seseorang yang telah mendapat akses - Pablo Arredondo, VP di Thomson Reuters - o1 lebih baik daripada model-model terdahulu OpenAI (contohnya, GPT-4o) dalam menganalisis catatan undang-undang dan mengenal pasti penyelesaian kepada masalah dalam permainan logik LSAT.

'Kami melihatnya menangani analisis yang lebih bermakna, pelbagai, 'kata Arredondo kepada TechCrunch. 'Pengujian automatik kami juga menunjukkan keuntungan terhadap pelbagai tugas yang mudah.''

Dalam ujian kelayakan untuk Pertandingan Matematik Kebangsaan Antarabangsa (IMO), suatu pertandingan matematik sekolah menengah, o1 menyelesaikan 83% masalah betul manakala GPT-4o hanya menyelesaikan 13%, menurut OpenAI. (Itu tidak begitu mengagumkan apabila anda mengambil kira bahawa AI terbaru Google DeepMind mencapai pingat perak dalam pertandingan yang sebenarnya IMO.) OpenAI juga mengatakan bahawa o1 mencapai peratusan ke-89 dalam kalangan peserta - lebih baik daripada sistem unggulan DeepMind AlphaCode 2, untuk apa pun nilainya - dalam peringkat cabaran pengaturcaraan dalam talian yang dikenali sebagai Codeforces.

Secara keseluruhan, o1 sepatutnya berprestasi lebih baik dalam masalah analisis data, sains, dan pengaturcaraan, kata OpenAI. (GitHub, yang menguji o1 dengan pembantu pengaturan kod AI mereka GitHub Copilot, melaporkan bahawa model itu mahir dalam mengoptimumkan algoritma dan kod aplikasi.) Dan, setidaknya menurut penandaan semula OpenAI, o1 memperbaiki GPT-4o dalam kemahiran pelbagai bahasa, terutamanya dalam bahasa seperti Arab dan Korea.

Ethan Mollick, seorang profesor pengurusan di Wharton, menulis kesan beliau tentang o1 selepas menggunakannya selama sebulan dalam suatu pos di blog peribadinya. Pada teka-teki silang yang mencabar, o1 mencapai hasil yang baik, katanya - mendapatkan semua jawapan betul (walaupun mengalami halusinasi petanda petunjuk baru).

OpenAI o1 bukanlah sempurna

Kini, terdapat kelemahan.

OpenAI o1 boleh lebih lambat daripada model-model lain, bergantung kepada soalan. Arredondo berkata o1 boleh mengambil lebih dari 10 saat untuk menjawab beberapa soalan; ia memaparkan kemajuannya dengan menunjukkan label untuk sub-tugas semasa yang sedang dilaksanakan.

Memandangkan sifat yang tidak menentu model AI generatif, o1 kemungkinan mempunyai kelemahan dan had lain. Brown mengakui bahawa o1 kadang-kadang tersilap dalam permainan tic-tac-toe, sebagai contoh. Dan dalam suatu kertas teknikal, OpenAI mengatakan bahawa mereka mendengar maklum balas anekdotal dari juru uji bahawa o1 cenderung merancangkan halusinasi (iaitu, dengan yakin membuat cerita) lebih kerap daripada GPT-4o - dan lebih jarang mengaku apabila ia tidak mempunyai jawapan kepada suatu soalan.

'Kesilapan dan halusinasi masih berlaku [dengan o1],' tulis Mollick dalam posnya. 'Ia masih belum sempurna.''

Kami pasti akan belajar lebih lanjut tentang pelbagai isu ini seiring berjalan masa, dan setelah kami berpeluang untuk menguji keseluruhan o1.

Persaingan yang sengit

Kami akan lalai sekiranya kami tidak menyebut bahawa OpenAI jauh dari satu-satunya vendor AI yang menyiasat kaedah-kaedah penalaran ini untuk meningkatkan kefaktaan model.

Peneliti Google DeepMind baru-baru ini menerbitkan kajian yang menunjukkan bahawa dengan memberikan lebih banyak masa komputer dan panduan kepada model untuk menunaikan permintaan sebagaimana yang dibuat, prestasi model-model itu dapat diperbaiki secara ketara tanpa sebarang penyesuaian tambahan.

Melibatkan ketegasan persaingan, OpenAI mengatakan bahawa mereka memutuskan menentang memaparkan 'rantaian pemikiran' mentah o1 di ChatGPT sebahagiannya disebabkan oleh 'kelebihan persaingan.' (Sebagai gantinya, syarikat memilih untuk memaparkan 'rumusan yang dihasilkan model' daripada rantaian.)

OpenAI mungkin menjadi yang pertama dengan o1. Tetapi dengan andaian bahawa pesaing segera menyusul dengan model-model serupa, ujian sebenar syarikat tersebut akan menjadi menjadikan o1 tersedia secara meluas - dan dengan lebih murah.

Dari sana, kita akan melihat seberapa cepat OpenAI dapat membawa versi o1 yang diperbaharui. Syarikat berkata bahawa mereka bertujuan untuk melakukan eksperimen dengan model o1 yang berfikir selama jam, hari, atau malah minggu untuk meningkatkan lagi keupayaan penalarannya.