Ai2 mengatakan model AI baru mereka mengalahkan salah satu yang terbaik DeepSeek

Berita Biru

Wednesday, April 16 2025

Pindah, DeepSeek. Ada juara AI baru di kota - dan mereka adalah dari Amerika.

Pada hari Kamis, Ai2, sebuah institut riset AI nirlaba yang berbasis di Seattle, merilis model yang diklaimnya lebih unggul dari DeepSeek V3, salah satu sistem terkemuka perusahaan AI China DeepSeek.

Model Ai2, yang disebut Tulu3-405B, juga mengalahkan OpenAI's GPT-4o pada beberapa pengujian AI, menurut pengujian internal Ai2. Selain itu, berbeda dengan GPT-4o (dan bahkan DeepSeek V3), Tulu3-405B adalah sumber terbuka, yang berarti semua komponen yang diperlukan untuk menggandakannya dari awal tersedia secara gratis dan dilisensikan secara loyal.

Juru bicara Ai2 mengatakan kepada TechCrunch bahwa laboratorium tersebut percaya bahwa Tulu3-405B 'menggarisbawahi potensi Amerika untuk memimpin pengembangan global model AI generatif kelas terbaik'.

'Momen ini adalah momen kunci untuk masa depan AI terbuka, memperkuat posisi Amerika Serikat sebagai pemimpin dalam model sumber terbuka yang kompetitif,' kata juru bicara itu. 'Dengan peluncuran ini, Ai2 memperkenalkan alternatif yang kuat dan dikembangkan di AS untuk model-model DeepSeek - menandai momen penting bukan hanya dalam pengembangan AI, tetapi juga dalam memamerkan bahwa AS dapat memimpin dengan AI sumber terbuka yang kompetitif secara independen dari raksasa teknologi.'

Tulu3-405B adalah model yang cukup besar. Berisi 405 miliar parameter, diperlukan 256 GPU yang berjalan paralel untuk melatihnya, menurut Ai2. Parameter secara kasar sesuai dengan keterampilan pemecahan masalah model, dan model dengan lebih banyak parameter umumnya tampil lebih baik daripada yang memiliki parameter lebih sedikit.

Ai2 menguji Tulu3-405B pada benchmark populer.Kredit Foto: Ai2

Menurut Ai2, salah satu kunci untuk mencapai kinerja yang kompetitif dengan Tulu3-405B adalah teknik yang disebut reinforcement learning with verifiable rewards. Reinforcement learning dengan hadiah yang dapat diverifikasi, atau RLVR, melatih model pada tugas dengan hasil 'diverifikasi', seperti pemecahan masalah matematika dan mengikuti instruksi.

Ai2 mengklaim bahwa dalam benchmark PopQA, serangkaian 14.000 pertanyaan pengetahuan khusus yang berasal dari Wikipedia, Tulu3-405B tidak hanya mengalahkan DeepSeek V3 dan GPT-4o, tetapi juga model Meta's Llama 3.1 405B. Tulu3-405B juga memiliki kinerja tertinggi dari model mana pun di kelasnya pada GSM8K, uji yang berisi soal matematika kata tingkat sekolah dasar.

Tulu3-405B tersedia untuk diuji melalui aplikasi web chat Ai2, dan kode untuk melatih model ada di GitHub dan platform pengembangan AI Hugging Face. Dapatkan jika masih ada kesempatan - sebelum model AI unggulan berikutnya yang memecahkan rekor datang.

Berita Biru

Ai2 mengatakan model AI baru mereka mengalahkan salah satu yang terbaik DeepSeek

Recent Posts

Peneroka AI Fei-Fei Li memperingatkan pembuat dasar agar tidak membiarkan sensasionalisme fiksi sains membentuk peraturan AI

Euro 2024: Romania dan Slovakia bertemu dalam Kumpulan E yang seimbang di mana seri akan menguntungkan kedua-dua pasukan

Pasar saham hari ini: Kebanyakan Wall Street meroket dalam pergerakan meluas, dari saham besar hingga kecil

Severino beraksi selama 8 inning yang kuat untuk kemenangan pertamanya sejak menandatangani kontrak besar dan A's mengalahkan Brewers 3-1

Kumpulan keselamatan kereta Tidak Berawal NHTSA dilaporkan 'terjejas secara tidak seimbang' oleh pemotongan DOGE