
Malah Pokémon juga tidak terlepas dari kontroversi penilaian AI.
Minggu lalu, satu kiriman di X menjadi viral, menyatakan bahawa model Gemini terkini Google telah melebihi model unggulan Claude dari Anthropic dalam trilogi permainan video Pokémon asal. Dilaporkan bahawa Gemini telah mencapai Lavender Town dalam stream Twitch seorang pembangun; Claude terjebak di Gunung Bulan pada akhir Februari.
Gemini sebenarnya mendahului Claude pada masa ini dalam permainan pokemon setelah mencapai Lavender Town
119 tontonan langsung saja btw, stream yang sangat tidak dihargai pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 10 April 2025
Tetapi apa yang kiriman tersebut gagal sebutkan ialah Gemini mempunyai kelebihan.
Seperti yang dijelaskan pengguna Reddit, pembangun yang menjaga stream Gemini membina peta mini kustom yang membantu model mengenali "tiles" dalam permainan seperti pokok yang boleh dipotong. Ini mengurangkan keperluan bagi Gemini untuk menganalisis tangkapan skrin sebelum membuat keputusan permainan.
Sekarang, Pokémon adalah penilaian AI yang agak serius di tempat terbaik - sedikit orang akan berhujah bahawa ia adalah ujian yang sangat informatif mengenai keupayaan model. Tetapi ia merupakan contoh yang memberi pengajaran bagaimana pelaksanaan penilaian yang berbeza boleh mempengaruhi keputusan.
Sebagai contoh, Anthropic melaporkan dua skor untuk model Anthropic 3.7 Sonnet terbarunya dalam penilaian SWE-bench Verified, yang direka untuk menilai keupayaan pengkodan model. Claude 3.7 Sonnet mencapai ketepatan 62.3% pada SWE-bench Verified, tetapi 70.3% dengan "scaffolding kustom" yang dibangunkan oleh Anthropic.
Baru-baru ini, Meta menyelaraskan semula versi salah satu model terbaru, Llama 4 Maverick, untuk berprestasi baik dalam penilaian tertentu, LM Arena. Versi vanilla model tersebut mendapat skor yang jauh lebih buruk dalam penilaian yang sama.
Mengingat bahawa penilaian AI - termasuk Pokémon - adalah ukuran yang tidak sempurna pada permulaan, pelaksanaan kustom dan tidak standard mengancam untuk menjernihkan air lagi. Dengan kata lain, tidak kelihatan mudah untuk membandingkan model ketika mereka dilancarkan.