
Kebanyakan fokus dalam AI generatif telah difokuskan pada antarmuka berbasis teks yang digunakan untuk menghasilkan teks, gambar, dan lainnya. Gelombang berikutnya nampaknya akan menjadi suara, dan itu datang dengan cepat. Dalam perkembangan terbaru, Google hari ini mengumumkan bahwa mereka akan menambahkan Chirp 3 - model speech-to-text dan HD text-to-speech mereka - ke platform pengembangan AI Vertex mereka mulai minggu depan.
Minggu lalu, Google diam-diam mengumumkan bahwa Chirp 3 akan meluncurkan 8 suara baru untuk 31 bahasa. Kasus penggunaan untuk platform ini termasuk membangun asisten suara, membuat buku audio, mengembangkan agen dukungan, dan pembuat suara untuk video. Berita ini diumumkan dalam acara di kantor DeepMind Google di London.
Upaya mereka dilakukan pada saat yang bersamaan dengan orang lain yang juga melompat maju dengan pekerjaan AI suara mereka. Minggu lalu, Sesame - startup di balik aplikasi AI "Maya" dan "Miles" yang viral dan sangat realistis - mengumumkan peluncuran model mereka bagi pengembang untuk membangun aplikasi dan layanan yang disesuaikan di atas teknologi mereka.
Terutama, akan ada pembatasan penggunaan seputar Chirp 3 untuk mencoba menjaga kendali atas penyalahgunaan. "Kami sedang bekerja melalui beberapa hal ini dengan tim keamanan kami," ujar Thomas Kurian, CEO Google Cloud, dalam acara berita hari ini.
ElevenLabs adalah salah satu startup besar yang telah mengumpulkan ratusan juta dalam pendanaan untuk memperluas pekerjaan mereka dalam layanan suara AI.
Berita ini akan membawa Chirp 3 ke dalam keluarga yang sama dengan versi terbaru dari produk unggulannya LLM, Gemini, yang sedang diuji coba, serta model generasi gambar Imagen dan alat generasi video berharga Veo 2 mereka.
Masih harus dikonfirmasi apakah apa yang Google rilis dengan Chirp 3 akan se-"realistis" beberapa upaya AI lain untuk menciptakan suara "manusia" (pekerjaan Sesame menonjol secara khusus). Namun, seperti yang ditekankan oleh Demis Hassabis, CEO DeepMind, ini tetap menjadi sebuah maraton, bukan lari cepat.
“Dalam jangka pendek ... gagasan ini bahwa [AI] merupakan solusi mujarab untuk segalanya dalam beberapa tahun ke depan, saya tidak melihat ini terjadi segera. Saya pikir kita masih beberapa tahun jauhnya dari sesuatu seperti AGI terjadi,” ujarnya. “Ini akan mengubah segalanya ... dalam satu dekade ke depan, jadi pada jangka menengah hingga panjang. Ini salah satu momen menarik dalam sejarah.”
Google meluncurkan Vertex AI jauh pada tahun 2021 sebagai platform bagi pengembang untuk membangun layanan pembelajaran mesin di cloud. Tentu saja, itu jauh sebelum lonjakan minat dalam AI, dan khususnya AI generatif, yang datang dengan peluncuran layanan GPT OpenAI.
Sejak saat itu, perusahaan telah semakin mendukung Vertex AI, sebagian karena mereka mengejar perusahaan lain seperti Microsoft dan Amazon - mereka juga membangun perangkat AI generatif untuk pengembang. Selain membangun AI generatif di atas Gemini, pengembang dapat menggunakan Vertex AI untuk mengklasifikasikan data, melatih model, dan menyiapkan model untuk produksi. Akan menarik melihat apakah mereka akan memperluas taman tembok mereka ke model di luar yang dibuat oleh Google sendiri.
Google telah membangun layanan suara "Chirp" selama bertahun-tahun, mulai dari menggunakan nama sebagai kode untuk upaya awal mereka untuk bersaing dengan layanan Alexa Amazon.