Nella sfida all’intelligenza artificiale c’è un nuovo protagonista. Si chiama Gemini ed è un modello di linguaggio che Google ha presentato a inizio dicembre, risultato del lavoro corale dei più importanti centri di ricerca all’interno dell’ecosistema Alphabet. Un nuovo cervello per l’intelligenza artificiale, dunque, che promette di essere migliore e battere quello della rivale Open AI, Gpt-4. Come? Sono due in particolare le caratteristiche che rendono Gemini interessante e innovativo. Innanzitutto, è stato costruito per essere “multimodale”, ovvero in grado di operare attraverso informazioni che vengono recepite da diverse tipologie di fonti: testi, audio, immagini, video, codice. Che sia un testo, che sia una voce, che sia una composizione di Pixel, Gemini dovrebbe essere in grado di comprendere e di darci una risposta coerente. La seconda caratteristica è la sua flessibilità: può adattarsi alla macchina e dunque ottimizzare le funzioni che gli vengono richieste.
Gemini prenderà il posto di PaLM2, il modello di linguaggio che attualmente sta alla base degli strumenti di intelligenza artificiale di Google. Non solo il chatbot Bard, ma anche funzionalità di Gmail o quelle integrate negli smartphone Pixel. Verrà distribuito in tre versioni: Ultra, con maggiori capacità e per compiti complessi; Pro, scalabile e in grado di diversificare le sue mansioni; Nano, per operazioni on-device e personalizzati sull’utente. In particolare, Bard sarà aggiornato l’anno prossimo con una nuova versione, Bard Advance, che si baserà sul modello più complesso, l’Ultra.
Google ha voluto anche dare una dimostrazione delle potenzialità di Gemini, pubblicando un video (lo potete vedere qui) che lo mostra in funzione. Una dimostrazione che si è rilevata un boomerang: era impressionante vedere un sistema di intelligenza artificiale identificare e comprendere un gioco dal movimento delle nostre mani o dare informazioni sulle papere di colore blu partendo da una semplice paperella di plastica. Forse un po’ troppo impressionante: e infatti il video si è rivelato più che altro una simulazione delle potenzialità – a tendere – di questo modello di linguaggio. Un passo falso che ha ammaccato il lancio di una tecnologia che, in ogni caso, è fondamentale tenere d’occhio nelle sue prossime evoluzioni.