Poco dopo l’annuncio ufficiale di Gemini, il nuovo Large Language Model (LLM) di Google, che il gigante tecnologico afferma possa superare tutti gli altri sistemi AI, sono emersi ulteriori dettagli su Gemini Pro, la versione per sviluppatori, e sugli strumenti che gli sviluppatori avranno a disposizione per integrare l’IA generativa nelle loro applicazioni.
Google ha presentato Gemini il 6 dicembre 2023, offrendolo in tre dimensioni: Ultra, la più potente ma attualmente limitata nell’uso commerciale diffuso; Pro e Nano, quest’ultimo progettato per l’implementazione su dispositivi mobili.
Negli ultimi anni, Google ha affrontato sfide nel rispondere all’entusiasmo intorno a OpenAI, GPT e alle potenziali minacce che i servizi basati sull’IA potevano rappresentare per il suo core business. Gemini mira a gestire vaste quantità di informazioni provenienti da Internet, consentendo agli utenti di ottenere risposte con una sola domanda su una singola pagina web, rendendo il processo più efficiente rispetto a una tradizionale ricerca su Google.
La recente presentazione di Gemini Pro, integrato nel chatbot Bard, segna un passo significativo avanti. Gli utenti con un Pixel 8 Pro possono già utilizzare Gemini Nano per generare risposte di testo suggerite dall’IA su WhatsApp e presto su Gboard, la tastiera virtuale di Google.
Mentre la versione in Bard è ridotta, rappresenta un miglioramento notevole rispetto all’originale Bard, limitato all’input testuale. È importante notare che Gemini è attualmente disponibile solo in inglese, con piani per introdurre il supporto per altre lingue in un prossimo futuro. Come le precedenti versioni dell’IA generativa di Google, Gemini Pro non è ancora disponibile nell’Unione Europea.
Prima di approfondire Gemini Pro, è cruciale riconoscere la mancanza di trasparenza da parte di Google durante la presentazione di Gemini. Il video promozionale è stato montato per far apparire l’IA più potente di quanto sia in realtà, suscitando un certo scetticismo. L’attenzione era incentrata sugli strumenti che Google fornisce agli sviluppatori piuttosto che sulla presentazione del potenziale della tecnologia.
Qui di seguito tutti i filmati rilasciati da google sul loro canale youtube riguardo a Gemini (compresa la presentazione incriminata)
Versioni Disponibili (Ultra, Pro e Nano)
Come abbiamo anticipato le tre versioni disponibili sono ultra, pro e nano.
La principale differenza risiede nella dimensione del modello di apprendimento automatico. Gemini Ultra vanta 1,6 trilioni di parametri, rendendolo il più grande, seguito da Gemini Pro con 100 miliardi di parametri e Gemini Nano con 10 miliardi di parametri. Una dimensione del modello più grande consente a Ultra di apprendere più informazioni e generare risultati più accurati e creativi, ma comporta costi e requisiti di risorse più elevati.
Gemini Pro, la versione integrata in Bard, offre una finestra di testo da 32K, con future versioni previste per fornire finestre ancora più ampie. Nonostante si trovi nelle fasi iniziali, Gemini Pro è accessibile gratuitamente, sebbene con alcune limitazioni. Google accenna all’arrivo di Gemini Ultra nel 2024, inizialmente all’interno di un chatbot aggiornato chiamato Bard Advanced, potenzialmente coinvolgendo un modello a abbonamento.

AI Studio, Vertex AI e Imagen 2
Ora, spostiamo la nostra attenzione sugli strumenti disponibili per Gemini Pro, iniziando con AI Studio. Si tratta di un’applicazione accessibile via web che consente agli sviluppatori di creare applicazioni accedendo alle API di Gemini Pro. Attualmente gratuita, offre 60 richieste al minuto, 20 volte in più rispetto ad altre offerte di mercato.
Una volta creati prompt utili, il codice può essere esportato su Vertex AI, offrendo maggiore controllo sui dati e promettendo un aumento della privacy dei dati. Google sottolinea che i dati del cliente non saranno utilizzati per addestrare ulteriormente il modello, ma rimarranno privati e limitati all’account rispettivo.
AI Studio di Google facilita lo sviluppo di applicazioni consentendo la creazione di prompt in tempo reale e la generazione di chiavi API. Gli sviluppatori possono quindi esportare il codice risultante, disponibile in diversi linguaggi di programmazione, su Vertex AI o su qualsiasi altro ambiente di sviluppo.
Per quanto riguarda Imagen 2, l’ultimo generatore di immagini basato su prompt, sfrutta la tecnologia di DeepMind per produrre immagini di alta qualità e fotorealistiche. Imagen 2 introduce la capacità di generare loghi e testo, potenziando le applicazioni pratiche. Attualmente accessibile a un gruppo limitato di sviluppatori, sarà presto aperto a tutti, supportando sette lingue.
Gemini Pro Vision, con il suo endpoint multimodale, elabora sia testo che immagini, fornendo output basato su testo. Gli SDK per vari linguaggi di programmazione, tra cui Python, Android (Kotlin), Node.js, Swift e JavaScript, semplificano lo sviluppo delle applicazioni, consentendo applicazioni versatili e adattabili.
In conclusione
Il percorso di Gemini Pro continua con strumenti come Google AI Studio e Vertex AI, offrendo agli sviluppatori la flessibilità di sperimentare e creare applicazioni basate su IA generativa. Imagen 2 completa questo ecosistema con funzionalità migliorate, rendendolo una scelta interessante per gli sviluppatori che cercano un ambiente di sviluppo IA user-friendly ed economico.
Il futuro di Gemini sembra promettente, con l’introduzione prevista di Gemini Ultra nel 2024 e ulteriori miglioramenti alle capacità generative. Tuttavia, l’attenzione sulla trasparenza durante la presentazione e l’apertura a lingue aggiuntive rimangono aspetti critici per il successo continuo di Gemini nel mercato internazionale.
Mentre la comunità di sviluppatori esplora le potenzialità offerte da Gemini Pro e i suoi strumenti associati, resta da vedere come Google affronterà le sfide e risponderà ai feedback degli utenti. La competizione con altre tecnologie di intelligenza artificiale, in particolare quelle proposte da OpenAI, contribuirà a plasmare il futuro di Gemini nel panorama dell’IA.