OpenAI ha lanciato GPT-4o, una nuova versione del modello di intelligenza artificiale, gratuita per tutti gli utenti di ChatGPT. Questo nuovo modello rappresenta un avanzamento significativo rispetto a GPT-4 Turbo, che era il modello di punta fino ad ora. GPT-4o introduce la possibilità per gli utenti gratuiti di interagire con il chatbot utilizzando non solo il testo, ma anche immagini e audio. Inoltre, è ora possibile caricare video e richiedere informazioni sui loro contenuti.
Velocità e Efficienza:
GPT-4o è stato descritto come molto più rapido rispetto ai suoi predecessori, con tempi di risposta ai comandi audio che variano tra 232 e 320 millisecondi, rendendolo quasi comparabile ai tempi di reazione umani.
Multimodalità:
La caratteristica distintiva di GPT-4o, indicata dalla “o” che sta per “omni”, è la sua capacità multimodale. Questo permette al modello di accettare e generare output in vari formati, tra cui testo, audio e immagini. Questa versatilità rende l’interazione uomo-macchina più naturale e fluida.
Interazione Naturale:
Una delle innovazioni chiave è la capacità di interrompere e porre domande aggiuntive durante la generazione delle risposte, permettendo conversazioni più dinamiche e simili a quelle umane.
Riconoscimento Emotivo:
GPT-4o può anche riconoscere le emozioni nella voce dell’utente, adattando il tono delle risposte in modo appropriato.
Accessibilità:
GPT-4o è disponibile gratuitamente per tutti gli utenti di ChatGPT, un cambiamento significativo rispetto alla precedente politica di accesso limitato ai soli abbonati Plus. Tuttavia, gli utenti Plus mantengono privilegi come un limite superiore di richieste al chatbot.
Analisi Video:
Per la prima volta, gli utenti possono caricare video su ChatGPT e ottenere descrizioni e riassunti del contenuto video. Questa funzionalità viene implementata attraverso l’estrazione di fotogrammi dal video per l’analisi.
Miglioramento delle Capacità Visive:
Mira Murati, CTO di OpenAI, ha evidenziato i progressi nelle capacità visive del modello, come la traduzione immediata di menu fotografati in lingue straniere. Future implementazioni potrebbero includere la capacità di osservare eventi sportivi in diretta e spiegare le regole del gioco.
Caratteristica | GPT-4 Turbo | GPT-4o |
---|---|---|
Velocità di Risposta | Più lento | 232-320 ms (input audio) |
Modalità di Input/Output | Testo, immagini (limitato) | Testo, immagini, audio, video |
Multimodalità | Parziale | Completa |
Accessibilità | Abbonati Plus | Tutti gli utenti |
Interruzione della Risposta | Non disponibile | Disponibile |
Riconoscimento Emotivo | Non disponibile | Disponibile |
Costo API | Superiore | Inferiore del 50% |
GPT-4o introduce miglioramenti sostanziali in termini di velocità, multimodalità e accessibilità rispetto a GPT-4 Turbo. Le innovazioni tecniche permettono una maggiore naturalezza nell’interazione e una più ampia gamma di utilizzi, rendendo GPT-4o un modello di riferimento per le intelligenze artificiali multimodali.
Con il lancio di GPT-4o, OpenAI apre nuove opportunità non solo per gli utenti comuni ma anche per gli sviluppatori. Il costo inferiore delle API e la maggiore accessibilità rendono GPT-4o una piattaforma interessante per lo sviluppo di nuove applicazioni e servizi innovativi.
Il CEO di OpenAI, Sam Altman, ha ribadito l’impegno dell’azienda nel fornire strumenti potenti e accessibili che possano essere utilizzati per creare applicazioni benefiche per l’umanità. La visione dell’azienda si evolve verso lo sviluppo di API a pagamento che possano essere integrate in soluzioni avanzate da terze parti.
GPT-4o rappresenta un passo avanti significativo verso una interazione uomo-computer più fluida e naturale, ampliando le possibilità di utilizzo delle intelligenze artificiali nella vita quotidiana e negli ambiti professionali.