In Breve (TL;DR)
- FastVLM è un modello AI sviluppato da Apple per il video-captioning in tempo reale, capace di descrivere ciò che la fotocamera inquadra con una velocità 85 volte superiore rispetto ad altri sistemi, ed è pensato per future integrazioni su smartglass.
- È compatibile solo con dispositivi dotati di chip Apple Silicon, funziona offline per garantire la privacy degli utenti e si può testare tramite Hugging Face anche in versione leggera (FastVLM-0.5 B).
Nonostante l’elevata competitività e uno sforzo che talvolta non sembra portare ai risultati sperati, Apple continua ad investire nell’intelligenza artificiale e a lavorare in soluzioni che mirano ad offrire un supporto concreto ed efficiente agli utenti. Mancano pochi giorni al rilascio degli iPhone 17, ma mentre il mondo è in attesa di conoscere i nuovi dispositivi e le loro funzionalità, l’azienda continua a perfezionare la sua offerta. Nel dettaglio, nelle scorse ore ha reso disponibile FastVLM per gli utenti, seppur con dei limiti legati alla compatibilità con i device.
Si tratta di un modello di intelligenza artificiale nato in casa Apple, annunciato già negli scorsi mesi. Nel dettaglio, è un sistema per il video-captioning ultrarapido, che mira ad offrire nuove funzionalità agli utenti che vogliono realizzare i video o interagire con la fotocamera.
Scopriamo come funziona, la compatibilità con i dispositivi Apple, chi può utilizzarlo e come.
Cos’è e come funziona FastVLM
FastVLM è un modello AI sviluppato da Apple per il video-captioning ultra rapido. Un modello dalle grandi capacità, che è in grado di descrivere, e quindi generare sottotitoli, in tempo reale. Più precisamente, riesce a descrivere ciò che vede nel momento stesso in cui lo vede attraverso l’inquadratura della fotocamera dei dispositivi.
L’elaborazione dei sottotitoli o, meglio, della descrizione, è quasi istantanea e al momento risulta essere una delle tecnologie più efficienti per la trascrizione dei video: è ben 85 volte più veloce rispetto alle soluzioni della concorrenza ed estremamente leggero.
D’altronde, Apple lavora a questo modello da tempo, a partire dal 2023. Una tecnologia che sembra essere nata appositamente per essere integrata su degli smartglass. Quelli del colosso di Cupertino sembrerebbero essere in arrivo nel 2027.
Ma come funziona, precisamente, FastVLM? Il modello descrive ciò che la fotocamera del dispositivo inquadra, purché l’immagine sia ben messa a fuoco. Attualmente è in grado di rispondere solo a dei prompt molto semplici e pre-impostati, ma in futuro si potrebbero avere ulteriori sviluppi. Si potrebbe chiedere all’AI, ad esempio, di descrivere la scena inquadrata o di individuare il nome dell’oggetto mostrato.
Chi può utilizzare FastVLM e come viene gestita la sicurezza
FastVLM, dopo un necessario periodo di test, è stato reso disponibile per tutti gli utenti. Restano, tuttavia, dei limiti di compatibilità. È, infatti, sviluppato principalmente per chip Apple Silicon, presente solo su alcuni dispositivi dell’azienda. Si può accedere al nuovo modello attraverso Hugging Face ed è presente anche una versione più leggera, FastVLM-0.5 B.
Il modello funziona anche offline, poiché non invia dati al cloud. Per questioni di sicurezza e di tutela della privacy, infatti, FastVLM elabora tutto localmente sul browser.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi
Domande frequenti (FAQ)
-
Cos’è e come funziona FastVLM?FastVLM è un modello AI sviluppato da Apple per il video-captioning ultra rapido, in grado di descrivere ciò che vede in tempo reale attraverso l’inquadratura della fotocamera dei dispositivi.
-
Chi può utilizzare FastVLM e come viene gestita la sicurezza?Dopo un periodo di test, FastVLM è stato reso disponibile per tutti gli utenti, ma presenta limiti di compatibilità con chip Apple Silicon. Funziona offline per garantire sicurezza e privacy, elaborando tutto localmente sul browser.
-
Come funziona FastVLM nel dettaglio?Il modello descrive ciò che la fotocamera inquadra, richiedendo un'immagine ben messa a fuoco. Attualmente risponde a prompt semplici, ma potrebbe evolversi per descrivere scene o individuare oggetti.