login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

FastVLM è la nuova AI di Apple per la descrizione dei video in tempo reale

Ascolta l'articolo

Apple ha rilasciato FastVLM, un modello AI sviluppato nei mesi scorsi e ora disponibile seppur con dei limiti, pensato per il video-captioning ultrarapido

Apple Anton_Ivanov / Shutterstock.com

In Breve (TL;DR)

  • FastVLM è un modello AI sviluppato da Apple per il video-captioning in tempo reale, capace di descrivere ciò che la fotocamera inquadra con una velocità 85 volte superiore rispetto ad altri sistemi, ed è pensato per future integrazioni su smartglass.
  • È compatibile solo con dispositivi dotati di chip Apple Silicon, funziona offline per garantire la privacy degli utenti e si può testare tramite Hugging Face anche in versione leggera (FastVLM-0.5 B).

Nonostante l’elevata competitività e uno sforzo che talvolta non sembra portare ai risultati sperati, Apple continua ad investire nell’intelligenza artificiale e a lavorare in soluzioni che mirano ad offrire un supporto concreto ed efficiente agli utenti. Mancano pochi giorni al rilascio degli iPhone 17, ma mentre il mondo è in attesa di conoscere i nuovi dispositivi e le loro funzionalità, l’azienda continua a perfezionare la sua offerta. Nel dettaglio, nelle scorse ore ha reso disponibile FastVLM per gli utenti, seppur con dei limiti legati alla compatibilità con i device.

Si tratta di un modello di intelligenza artificiale nato in casa Apple, annunciato già negli scorsi mesi. Nel dettaglio, è un sistema per il video-captioning ultrarapido, che mira ad offrire nuove funzionalità agli utenti che vogliono realizzare i video o interagire con la fotocamera.

Scopriamo come funziona, la compatibilità con i dispositivi Apple, chi può utilizzarlo e come.

Cos’è e come funziona FastVLM

FastVLM è un modello AI sviluppato da Apple per il video-captioning ultra rapido. Un modello dalle grandi capacità, che è in grado di descrivere, e quindi generare sottotitoli, in tempo reale. Più precisamente, riesce a descrivere ciò che vede nel momento stesso in cui lo vede attraverso l’inquadratura della fotocamera dei dispositivi.

L’elaborazione dei sottotitoli o, meglio, della descrizione, è quasi istantanea e al momento risulta essere una delle tecnologie più efficienti per la trascrizione dei video: è ben 85 volte più veloce rispetto alle soluzioni della concorrenza ed estremamente leggero.

D’altronde, Apple lavora a questo modello da tempo, a partire dal 2023. Una tecnologia che sembra essere nata appositamente per essere integrata su degli smartglass. Quelli del colosso di Cupertino sembrerebbero essere in arrivo nel 2027.

Ma come funziona, precisamente, FastVLM? Il modello descrive ciò che la fotocamera del dispositivo inquadra, purché l’immagine sia ben messa a fuoco. Attualmente è in grado di rispondere solo a dei prompt molto semplici e pre-impostati, ma in futuro si potrebbero avere ulteriori sviluppi. Si potrebbe chiedere all’AI, ad esempio, di descrivere la scena inquadrata o di individuare il nome dell’oggetto mostrato.

Chi può utilizzare FastVLM e come viene gestita la sicurezza

FastVLM, dopo un necessario periodo di test, è stato reso disponibile per tutti gli utenti. Restano, tuttavia, dei limiti di compatibilità. È, infatti, sviluppato principalmente per chip Apple Silicon, presente solo su alcuni dispositivi dell’azienda. Si può accedere al nuovo modello attraverso Hugging Face ed è presente anche una versione più leggera, FastVLM-0.5 B.

Il modello funziona anche offline, poiché non invia dati al cloud. Per questioni di sicurezza e di tutela della privacy, infatti, FastVLM elabora tutto localmente sul browser.

Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi

Domande frequenti (FAQ)

  • Cos’è e come funziona FastVLM?
    FastVLM è un modello AI sviluppato da Apple per il video-captioning ultra rapido, in grado di descrivere ciò che vede in tempo reale attraverso l’inquadratura della fotocamera dei dispositivi.
  • Chi può utilizzare FastVLM e come viene gestita la sicurezza?
    Dopo un periodo di test, FastVLM è stato reso disponibile per tutti gli utenti, ma presenta limiti di compatibilità con chip Apple Silicon. Funziona offline per garantire sicurezza e privacy, elaborando tutto localmente sul browser.
  • Come funziona FastVLM nel dettaglio?
    Il modello descrive ciò che la fotocamera inquadra, richiedendo un'immagine ben messa a fuoco. Attualmente risponde a prompt semplici, ma potrebbe evolversi per descrivere scene o individuare oggetti.
A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Fda
L'IA nel mondo del lavoro
Intelligenza artificiale e lavoro
L'IA nel mondo del lavoro
Fda gratis svg
Impatti, sfide e opportunità
Iscriviti al corso gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.