In Breve (TL;DR)
- Un nuovo studio su large language model ha rivelato approfondimenti sul funzionamento dei LLM da parte di Anthropic, sviluppatori di Claude.AI.
- È importante capire come ragionano i large language model per utilizzarli in modo efficace e potenzialmente ampliare la conoscenza sui processi cerebrali umani.
- Il team di Anthropic ha esaminato la capacità multilingue, di scrittura in rima e di calcolo di Claude.AI, rivelando una pianificazione anticipata e percorsi computazionali paralleli nel funzionamento del large language model.
Un nuovo studio sui large language model ha portato un team di Anthropic, gli sviluppatori di Claude.AI, a svelare alcuni misteri relativi al loro funzionamento più profondo.
I ricercatori hanno approfondito la capacità dei LLM di comprendere diverse lingue, di pianificare e poi realizzare testi scritti, di eseguire calcoli e, più in generale, di sviluppare ragionamenti complessi.
Storicamente il mondo dell’intelligenza artificiale ha tratto ispirazione e beneficio da quello delle neuroscienze. Gli esperimenti di Anthropic sembrano dimostrare che oggi anche le neuroscienze possono guardare all’AI per provare a ampliare la loro comprensione dell’essere umano.
Perché è importante capire come ragionano i large language model
Shutterstock
Il funzionamento basilare di un large language model o, più in generale, di un sistema basato su deep learning, è ormai noto: si tratta di modelli addestrati su corpus di testi vastissimi, che utilizzano il calcolo probabilistico per comprendere input e generare output realizzati con il linguaggio naturale.
Ma ci sono tantissime domande ancora in attesa di risposta: ad esempio, è possibile individuare una lingua “principe” in cui l’LLM ragiona, a prescindere dagli input e gli output del singolo caso?
E, ancora, quanto è profonda l’attività di previsione nel momento in cui viene generata una risposta? Ovvero: i large language models scrivono effettivamente una parola, o una combinazione di token, alla volta? Oppure sono in grado di pianificare in anticipo intere argomentazioni?
Queste domande traggono ispirazione dal campo delle neuroscienze e permettono di indagare in maniera più profonda l’effettivo funzionamento dei principali tool di intelligenza artificiale generativa attualmente sul mercato.
Comprendere meglio come “ragionano” i vari ChatGPT, Copilot, Gemini e Claude ci aiuterebbe a utilizzarli in maniera sempre più efficace, ma non solo. Secondo diversi esperti di neuroscienze, studiare e capire meglio l’AI, le reti neurali e il machine learning potrebbe addirittura portarci ad ampliare il livello di conoscenza che abbiamo rispetto al cervello umano e i suoi processi.
Come funzionano la comprensione del testo, la scrittura e il calcolo in un large language model
Shutterstock
Il team di Anthropic ha condiviso una serie di informazioni molto interessanti sul loro tool Claude.AI: una specie di tour all’interno del funzionamento profondo del suo large language model, frutto di centinaia di interazioni molto mirate.
Primo tema indagato è legato alla capacità dell’LLM di capire ed esprimersi in diverse lingue. Obiettivo dichiarato: capire se Claude ragiona a compartimenti stagni, una lingua alla volta, o se invece è un tool effettivamente multilingue.
Anthropic ha deciso di fare domande di grammatica e sintassi al chatbot in diverse lingue, come ad esempio: “qual è il contrario di piccolo”. In questo modo il team è arrivato a ipotizzare che Claude sarebbe dotato di una specie di spazio astratto universale e condiviso.
Un luogo virtuale in cui l’LLM elabora significati a prescindere dalla lingua, o meglio, prima ancora che questi significati vengano poi espressi in una lingua specifica.
Il team di Anthropic ha indagato anche la capacitàdi scrittura di Claude, soffermandosi su quella in rima, per cercare di capire quanto e come un large language model sia in grado di portare avanti l’attività di previsione.
Il team sviluppatore di Claude ha analizzato in che modo il tool AI si relaziona alle lingue, il modo in cui scrive in rima e il modo in cui esegue addizioni.
Più precisamente hanno chiesto a Claude di scrivere un breve testo di due righe in rima baciata. L’ipotesi era che il chatbot avrebbe iniziato a scrivere del testo, occupandosi soltanto in prossimità dell’ultima parola dell’ultima riga di far combaciare le sillabe finali, generando la rima baciata richiesta.
Diversi test hanno però portato i ricercatori a pensare che Claude pianifichi con largo anticipo la creazione di questo genere di contenuti. Più precisamente che inizi a valutare opzioni per la chiusura della rima, addirittura prima di iniziare a scrivere la seconda riga di testo.
Un terzo esperimento ha riguardato invece il calcolo: un’attività a cui Claude arriva sempre partendo dal testo, non essendo dotato di algoritmi strettamente matematici.
La possibilità che un LLM sia addestrato con grandissime quantità di tabelle e calcoli non va esclusa aprioristicamente. Così come è idealmente possibile che il tool impari gli schemi e gli algoritmi che impara anche l’essere umano: ad esempio quelli che regolano le addizioni o le sottrazioni.
L’impressione invece è che il chatbot utilizzi diversi percorsi computazionali paralleli: si comincia con un’approssimazione del risultato, che poi viene determinato successivamente.
Perché le spiegazioni di un large language model non sono sempre corrette e fedeli
Shutterstock
Di fronte a domande che richiedono un ragionamento particolarmente approfondito, capita che i tool di AI generativa forniscano risposte senza preoccuparsi del fatto che siano corrette, o attinenti alla domanda.
Da qui l’idea del team di Anthropic di indagare la catena di ragionamenti complessi di Claude, chiedendo al chatbot di esplicitare puntualmente tutti i passaggi che lo portavano a fornire un determinato output a partire da un determinato input.
In questo modo sono stati identificati alcuni passaggi intermedi necessari per rispondere a domande apparentemente banali quali: “Qual è il capoluogo della regione in cui si trova Sorrento?”.
Parallelamente sono state studiate allucinazioni e jailbreak. Le prime sembrano essere una conseguenza naturale dell’addestramento dei LLM, a patto che non siano stati istruiti in maniera specifica per evitare di lanciarsi in ipotesi azzardate.
I secondi sono invece delle tecniche che vengono sfruttate da utenti esperti per aggirare eventuali limitazioni di un large language model: ad esempio portandolo a parlare di argomenti su cui non si dovrebbe esporre.
In questo senso un punto debole analizzato di Claude è la sua predisposizione a mantenere la coerenza grammaticale e la continuità semantica. Anche nel caso in cui questa coerenza lo porta in territori tecnicamente proibiti, come ad esempio la condivisione di informazioni per fabbricare armi.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi
Domande frequenti (FAQ)
-
Come funzionano la comprensione del testo, la scrittura e il calcolo in un large language model?I large language model utilizzano modelli addestrati su vasti corpus di testi per comprendere input e generare output con linguaggio naturale, eseguendo calcoli probabilistici.
-
Perché è importante capire come ragionano i large language model?Comprendere il funzionamento dei large language model permette di utilizzarli in modo più efficace e potenzialmente ampliare la conoscenza sul funzionamento del cervello umano.
-
Perché le spiegazioni di un large language model non sono sempre corrette e fedeli?I large language model possono fornire risposte non corrette o attinenti a causa di limitazioni nel ragionamento complesso e nella coerenza semantica.
-
È possibile individuare una lingua 'principe' in cui l'LLM ragiona?Le ricerche suggeriscono che i large language model possano ragionare in uno spazio astratto universale condiviso, indipendentemente dalla lingua specifica.