login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Cosa sono i big data, come funzionano e come possono essere utilizzati

Ascolta l'articolo

Comprendere il significato dei big data permette di scoprire di più sui lavori del futuro degli analytics e comprendere alcuni rischi potenziali per la privacy

Big Data everything possible/Shutterstock

Il significato delle parole “big data” non è univoco: si tratta infatti di grandi o grandissime quantità di dati, che necessitano di tecnologie ad hoc per essere interpretati. 

Le operazioni di big data management e big data analytics servono fondamentalmente a trasformare il dato in valore. A ordinare le informazioni e estrarre esclusivamente conoscenza utile a un’organizzazione o a uno specifico settore.

Eppure in questo momento storico tantissime persone non saprebbero rispondere alla domanda: ma i big data cosa sono di preciso

E sono ancora di più gli utenti che ignorano quanto la diffusione dell’analisi di big data potrebbe creare rischi alla loro privacy online

  • 0. Qual è il significato del concetto di “big data”

    Dati sul Web

    carlos castilla/Shutterstock

    In italiano, le parole “big data” possono essere tradotte come una “grande quantità di dati”. Allo stesso tempo, però, non è semplice rispondere in maniera univoca alla domanda: i big data cosa sono

    Questo perché non esiste una linea netta che separi effettivamente i big data da altre tipologie di dati. Bisogna infatti tenere conto di diversi aspetti, che verranno approfonditi nei capoversi successivi. 

    In linea di principio è possibile parlare di big data ogni qual volta il gruppo di dati in questione necessiti di strumenti speciali: per analizzarli e catalogarli. Ma anche per comprenderli nei loro aspetti più specifici. 

    L’obiettivo dell’essere umano di fronte ai big data è infatti trasformare l’informazione in conoscenza. Sviluppare tecnologie e metodi analitici in grado di “domare” queste grandissime quantità di dati, per estrapolare da loro tutto il valore possibile

    I big data sono grandissime quantità di informazioni, che necessitano di modelli e strumenti ad hoc per essere analizzate

    Un altro aspetto da tenere in considerazione è che il significato e i confini delle parole “big data” sono cambiati col trascorrere del tempo. 

    Negli ultimi 40 anni la quantità di informazioni digitali che circola nel mondo è cresciuta in maniera esponenziale. Basti pensare che, verso la fine degli anni ’80, i dati in circolazione corrispondevano a circa 300 Petabyte: l’equivalente di 3.000 terabyte

    Nei primi anni 2000 la cifra era salita a 2,2 Exabyte, corrispondenti a 2.200 Petabyte. E nel 2014 si stimava un traffico internazionale di dati corrispondente a più di 650 Exabyte

    Oggi contare la quantità di dati che circolano sul web è ancora più complesso. Ma per avere un’idea basterà considerare che nel 2023 circa i due terzi della popolazione globale (corrispondenti a 5,4 miliardi di persone) si sono connessi a Internet.

  • 1. Cosa sono le cinque “V” dei big data

    Analisi dei dati

    ESB Professional/Shutterstock

    Un interessante studio proposto da Douglas Laney aiuta a comprendere il fenomeno di crescita di dati, tenendo conto di tre fattori. O di tre “V”, che ancora oggi vengono considerate distintive dei big data. 

    La prima “V” è quella del volume: la quantità effettiva di informazioni contenute all’interno di un dataset di big data. Tenendo conto del fatto che il singolo dataset può essere legato a sorgenti diverse: da una parte ci sono i dataset legati ai social media, dall’altra quelli provenienti da gruppi di indirizzi email o database. Ma anche tutti i dati registrati all’interno dei dispositivi IoT, ovvero quelli dellInternet delle Cose. E poi quelli che viaggiano sul cloud.

    La seconda “V” è quella della varietà: la tipologia e la diversificazione di informazioni contenute all’interno di un dataset di big data. I dati più semplici da gestire sono quelli strutturati: si pensi ad esempio alle informazioni contenute in un database o in un foglio di calcolo di Excel.

    Le cinque “V” dei big data fanno riferimento a volume, varietà, velocità, veridicità e valore

    A seguire ci sono i dati semi strutturati: ad esempio quelli organizzati secondo un mix di criteri fissi e variabili. Infine i dati non strutturati, come quelli che viaggiano sul web. Maggiore è la varietà di dati, maggiore è la difficoltà di comprenderli e organizzarli in maniera completa. 

    La terza “V” è quella della velocità: la quantità di tempo che serve per generare e registrare nuove informazioni. Una categoria che diventa fondamentale soprattutto quando si parla di informazioni sensibili: ad esempio quelle legate agli analytics, ma anche quelle legate alla sicurezza informatica e la privacy online

    Col passare degli anni, alle celebri tre “V” di Laney ne sono state affiancate altre due. Innanzitutto la “V” di veridicità, con cui gli analisti quantificano la qualità e l’attendibilità di un dato elaborato. 

    E poi la “V” di valore, che serve a comprendere in maniera più generale quanto un dataset di big data sia in grado di generare conoscenza

    Bisogna inoltre sottolineare che il sistema delle tre o delle cinque “V” non è l’unico che permette di riflettere sui big data. Esistono anche modelli più concettuali, come ad esempio quello che analizza i dataset in base ai criteri di Informazione, Tecnologia, Metodi e Impatto (ITMI). 

  • 2. Come funzionano la generazione e l’acquisizione dei big data

    Data Analytics

    metamorworks/Shutterstock

    Il ciclo di vita dei big data viene generalmente organizzato in due macro-categorie: la prima è quella del big data management, che inizia con una fase di generazione ed acquisizione del dato

    La generazione dei big data viene a sua volta catalogata in dati generati dall’essere umano, dati generati dalle macchine e dati legati ai processi di business.

    I dati human generated sono frutto delle attività degli utenti: ad esempio le informazioni caricate sui social network, sui blog o sulle piattaforme di micro-blogging. Ma anche le recensioni o i feedback pubblicati sugli e-commerce, siti di notizie o aggregatori.

    I dati machine generated sono quelli prodotti da sorgenti non umane. Si pensi in tal senso ai dati dei GPS, o a quelli dei sopracitati dispositivi IoT. Ma anche ai dati meteorologici, o a quelli elaborati dai macchinari medici

    Il big data management è la prima fase del ciclo di vita dei big data e inizia con generazione e acquisizione

    Infine i dati business generated possono essere elaborati sia dall’essere umano che da una macchina. L’importante è rientrino in un perimetro di informazioni utili a veicolare i processi e le decisioni di un business aziendale

    Anche l’acquisizione di big data può essere categorizzata in base a modalità specifiche. Innanzitutto si considerano i dati recuperati passando per le API dei servizi web: da quelle dei sopracitati social network, a quelle dei motori di ricerca. 

    Dopodiché si considerano i dati recuperati attraverso software specifici come quelli di web scraping: strumenti che eseguono diverse operazioni di raccolta automatica delle informazioni, scandagliando i diversi documenti presenti sul web. 

    È possibile acquisire dati anche utilizzando i cosiddetti strumenti ETL: ovvero quelli che sintetizzano i processi Extract (estrazione), Transform (trasformazione) e Load (caricamento). Questa metodologia si può applicare sia ai database relazionali che a quelli non relazionali. 

    Infine è possibile utilizzare tecnologie che abilitano l’acquisizione continua di flussi di dati. Sistemi che catturano il singolo evento e lo salvano su database quasi in tempo reale. 

  • 3. Come si conclude il big data management

    Data Science

    NicoElNino/Shutterstock

    La fase di big data management si conclude con due processi: innanzitutto l’estrazione e la pulizia del dataset. A seguire l’immagazzinamento e l’integrazione delle informazioni. 

    Il primo problema da tenere in considerazione è che i dataset, dopo essere stati raccolti, non sono pronti per essere elaborati. Basti pensare al fatto che spesso le diverse informazioni dei big data hanno la loro personale rappresentazione

    Il processo di estrazione e pulizia serve a prelevare gruppi di informazioni coerenti e a organizzarli in modo che possano essere analizzate. 

    Le modalità di estrazione dei big data variano di caso in caso e di dato in dato. Un altro elemento da considerare è la possibile presenza di informazioni false. Qui entra in campo la pulizia, che viene organizzata a partire da modelli specifici di controllo della validità del dato. 

    L’estrazione e la pulizia del dataset preparano le fasi successive di immagazzinamento e integrazione

    La successiva fase di immagazzinamento dei big data ha il principale obiettivo di garantirne la disponibilità nel tempo. Tenendo conto di tutte le complicazioni descritte fino a qui. 

    Per raggiungere l’immagazzinamento si ricorre a meccanismi e strumenti peculiari, che variano in base al tipo di database di riferimento: ad esempio i file system distribuiti come GFS (Google File System) e HDFS (Hadoop Distributed File System).

    Questi file system permettono di osservare le infrastrutture di memoria in cui vengono immagazzinati i big data. L’immagazzinamento dei dati viene effettuato ricorrendo a linguaggi specifici come il NoSQL

    E di solito va di pari passo con l’integrazione: un’altra procedura, che interviene sul set di dati per renderlo più facile da analizzare. Ad esempio riconoscendo i vari contenuti testuali. 

  • 4. In cosa consiste il big data analytics

    Dati da analizzare


    Deemerwha studio/Shutterstock

    La cosiddetta fase di big data analytics segue quella di big data management descritta nei capoversi precedenti. E prevede diversi processi di interrogazione del dato: a partire dall’analisi descrittiva (descriptive analytics), fino ad arrivare alle predizioni (predictive analytics) o alle prescrizioni (prescriptive analytics). 

    Il big data analytics inizia con la modellazione, l’elaborazione e l’analisi del dato. Con l’obiettivo di iniziare a trovare informazioni utili e valore all’interno della complessità dei dataset

    La modalità di analisi dipende dalla tipologia di dato su cui agisce: strutturato, semi-strutturato o non strutturato. E si sviluppa in base alle varietà di file presenti all’interno del set. 

    Ad esempio l’analisi dei testi permette di estrarre informazioni di valore da contenuti scritti e si avvale di particolari varietà di algoritmo per il topic modelling e il question answering: rispettivamente il riconoscimento di un argomento e la ricerca di risposte valide a domande specifiche. 

    Allo stesso modo l’analisi di dati multimediali viene applicata a immagini, video o audio. Con l’obiettivo di ottenere una descrizione semantica di ogni file. 

    Il big data analytics segue il big data management e trasforma definitivamente il dato in informazione di valore

    In questo modo si ottengono tre risultati distinti: la multimedia annotation, ovvero l’annotazione di etichette testuali. La feature extraction, che estrae caratteristiche distintive del file. E poi multimedia indexing e multimedia recommendation, che indicizzano e raccomandano le informazioni ottenute. 

    Infine l’analisi del web, che ricava conoscenza e valore a partire da siti e collegamenti ipertestuali. Ricorrendo a un mix delle tecniche e le tecnologie descritte fino a qui, in base alla tipologia di file analizzato. 

    Ma anche sfruttando altri algoritmi, come ad esempio il celebre PageRank di Google. O ulteriori formule che permettono di stabilire rapporti tra pagine web

    Tutte le operazioni di cui sopra possono essere potenziate attraverso l’uso di tecniche ad hoc. Si pensi in tal senso al data mining, al machine learning o al clustering: strumenti diversi, che velocizzano la trasformazione del dato in valore.

    Il big data analytics si conclude con la fase di interpretazione. L’ultimo step dell’analisi, che sfrutta le informazioni ottenute per ottenere un qualsiasi vantaggio competitivo

    Dal supporto data driven a decisioni di business alla verifica di ipotesi pregresse. Senza dimenticare la possibilità di effettuare previsioni sempre a partire dal dato. 

  • 5. Quali sono gli ambiti di utilizzo dei big data

    Data Analysis

    NicoElNino/Shutterstock

    Chiarito i big data cosa sono, è sicuramente utile entrare nel merito di cosa possono fare. Ad esempio provando a indicare quali sono e saranno i loro principali campi di applicazione

    A onor del vero, in questo momento storico è difficile restringere l’uso dei big data a un singolo perimetro, ambito o settore. L’impressione infatti è che, pian piano, tutti i processi diventeranno sempre più data driven

    E che di conseguenza i big data saranno appetibili per la stragrande maggioranza delle aziende e i professionisti sul mercato. 

    Allo stesso tempo ci sono ambiti e settori che sono sicuramente avanti rispetto all’uso dei big data. Basti pensare alla ricerca medica, che sta venendo quasi rivoluzionata dall’accesso ai dataset. 

    L’integrazione di big data nella sanità va di pari passo con la diffusione di dispositivi IoT in grado di raccogliere e inviare informazioni in tempo reale. 

    Il settore della ricerca medica e quello dell’analisi dei fenomeni naturali stanno subendo l’influenza dei big data, innescando una vera e propria rivoluzione 

    Il giusto mix delle due tecnologie può abilitare una diagnostica a distanza profonda e precisa come non mai. Con un evidente abbattimento di tempi e costi, utile tanto al cittadino quanto al professionista del settore.

    Ma i vantaggi della categorizzazione e l’analisi di grandi patrimoni di dati legati alla salute delle persone non finiscono certo qui. Riuscire a condividere big data medici potrebbe velocizzare l’individuazione di cure ad oggi sconosciute

    E permetterebbe al personale sanitario di sviluppare terapie, metodologie e trattamenti sempre più mirati: arrivando a un concetto di cura personalizzata legato addirittura al patrimonio genetico del singolo individuo. 

    Un altro settore che sta godendo dei vantaggi della rivoluzione big data è quello meteorologico. E lo stesso discorso vale per tutte le scienze che hanno a che fare con l’analisi di fenomeni naturali

    I grandi dataset rappresentano un vero e proprio tesoro da questo punto di vista. E lo stesso discorso vale per i cosiddetti fenomeni di data visualization: dalle infografiche alle tabelle. 

    La rappresentazione di conoscenza frutto dell’esplorazione di big data permette di dare visibilità e chiarezza a fenomeni altrimenti difficilissimi da scovare: si pensi in tal senso all’incrocio di dati provenienti da sorgenti diverse e alla possibilità di individuare nuove connotazionio addirittura correlazioni.

  • 6. Lavori del futuro legati ai big data

    Big Data Analysis

    NicoElNino/Shutterstock

    La diffusione sempre più capillare dei big data nei diversi settori lavorativi aiuta a capire come mai, in questo momento storico, si stiano affermando tante nuove professioni legate all’analisi del dato. 

    Alcuni continuano a raccontare queste professioni come “lavori del futuro”, perché la richiesta sembra destinata a crescere a dismisura. Ma forse sarebbe più corretto parlare di “lavori del presente”.

    I lavori legati ai big data condividono un significato di fondo e un obiettivo comune: aiutare le organizzazioni ad analizzare grandi quantità di informazioni, per prendere decisioni data driven

    Si tratta inoltre di professioni che spesso richiedono competenze simili: profili con basi di ingegneria o informatica e con specializzazione in matematica o statistica

    Il data scientist è uno dei mestieri più noti legati ai dataset e ai big data: il suo lavoro consiste nel raccogliere dati ed estrarre informazioni di interesse per l’organizzazione di riferimento. 

    Data scientist, data analyst, data engineer, data miner e data visualizer sono alcuni dei lavori più richiesti legati ai big data

    Il data analyst ha competenze e compiti simili a quelli del data scientist, ma è chiamato a fornire output diversi. Di solito infatti tende a lavorare su database. Evitando di elaborare modelli statistici.

    Il data engineer ha un profilo più ingegneristico rispetto ai colleghi di cui sopra e di solito entra in azione per abilitare il lavoro di data scientist e data analyst, garantendo che i dati siano disponibili, fruibili e di qualità

    Anche il data miner si occupa di estrarre, analizzare e identificare dati. Il suo lavoro consiste soprattutto nel trovare pattern tra le informazioni. Magari per utilizzare tali riscontri in ottica previsionale oppure per sviluppare modelli che orientino le decisioni di business della sua organizzazione. 

    Al contrario il data visualizer si posiziona alla fine della catena di estrazione e analisi del dato. Il suo lavoro consiste nel rappresentare graficamente i dati, in modo da tirare fuori informazioni di valore per la sua organizzazione. 

    Il data visualizer elabora diagrammi, mappe, infografiche e tabelle, e ha il compito di evidenziare modelli ricorrenti, ma anche eventuali anomalie presenti nel dataset. 

  • 7. Quali sono i problemi dei big data

    In futuro i big data diverranno parte sempre più integrante del mondo del lavoro e non solo. Ma ci sono ancora diversi problemi da risolvere: a partire da quelli tecnici, fino ad arrivare a quelli di natura etica

    Dal punto di vista tecnologico, una delle sfide più importanti riguarda la qualità dell’informazione. Ciò significa sviluppare algoritmi in grado di analizzare i dataset, in modo da estrapolare esclusivamente conoscenza veritiera ed effettivamente utile

    Il problema più grande è però quello relativo alla privacy dell’utente. Il rischio infatti è che anche i dati personali, apparentemente privati, finiscano nel calderone dei dataset. 

    Anche perché ad oggi pochissime persone conoscono nel dettaglio il funzionamento dei processi empirici legati a formazione ed elaborazione dei big data. 

    Le nuove policy legate ai tracking cookie sono state pensate proprio per proteggere i dati sensibili di chi naviga sul web. O se non altro per renderli maggiormente consapevoli delle informazioni che condividono in Internet. 

    Ma la domanda resta lecita: quanto è giusto che sappiano i big data degli utenti? Tracciare le attività di un utente significa conoscere i suoi gusti e le sue abitudini di acquisto. Così come significa poter accedere alla sua carta di credito e al suo indirizzo

    In questo momento storico le informazioni personali sono una merce di scambio preziosa. L’utente può usufruire di tutta una serie di servizi gratuiti e, in cambio, accetta di farsi tracciare. 

    E i nuovi processi di analisi stanno trasformando i dati tracciati in conoscenza e valore superiore. Dalla possibilità di conoscere in ogni istante la posizione di ogni utente. A nuovi sistemi predittivi che entrano addirittura nel campo delle emozioni e delle relazioni private. 

A cura di Cultur-e
Sai che Fastweb Plus è anche su Instagram?
Instagram
Sai che Fastweb Plus è anche su Instagram?
Fda gratis svg
Seguici gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.