Cosa sono i big data, come funzionano e come possono essere utilizzati

Ascolta l'articolo

Comprendere il significato dei big data permette di scoprire di più sui lavori del futuro degli analytics e comprendere alcuni rischi potenziali per la privacy

everything possible/Shutterstock

mettiti alla prova con il quiz di mr. Plus su Big Data

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

Il significato delle parole “big data” non è univoco: si tratta infatti di grandi o grandissime quantità di dati, che necessitano di tecnologie ad hoc per essere interpretati.

Le operazioni di big data management e big data analytics servono fondamentalmente a trasformare il dato in valore. A ordinare le informazioni e estrarre esclusivamente conoscenza utile a un’organizzazione o a uno specifico settore.

Eppure in questo momento storico tantissime persone non saprebbero rispondere alla domanda: ma i big data cosa sono di preciso?

E sono ancora di più gli utenti che ignorano quanto la diffusione dell’analisi di big data potrebbe creare rischi alla loro privacy online.

Indice dei contenuti

Qual è il significato del concetto di “big data”
Cosa sono le cinque “V” dei big data
Come funzionano la generazione e l’acquisizione dei big data
Come si conclude il big data management
In cosa consiste il big data analytics
Quali sono gli ambiti di utilizzo dei big data
Lavori del futuro legati ai big data
Quali sono i problemi dei big data

0. Qual è il significato del concetto di “big data”

carlos castilla/Shutterstock

In italiano, le parole “big data” possono essere tradotte come una “grande quantità di dati”. Allo stesso tempo, però, non è semplice rispondere in maniera univoca alla domanda: i big data cosa sono?

Questo perché non esiste una linea netta che separi effettivamente i big data da altre tipologie di dati. Bisogna infatti tenere conto di diversi aspetti, che verranno approfonditi nei capoversi successivi.

In linea di principio è possibile parlare di big data ogni qual volta il gruppo di dati in questione necessiti di strumenti speciali: per analizzarli e catalogarli. Ma anche per comprenderli nei loro aspetti più specifici.

L’obiettivo dell’essere umano di fronte ai big data è infatti trasformare l’informazione in conoscenza. Sviluppare tecnologie e metodi analitici in grado di “domare” queste grandissime quantità di dati, per estrapolare da loro tutto il valore possibile.

I big data sono grandissime quantità di informazioni, che necessitano di modelli e strumenti ad hoc per essere analizzate

Un altro aspetto da tenere in considerazione è che il significato e i confini delle parole “big data” sono cambiati col trascorrere del tempo.

Negli ultimi 40 anni la quantità di informazioni digitali che circola nel mondo è cresciuta in maniera esponenziale. Basti pensare che, verso la fine degli anni ’80, i dati in circolazione corrispondevano a circa 300 Petabyte: l’equivalente di 3.000 terabyte.

Nei primi anni 2000 la cifra era salita a 2,2 Exabyte, corrispondenti a 2.200 Petabyte. E nel 2014 si stimava un traffico internazionale di dati corrispondente a più di 650 Exabyte.

Oggi contare la quantità di dati che circolano sul web è ancora più complesso. Ma per avere un’idea basterà considerare che nel 2023 circa i due terzi della popolazione globale (corrispondenti a 5,4 miliardi di persone) si sono connessi a Internet.
1. Cosa sono le cinque “V” dei big data

ESB Professional/Shutterstock

Un interessante studio proposto da Douglas Laney aiuta a comprendere il fenomeno di crescita di dati, tenendo conto di tre fattori. O di tre “V”, che ancora oggi vengono considerate distintive dei big data.

La prima “V” è quella del volume: la quantità effettiva di informazioni contenute all’interno di un dataset di big data. Tenendo conto del fatto che il singolo dataset può essere legato a sorgenti diverse: da una parte ci sono i dataset legati ai social media, dall’altra quelli provenienti da gruppi di indirizzi email o database. Ma anche tutti i dati registrati all’interno dei dispositivi IoT, ovvero quelli dell’Internet delle Cose. E poi quelli che viaggiano sul cloud.

La seconda “V” è quella della varietà: la tipologia e la diversificazione di informazioni contenute all’interno di un dataset di big data. I dati più semplici da gestire sono quelli strutturati: si pensi ad esempio alle informazioni contenute in un database o in un foglio di calcolo di Excel.

Le cinque “V” dei big data fanno riferimento a volume, varietà, velocità, veridicità e valore

A seguire ci sono i dati semi strutturati: ad esempio quelli organizzati secondo un mix di criteri fissi e variabili. Infine i dati non strutturati, come quelli che viaggiano sul web. Maggiore è la varietà di dati, maggiore è la difficoltà di comprenderli e organizzarli in maniera completa.

La terza “V” è quella della velocità: la quantità di tempo che serve per generare e registrare nuove informazioni. Una categoria che diventa fondamentale soprattutto quando si parla di informazioni sensibili: ad esempio quelle legate agli analytics, ma anche quelle legate alla sicurezza informatica e la privacy online.

Col passare degli anni, alle celebri tre “V” di Laney ne sono state affiancate altre due. Innanzitutto la “V” di veridicità, con cui gli analisti quantificano la qualità e l’attendibilità di un dato elaborato.

E poi la “V” di valore, che serve a comprendere in maniera più generale quanto un dataset di big data sia in grado di generare conoscenza.

Bisogna inoltre sottolineare che il sistema delle tre o delle cinque “V” non è l’unico che permette di riflettere sui big data. Esistono anche modelli più concettuali, come ad esempio quello che analizza i dataset in base ai criteri di Informazione, Tecnologia, Metodi e Impatto (ITMI).
2. Come funzionano la generazione e l’acquisizione dei big data

metamorworks/Shutterstock

Il ciclo di vita dei big data viene generalmente organizzato in due macro-categorie: la prima è quella del big data management, che inizia con una fase di generazione ed acquisizione del dato.

La generazione dei big data viene a sua volta catalogata in dati generati dall’essere umano, dati generati dalle macchine e dati legati ai processi di business.

I dati human generated sono frutto delle attività degli utenti: ad esempio le informazioni caricate sui social network, sui blog o sulle piattaforme di micro-blogging. Ma anche le recensioni o i feedback pubblicati sugli e-commerce, siti di notizie o aggregatori.

I dati machine generated sono quelli prodotti da sorgenti non umane. Si pensi in tal senso ai dati dei GPS, o a quelli dei sopracitati dispositivi IoT. Ma anche ai dati meteorologici, o a quelli elaborati dai macchinari medici.

Il big data management è la prima fase del ciclo di vita dei big data e inizia con generazione e acquisizione

Infine i dati business generated possono essere elaborati sia dall’essere umano che da una macchina. L’importante è rientrino in un perimetro di informazioni utili a veicolare i processi e le decisioni di un business aziendale.

Anche l’acquisizione di big data può essere categorizzata in base a modalità specifiche. Innanzitutto si considerano i dati recuperati passando per le API dei servizi web: da quelle dei sopracitati social network, a quelle dei motori di ricerca.

Dopodiché si considerano i dati recuperati attraverso software specifici come quelli di web scraping: strumenti che eseguono diverse operazioni di raccolta automatica delle informazioni, scandagliando i diversi documenti presenti sul web.

È possibile acquisire dati anche utilizzando i cosiddetti strumenti ETL: ovvero quelli che sintetizzano i processi Extract (estrazione), Transform (trasformazione) e Load (caricamento). Questa metodologia si può applicare sia ai database relazionali che a quelli non relazionali.

Infine è possibile utilizzare tecnologie che abilitano l’acquisizione continua di flussi di dati. Sistemi che catturano il singolo evento e lo salvano su database quasi in tempo reale.
Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

Spedizione SIM GRATIS

scopri

3. Come si conclude il big data management

NicoElNino/Shutterstock

La fase di big data management si conclude con due processi: innanzitutto l’estrazione e la pulizia del dataset. A seguire l’immagazzinamento e l’integrazione delle informazioni.

Il primo problema da tenere in considerazione è che i dataset, dopo essere stati raccolti, non sono pronti per essere elaborati. Basti pensare al fatto che spesso le diverse informazioni dei big data hanno la loro personale rappresentazione.

Il processo di estrazione e pulizia serve a prelevare gruppi di informazioni coerenti e a organizzarli in modo che possano essere analizzate.

Le modalità di estrazione dei big data variano di caso in caso e di dato in dato. Un altro elemento da considerare è la possibile presenza di informazioni false. Qui entra in campo la pulizia, che viene organizzata a partire da modelli specifici di controllo della validità del dato.

L’estrazione e la pulizia del dataset preparano le fasi successive di immagazzinamento e integrazione

La successiva fase di immagazzinamento dei big data ha il principale obiettivo di garantirne la disponibilità nel tempo. Tenendo conto di tutte le complicazioni descritte fino a qui.

Per raggiungere l’immagazzinamento si ricorre a meccanismi e strumenti peculiari, che variano in base al tipo di database di riferimento: ad esempio i file system distribuiti come GFS (Google File System) e HDFS (Hadoop Distributed File System).

Questi file system permettono di osservare le infrastrutture di memoria in cui vengono immagazzinati i big data. L’immagazzinamento dei dati viene effettuato ricorrendo a linguaggi specifici come il NoSQL.

E di solito va di pari passo con l’integrazione: un’altra procedura, che interviene sul set di dati per renderlo più facile da analizzare. Ad esempio riconoscendo i vari contenuti testuali.
4. In cosa consiste il big data analytics

Deemerwha studio/Shutterstock

La cosiddetta fase di big data analytics segue quella di big data management descritta nei capoversi precedenti. E prevede diversi processi di interrogazione del dato: a partire dall’analisi descrittiva (descriptive analytics), fino ad arrivare alle predizioni (predictive analytics) o alle prescrizioni (prescriptive analytics).

Il big data analytics inizia con la modellazione, l’elaborazione e l’analisi del dato. Con l’obiettivo di iniziare a trovare informazioni utili e valore all’interno della complessità dei dataset.

La modalità di analisi dipende dalla tipologia di dato su cui agisce: strutturato, semi-strutturato o non strutturato. E si sviluppa in base alle varietà di file presenti all’interno del set.

Ad esempio l’analisi dei testi permette di estrarre informazioni di valore da contenuti scritti e si avvale di particolari varietà di algoritmo per il topic modelling e il question answering: rispettivamente il riconoscimento di un argomento e la ricerca di risposte valide a domande specifiche.

Allo stesso modo l’analisi di dati multimediali viene applicata a immagini, video o audio. Con l’obiettivo di ottenere una descrizione semantica di ogni file.

Il big data analytics segue il big data management e trasforma definitivamente il dato in informazione di valore

In questo modo si ottengono tre risultati distinti: la multimedia annotation, ovvero l’annotazione di etichette testuali. La feature extraction, che estrae caratteristiche distintive del file. E poi multimedia indexing e multimedia recommendation, che indicizzano e raccomandano le informazioni ottenute.

Infine l’analisi del web, che ricava conoscenza e valore a partire da siti e collegamenti ipertestuali. Ricorrendo a un mix delle tecniche e le tecnologie descritte fino a qui, in base alla tipologia di file analizzato.

Ma anche sfruttando altri algoritmi, come ad esempio il celebre PageRank di Google. O ulteriori formule che permettono di stabilire rapporti tra pagine web.

Tutte le operazioni di cui sopra possono essere potenziate attraverso l’uso di tecniche ad hoc. Si pensi in tal senso al data mining, al machine learning o al clustering: strumenti diversi, che velocizzano la trasformazione del dato in valore.

Il big data analytics si conclude con la fase di interpretazione. L’ultimo step dell’analisi, che sfrutta le informazioni ottenute per ottenere un qualsiasi vantaggio competitivo.

Dal supporto data driven a decisioni di business alla verifica di ipotesi pregresse. Senza dimenticare la possibilità di effettuare previsioni sempre a partire dal dato.
5. Quali sono gli ambiti di utilizzo dei big data

NicoElNino/Shutterstock

Chiarito i big data cosa sono, è sicuramente utile entrare nel merito di cosa possono fare. Ad esempio provando a indicare quali sono e saranno i loro principali campi di applicazione.

A onor del vero, in questo momento storico è difficile restringere l’uso dei big data a un singolo perimetro, ambito o settore. L’impressione infatti è che, pian piano, tutti i processi diventeranno sempre più data driven.

E che di conseguenza i big data saranno appetibili per la stragrande maggioranza delle aziende e i professionisti sul mercato.

Allo stesso tempo ci sono ambiti e settori che sono sicuramente avanti rispetto all’uso dei big data. Basti pensare alla ricerca medica, che sta venendo quasi rivoluzionata dall’accesso ai dataset.

L’integrazione di big data nella sanità va di pari passo con la diffusione di dispositivi IoT in grado di raccogliere e inviare informazioni in tempo reale.

Il settore della ricerca medica e quello dell’analisi dei fenomeni naturali stanno subendo l’influenza dei big data, innescando una vera e propria rivoluzione

Il giusto mix delle due tecnologie può abilitare una diagnostica a distanza profonda e precisa come non mai. Con un evidente abbattimento di tempi e costi, utile tanto al cittadino quanto al professionista del settore.

Ma i vantaggi della categorizzazione e l’analisi di grandi patrimoni di dati legati alla salute delle persone non finiscono certo qui. Riuscire a condividere big data medici potrebbe velocizzare l’individuazione di cure ad oggi sconosciute.

E permetterebbe al personale sanitario di sviluppare terapie, metodologie e trattamenti sempre più mirati: arrivando a un concetto di cura personalizzata legato addirittura al patrimonio genetico del singolo individuo.

Un altro settore che sta godendo dei vantaggi della rivoluzione big data è quello meteorologico. E lo stesso discorso vale per tutte le scienze che hanno a che fare con l’analisi di fenomeni naturali.

I grandi dataset rappresentano un vero e proprio tesoro da questo punto di vista. E lo stesso discorso vale per i cosiddetti fenomeni di data visualization: dalle infografiche alle tabelle.

La rappresentazione di conoscenza frutto dell’esplorazione di big data permette di dare visibilità e chiarezza a fenomeni altrimenti difficilissimi da scovare: si pensi in tal senso all’incrocio di dati provenienti da sorgenti diverse e alla possibilità di individuare nuove connotazionio addirittura correlazioni.
6. Lavori del futuro legati ai big data

NicoElNino/Shutterstock

La diffusione sempre più capillare dei big data nei diversi settori lavorativi aiuta a capire come mai, in questo momento storico, si stiano affermando tante nuove professioni legate all’analisi del dato.

Alcuni continuano a raccontare queste professioni come “lavori del futuro”, perché la richiesta sembra destinata a crescere a dismisura. Ma forse sarebbe più corretto parlare di “lavori del presente”.

I lavori legati ai big data condividono un significato di fondo e un obiettivo comune: aiutare le organizzazioni ad analizzare grandi quantità di informazioni, per prendere decisioni data driven.

Si tratta inoltre di professioni che spesso richiedono competenze simili: profili con basi di ingegneria o informatica e con specializzazione in matematica o statistica.

Il data scientist è uno dei mestieri più noti legati ai dataset e ai big data: il suo lavoro consiste nel raccogliere dati ed estrarre informazioni di interesse per l’organizzazione di riferimento.

Data scientist, data analyst, data engineer, data miner e data visualizer sono alcuni dei lavori più richiesti legati ai big data

Il data analyst ha competenze e compiti simili a quelli del data scientist, ma è chiamato a fornire output diversi. Di solito infatti tende a lavorare su database. Evitando di elaborare modelli statistici.

Il data engineer ha un profilo più ingegneristico rispetto ai colleghi di cui sopra e di solito entra in azione per abilitare il lavoro di data scientist e data analyst, garantendo che i dati siano disponibili, fruibili e di qualità.

Anche il data miner si occupa di estrarre, analizzare e identificare dati. Il suo lavoro consiste soprattutto nel trovare pattern tra le informazioni. Magari per utilizzare tali riscontri in ottica previsionale oppure per sviluppare modelli che orientino le decisioni di business della sua organizzazione.

Al contrario il data visualizer si posiziona alla fine della catena di estrazione e analisi del dato. Il suo lavoro consiste nel rappresentare graficamente i dati, in modo da tirare fuori informazioni di valore per la sua organizzazione.

Il data visualizer elabora diagrammi, mappe, infografiche e tabelle, e ha il compito di evidenziare modelli ricorrenti, ma anche eventuali anomalie presenti nel dataset.
7. Quali sono i problemi dei big data

In futuro i big data diverranno parte sempre più integrante del mondo del lavoro e non solo. Ma ci sono ancora diversi problemi da risolvere: a partire da quelli tecnici, fino ad arrivare a quelli di natura etica.

Dal punto di vista tecnologico, una delle sfide più importanti riguarda la qualità dell’informazione. Ciò significa sviluppare algoritmi in grado di analizzare i dataset, in modo da estrapolare esclusivamente conoscenza veritiera ed effettivamente utile.

Il problema più grande è però quello relativo alla privacy dell’utente. Il rischio infatti è che anche i dati personali, apparentemente privati, finiscano nel calderone dei dataset.

Anche perché ad oggi pochissime persone conoscono nel dettaglio il funzionamento dei processi empirici legati a formazione ed elaborazione dei big data.

Le nuove policy legate ai tracking cookie sono state pensate proprio per proteggere i dati sensibili di chi naviga sul web. O se non altro per renderli maggiormente consapevoli delle informazioni che condividono in Internet.

Ma la domanda resta lecita: quanto è giusto che sappiano i big data degli utenti? Tracciare le attività di un utente significa conoscere i suoi gusti e le sue abitudini di acquisto. Così come significa poter accedere alla sua carta di credito e al suo indirizzo.

In questo momento storico le informazioni personali sono una merce di scambio preziosa. L’utente può usufruire di tutta una serie di servizi gratuiti e, in cambio, accetta di farsi tracciare.

E i nuovi processi di analisi stanno trasformando i dati tracciati in conoscenza e valore superiore. Dalla possibilità di conoscere in ogni istante la posizione di ogni utente. A nuovi sistemi predittivi che entrano addirittura nel campo delle emozioni e delle relazioni private.

A cura di Cultur-e

#LavoriDelFuturoSoftSkill

#NuoveTecnologie

#SicurezzaInformatica

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

Fda

L'IA nel mondo del lavoro

L'IA nel mondo del lavoro

Impatti, sfide e opportunità

Iscriviti al corso gratuito

LinkedIn X Facebook WhatsApp Email

Cosa succede alla privacy se fai vedere le foto sul telefono a Facebook

Facebook vuole accedere alla galleria fotografica e analizzare i metadati delle foto per aiutare nella creazione di post e Storie. Quali rischi per la privacy

Dev & Security

Come sarà Galaxy G Fold, design e uscita del trifold Samsung

Il nuovo Samsung Galaxy G Fold, il primo smartphone trifold dell’azienda sudcoreana, sarà un dispositivo premium con una scheda tecnica di altissimo livello

Dev & Security

Windows 10 chiude ma per continuare a usarlo c'è l'abbonamento Microsoft

A ottobre 2025 Microsoft terminerà il supporto a Windows 10 ma per ricevere ancora gli aggiornamenti per la sicurezza è possibile sottoscrivere un abbonamento

Scopri i corsi gratuiti della Fastweb Digital Academy

Node.js e Typescript – corso base

Creare applicazioni web moderne richiede molte competenze in ambito sviluppo web e la conoscenza di diverse tecnologie e linguaggi. Fortunatamente,…

Introduzione all’Internet of Things

Introduzione alla Internet of Things fornisce una panoramica sul mondo dell’Internet delle cose, sulle piattaforme e tecnologie cloud utilizzate in…

Low-Code/No-Code: sbloccare efficienza, innovazione e crescita con l'automazione e le applicazioni senza codice

IA al lavoro... prego attendere.

Cosa sono i big data, come funzionano e come possono essere utilizzati

0. Qual è il significato del concetto di “big data”

1. Cosa sono le cinque “V” dei big data

2. Come funzionano la generazione e l’acquisizione dei big data

3. Come si conclude il big data management

4. In cosa consiste il big data analytics

5. Quali sono gli ambiti di utilizzo dei big data

6. Lavori del futuro legati ai big data

7. Quali sono i problemi dei big data

Cosa succede alla privacy se fai vedere le foto sul telefono a Facebook

Come sarà Galaxy G Fold, design e uscita del trifold Samsung

Windows 10 chiude ma per continuare a usarlo c'è l'abbonamento Microsoft

IA al lavoro... prego attendere.

Cosa sono i big data, come funzionano e come possono essere utilizzati

0. Qual è il significato del concetto di “big data”

1. Cosa sono le cinque “V” dei big data

2. Come funzionano la generazione e l’acquisizione dei big data

3. Come si conclude il big data management

4. In cosa consiste il big data analytics

5. Quali sono gli ambiti di utilizzo dei big data

6. Lavori del futuro legati ai big data

7. Quali sono i problemi dei big data

Cosa succede alla privacy se fai vedere le foto sul telefono a Facebook

Come sarà Galaxy G Fold, design e uscita del trifold Samsung

Windows 10 chiude ma per continuare a usarlo c'è l'abbonamento Microsoft

Iscriviti all'area personale

Iscriviti
all'area personale