Miliardi di foto. Decine di milioni di video. Post su blog e quotidiani online praticamente impossibili da quantificare, così come aggiornamenti di status su Facebook, cinguettii su Twitter e immagini su Instagram. Ogni giorno il web si popola di nuovi contenuti, dati e informazioni di ogni genere creati dai miliardi di utenti che quotidianamente si connettono alla Rete dai quattro angoli della Terra.

Dati di grande importanza per tutte quelle società – come Google e Facebook, tanto per fare due nomi – interessate a vario titolo al mondo della pubblicità online. Grazie agli user generated content (ma non solo) queste società sono in grado di studiare le abitudini degli internauti e proporre inserzioni pubblicitarie personalizzate (la cosiddetta pubblicità tracciante) per catturare l'attenzione di possibili utenti.

 

Web scraping

 

Queste informazioni, però, possono interessare un po' tutte le aziende presenti online. Dai post online e dalle pubblicazioni su blog e quotidiani, infatti, è possibile desumere quale sia l'opinione del pubblico e valutare la web reputation di aziende e singoli cittadini (come politici, ad esempio). Tutto ciò è reso possibile dal web scraping, attività che consente di "scandagliare" l'intera Rete alla ricerca di informazioni da piattaforme blogging, reti sociali e molto altro ancora.

Che cos'è il web scraping

Con il termine di web scraping si indicano diverse metodologie che consentono di estrarre e collezionare dati e informazioni da Internet. Generalmente, questa azione è compiuta attraverso software (bot) che simulano la navigazione nel web compiuta da utenti in carne ed ossa andando a "prelevare" determinate informazioni da differenti portali web. Gli scopi, come già detto, possono essere molteplici: dal monitoraggio dell'andamento di una promozione online alla ricerca di dati e informazioni sensibili da rivendere ad altri utenti.

 

Web harvesting

 

Il web scraping (detto anche web data extraction, screen scraping o web harvesting) è, di fatto, una forma di data mining, che consente di entrare in possesso di dati non necessariamente di pubblico dominio (o non immediatamente accessibili). Per questo motivo il web harvesting non è sempre visto di buon occhio: alcuni gestori impediscono agli utenti di salvare pagine del loro portale, ma vedo aggirata questa loro misura grazie alla web data extraction.

Come funziona il web scraping

Per ottenere dati dalla Rete e dai portali web possono essere messe in atto diverse tattiche. Tutte, però, sono caratterizzate dall'utilizzo di API che consentono di accedere in rapida sequenza alle pagine web ed estrarne i dati richiesti. Sfruttando bot e altri sistemi software automatizzati si simula la navigazione online di internauti umani e si richiede l'accesso a risorse web esattamente come accade nel caso di un normale web browser. Il server risponderà inviando tutte le informazioni richieste, che potranno essere collezionate all'interno di grandi database e analizzate e catalogate come fossero big data.

 

Web data extraction

 

Tecniche di web scraping

Per ottenere i dati dal web e utilizzarli per i propri scopi si possono mettere in atto diverse strategie, a seconda dei mezzi e delle risorse a disposizione. Si va da quelle ad hoc, che richiedo un intervento dell'uomo per la selezione dei "materiali", a quelle completamente automatizzate, che fanno ricorso al machine learning per sgravare l'utente umano di qualunque compito.

  • Copia e incolla manuale. A volte nemmeno il miglior software o la miglior tecnica di web scraping può rimpiazzare l'esame dell'occhio umano e il copia e incolla manuale. A volte, inoltre, questa è l'unica soluzione possibile, dal momento che alcuni portali web impediscono la ricerca automatica di dati e informazioni
  • Parser HTML. Molti siti web sono basati su pagine generate automaticamente basandosi su dati e informazioni archiviate all'interno di grandi database. In casi come questi, le informazioni sono organizzate all'interno di pagine o template in modo da poter essere ritrovate con maggior facilità. Grazie a software ad hoc chiamati wrapper è possibile estrarre i dati della "stessa natura" andando a individuare quali siano i template e sfruttandoli per il web data extraction

 

Web scraping

 

  • Web scraper. Con il passare degli anni sono stati realizzati diversi software e tool in grado di riconoscere automaticamente la struttura della pagina web e andare a "pescare" le informazioni richieste senza che sia necessario alcun intervento umano
  • Visione computerizzata. Sfruttando il machine learning, si stanno sviluppando tecniche di web harvesting che "vedono" e analizzano pagine web seguendo gli stessi pattern solitamente utilizzati da un utente in carne e ossa. In questo modo si riduce di molto il lavoro richiesto ai software di web scraping e si ottengono informazioni più pertinenti
A cura di Cultur-e Costruisci il tuo futuro con la connessione Fastweb