Tecniche di web scraping

Utile per collezionare e catalogare informazioni dal web in maniera automatica, trova applicazione in diversi settori

mettiti alla prova con il quiz di mr. Plus su NotebookLM

Miliardi di foto. Decine di milioni di video. Post su blog e quotidiani online praticamente impossibili da quantificare, così come aggiornamenti di status su Facebook, cinguettii su Twitter e immagini su Instagram. Ogni giorno il web si popola di nuovi contenuti, dati e informazioni di ogni genere creati dai miliardi di utenti che quotidianamente si connettono alla Rete dai quattro angoli della Terra.

Dati di grande importanza per tutte quelle società – come Google e Facebook, tanto per fare due nomi – interessate a vario titolo al mondo della pubblicità online. Grazie agli user generated content (ma non solo) queste società sono in grado di studiare le abitudini degli internauti e proporre inserzioni pubblicitarie personalizzate (la cosiddetta pubblicità tracciante) per catturare l'attenzione di possibili utenti.

Web scraping

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Queste informazioni, però, possono interessare un po' tutte le aziende presenti online. Dai post online e dalle pubblicazioni su blog e quotidiani, infatti, è possibile desumere quale sia l'opinione del pubblico e valutare la web reputation di aziende e singoli cittadini (come politici, ad esempio). Tutto ciò è reso possibile dal web scraping, attività che consente di "scandagliare" l'intera Rete alla ricerca di informazioni da piattaforme blogging, reti sociali e molto altro ancora.

Che cos'è il web scraping

Con il termine di web scraping si indicano diverse metodologie che consentono di estrarre e collezionare dati e informazioni da Internet. Generalmente, questa azione è compiuta attraverso software (bot) che simulano la navigazione nel web compiuta da utenti in carne ed ossa andando a "prelevare" determinate informazioni da differenti portali web. Gli scopi, come già detto, possono essere molteplici: dal monitoraggio dell'andamento di una promozione online alla ricerca di dati e informazioni sensibili da rivendere ad altri utenti.

Web harvesting

Il web scraping (detto anche web data extraction, screen scraping o web harvesting) è, di fatto, una forma di data mining, che consente di entrare in possesso di dati non necessariamente di pubblico dominio (o non immediatamente accessibili). Per questo motivo il web harvesting non è sempre visto di buon occhio: alcuni gestori impediscono agli utenti di salvare pagine del loro portale, ma vedo aggirata questa loro misura grazie alla web data extraction.

Come funziona il web scraping

Per ottenere dati dalla Rete e dai portali web possono essere messe in atto diverse tattiche. Tutte, però, sono caratterizzate dall'utilizzo di API che consentono di accedere in rapida sequenza alle pagine web ed estrarne i dati richiesti. Sfruttando bot e altri sistemi software automatizzati si simula la navigazione online di internauti umani e si richiede l'accesso a risorse web esattamente come accade nel caso di un normale web browser. Il server risponderà inviando tutte le informazioni richieste, che potranno essere collezionate all'interno di grandi database e analizzate e catalogate come fossero big data.

Web data extraction

Tecniche di web scraping

Per ottenere i dati dal web e utilizzarli per i propri scopi si possono mettere in atto diverse strategie, a seconda dei mezzi e delle risorse a disposizione. Si va da quelle ad hoc, che richiedo un intervento dell'uomo per la selezione dei "materiali", a quelle completamente automatizzate, che fanno ricorso al machine learning per sgravare l'utente umano di qualunque compito.

Copia e incolla manuale. A volte nemmeno il miglior software o la miglior tecnica di web scraping può rimpiazzare l'esame dell'occhio umano e il copia e incolla manuale. A volte, inoltre, questa è l'unica soluzione possibile, dal momento che alcuni portali web impediscono la ricerca automatica di dati e informazioni
Parser HTML. Molti siti web sono basati su pagine generate automaticamente basandosi su dati e informazioni archiviate all'interno di grandi database. In casi come questi, le informazioni sono organizzate all'interno di pagine o template in modo da poter essere ritrovate con maggior facilità. Grazie a software ad hoc chiamati wrapper è possibile estrarre i dati della "stessa natura" andando a individuare quali siano i template e sfruttandoli per il web data extraction

Web scraping

Web scraper. Con il passare degli anni sono stati realizzati diversi software e tool in grado di riconoscere automaticamente la struttura della pagina web e andare a "pescare" le informazioni richieste senza che sia necessario alcun intervento umano
Visione computerizzata. Sfruttando il machine learning, si stanno sviluppando tecniche di web harvesting che "vedono" e analizzano pagine web seguendo gli stessi pattern solitamente utilizzati da un utente in carne e ossa. In questo modo si riduce di molto il lavoro richiesto ai software di web scraping e si ottengono informazioni più pertinenti

A cura di Cultur-e

#ComeFarePer

#Social

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

TecnologicaMente

Se fossi un device, quale saresti?

Se fossi un device, quale saresti?

Scopri il tuo alter ego tech: uno smartphone, un drone o un e-reader

Fai il test gratuito

LinkedIn X Facebook WhatsApp Email

Come scoprire l’universo con la mappa spaziale del Caltech

La mappa spaziale del Caltech inquadra 0,54 gradi quadrati di cielo, contiene circa 800.000 galassie e copre il 98% della storia dell’universo

HOW-TO

Digital Magazine

Trasforma le immagini del tuo animale in Emoji

Con iPhone è possibile trasformare le foto del tuo animale domestico in emoji e sticker da utilizzare per personalizzare le chat: come fare in pochi tap

Digital Magazine

Come prepararsi agli Amazon Prime Day

Il Prime Day di Amazon è alle porte e per non lasciarsi sfuggire i migliori sconti su decine di prodotti il carrello dell’e-commerce diventa un alleato prezioso

Scopri i corsi gratuiti della Fastweb Digital Academy

Il significato di autostima

Il corso “Il significato di autostima” è un percorso formativo che ti aiuterà a imparare il vero significato di autostima e a che cosa serve; a…

Node.js e Typescript – corso base

Creare applicazioni web moderne richiede molte competenze in ambito sviluppo web e la conoscenza di diverse tecnologie e linguaggi. Fortunatamente,…

Introduzione al Growth Hacking

Il Growth hacking è una disciplina, nata all’interno del mondo startup, che combina i diversi approcci di Marketing, Programmazione e Prodotto. Ma è…