Please use this identifier to cite or link to this item: http://hdl.handle.net/2067/52035
Title: Web scraping data for socio-economic research
Authors: Palumbo, Luigi
Keywords: Web scraping;Consumer prices;Coverage;Fuzzy set theory;Nowcasting;Sanctions;SECS-S/03
Issue Date: 18-Sep-2023
Publisher: Università degli studi della Tuscia - Viterbo
Series/Report no.: Tesi di dottorato. 35. ciclo;
Abstract: 
Daily data obtained through web scraping allows for the generation of highfrequency
signals with multiple potential uses in research, business, and policy.
This thesis provides an overview on web scraping from a legal, ethical, and big
data handling perspective and includes three research papers. In the first one we
propose a geostatistical fuzzy index to measure the reach of data collection, providing
a practical application for the Consumer Prices Index (CPI) using a dataset
from geo-localized grocery prices web scraping in Italy. We show how the proposed
index is robust and may be useful in evaluating the degree of coverage data
collection processes beyond CPI. In the second paper we evaluate the nowcasting
ability of web-scraped price data to predict the monthly CPI evolution for Italy,
and we decompose the forecasting error into two components: prediction error –
how much our predictions are different from the actual data – and tracking error
– how much our data pattern is different from the official CPI. From a methodological
point of view, we suggest a technique to reduce the tracking error using
a vector of weights aimed to compensate our imperfect coverage. Finally, in the
third paper we use data from web scraping to validate the reliability of the official
Russian CPI after the invasion of Ukraine in February 2022 and to evaluate the
impact of economic sanctions on Russian consumer prices. We find significant differences
in price dynamics following the invasion and consequent sanctions, and
we estimate that sanctions may have contributed to an average excess CPI level for
Russia of 11.7%. In conclusion, this thesis provides evidence of the web scraping
data potential for socio-economic research and practical guidelines for researchers
who plan to explore this new source of information.

I dati giornalieri ottenuti tramite web scraping consentono la generazione di
segnali ad alta frequenza con molteplici utilizzi potenziali nella ricerca, nell’ambito
aziendale e nella politica economica. Questa tesi fornisce una panoramica sul web
scraping da una prospettiva legale, etica e di gestione dei big data e include tre articoli
di ricerca. Nel primo proponiamo un indice geostatistico sfocato per misurare
l’ampiezza della raccolta dei dati, fornendo un’applicazione pratica per l’Indice
dei prezzi al consumo (IPC) utilizzando un dataset ottenuto dal web scraping geolocalizzato
per i prezzi dei generi alimentari in Italia. Mostriamo come l’indice
proposto sia robusto e possa essere utile per valutare il grado di copertura dei processi
di raccolta dati per l’IPC e in altri campi applicativi. Nel secondo articolo
valutiamo la capacità di nowcasting dei dati di prezzi ottenuti tramite web scraping
per prevedere l’evoluzione mensile dell’IPC in Italia e scomponiamo l’errore di
previsione in due componenti: l’errore del modello di previsione, ovvero quanto
le nostre previsioni differiscono dai dati effettivi, e l’errore di tracciamento, ovvero
quanto il nostro campione di dati differisce dall’IPC ufficiale. Dal punto di vista
metodologico, suggeriamo una tecnica per ridurre l’errore di tracciamento utilizzando
un vettore di pesi volto a compensare la nostra limitata copertura del territorio
nazionale. Infine, nel terzo articolo utilizziamo i dati ottenuti dal web scraping
per convalidare l’affidabilità dell’IPC ufficiale russo dopo l’invasione dell’Ucraina
nel febbraio 2022 e per valutare l’impatto delle sanzioni economiche sui prezzi al
consumo in Russia. Troviamo significative differenze nella dinamica dei prezzi a
seguito dell’invasione e delle conseguenti sanzioni e stimiamo che le sanzioni possano
aver contribuito a un livello medio di eccesso di IPC in Russia del 11,7%. In
conclusione, questa tesi fornisce evidenze sul potenziale dei dati ottenuti tramite
web scraping per la ricerca socio-economica e linee guida pratiche per i ricercatori
che intendono esplorare questa nuova fonte di informazioni.
Description: 
Dottorato di ricerca in Economia management e metodi quantitativi
URI: http://hdl.handle.net/2067/52035
Appears in Collections:Archivio delle tesi di dottorato di ricerca

Files in This Item:
File Description SizeFormat
lpalumbo_tesid.pdf26.93 MBAdobe PDFView/Open
Show full item record

Page view(s)

14
checked on Dec 7, 2024

Download(s)

43
checked on Dec 7, 2024

Google ScholarTM

Check


All documents in the "Unitus Open Access" community are published as open access.
All documents in the community "Prodotti della Ricerca" are restricted access unless otherwise indicated for specific documents