Please use this identifier to cite or link to this item:
http://hdl.handle.net/2067/52035
Title: | Web scraping data for socio-economic research | Authors: | Palumbo, Luigi | Keywords: | Web scraping;Consumer prices;Coverage;Fuzzy set theory;Nowcasting;Sanctions;SECS-S/03 | Issue Date: | 18-Sep-2023 | Publisher: | Università degli studi della Tuscia - Viterbo | Series/Report no.: | Tesi di dottorato. 35. ciclo; | Abstract: | Daily data obtained through web scraping allows for the generation of highfrequency signals with multiple potential uses in research, business, and policy. This thesis provides an overview on web scraping from a legal, ethical, and big data handling perspective and includes three research papers. In the first one we propose a geostatistical fuzzy index to measure the reach of data collection, providing a practical application for the Consumer Prices Index (CPI) using a dataset from geo-localized grocery prices web scraping in Italy. We show how the proposed index is robust and may be useful in evaluating the degree of coverage data collection processes beyond CPI. In the second paper we evaluate the nowcasting ability of web-scraped price data to predict the monthly CPI evolution for Italy, and we decompose the forecasting error into two components: prediction error – how much our predictions are different from the actual data – and tracking error – how much our data pattern is different from the official CPI. From a methodological point of view, we suggest a technique to reduce the tracking error using a vector of weights aimed to compensate our imperfect coverage. Finally, in the third paper we use data from web scraping to validate the reliability of the official Russian CPI after the invasion of Ukraine in February 2022 and to evaluate the impact of economic sanctions on Russian consumer prices. We find significant differences in price dynamics following the invasion and consequent sanctions, and we estimate that sanctions may have contributed to an average excess CPI level for Russia of 11.7%. In conclusion, this thesis provides evidence of the web scraping data potential for socio-economic research and practical guidelines for researchers who plan to explore this new source of information. I dati giornalieri ottenuti tramite web scraping consentono la generazione di segnali ad alta frequenza con molteplici utilizzi potenziali nella ricerca, nell’ambito aziendale e nella politica economica. Questa tesi fornisce una panoramica sul web scraping da una prospettiva legale, etica e di gestione dei big data e include tre articoli di ricerca. Nel primo proponiamo un indice geostatistico sfocato per misurare l’ampiezza della raccolta dei dati, fornendo un’applicazione pratica per l’Indice dei prezzi al consumo (IPC) utilizzando un dataset ottenuto dal web scraping geolocalizzato per i prezzi dei generi alimentari in Italia. Mostriamo come l’indice proposto sia robusto e possa essere utile per valutare il grado di copertura dei processi di raccolta dati per l’IPC e in altri campi applicativi. Nel secondo articolo valutiamo la capacità di nowcasting dei dati di prezzi ottenuti tramite web scraping per prevedere l’evoluzione mensile dell’IPC in Italia e scomponiamo l’errore di previsione in due componenti: l’errore del modello di previsione, ovvero quanto le nostre previsioni differiscono dai dati effettivi, e l’errore di tracciamento, ovvero quanto il nostro campione di dati differisce dall’IPC ufficiale. Dal punto di vista metodologico, suggeriamo una tecnica per ridurre l’errore di tracciamento utilizzando un vettore di pesi volto a compensare la nostra limitata copertura del territorio nazionale. Infine, nel terzo articolo utilizziamo i dati ottenuti dal web scraping per convalidare l’affidabilità dell’IPC ufficiale russo dopo l’invasione dell’Ucraina nel febbraio 2022 e per valutare l’impatto delle sanzioni economiche sui prezzi al consumo in Russia. Troviamo significative differenze nella dinamica dei prezzi a seguito dell’invasione e delle conseguenti sanzioni e stimiamo che le sanzioni possano aver contribuito a un livello medio di eccesso di IPC in Russia del 11,7%. In conclusione, questa tesi fornisce evidenze sul potenziale dei dati ottenuti tramite web scraping per la ricerca socio-economica e linee guida pratiche per i ricercatori che intendono esplorare questa nuova fonte di informazioni. |
Description: | Dottorato di ricerca in Economia management e metodi quantitativi |
URI: | http://hdl.handle.net/2067/52035 |
Appears in Collections: | Archivio delle tesi di dottorato di ricerca |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
lpalumbo_tesid.pdf | 26.93 MB | Adobe PDF | View/Open |
All documents in the "Unitus Open Access" community are published as open access.
All documents in the community "Prodotti della Ricerca" are restricted access unless otherwise indicated for specific documents