2 research outputs found
Transportation data analysis. Advances in data mining and uncertainty treatment
2010/2011Nello studio dei sistemi di trasporto lâacquisizione e lâutilizzo di informazioni corrette e aggiornate sullo stato dei sistemi rappresentano da sempre elementi di centrale importanza per la produzione di analisi adeguate ed affidabili. Sfortunatamente in molti ambiti applicativi le informazioni disponibili per le analisi sono invece spesso carenti o di bassa qualitĂ , e il loro utilizzo si traduce in risultati affetti da elevata incertezza e talvolta di dubbia validitĂ .
I processi di evoluzione tecnologica che interessano campi quali lâinformatica, lâelettronica e le telecomunicazioni stanno rendendo progressivamente piĂš semplice e conveniente lâacquisizione di rilevanti quantitĂ di dati di interesse per le analisi trasportistiche, sia tradizionalmente raccolti per studi trasportistici (ad esempio dati di traffico rilevati su tronchi stradali) sia non direttamente connessi ad un uso trasportistico (ad esempio segnali Bluetooth e GPS provenienti da dispositivi di telefonia mobile).
Tuttavia in molti casi lâampia disponibilitĂ di dati, soprattutto nel secondo caso, non si traduce in immediata spendibilitĂ applicativa. I dati sono infatti spesso disomogenei dal punto di vista informativo, caratterizzati da una qualitĂ non necessariamente elevata e spesso richiedono onerosi processi di verifica e validazione. In questi particolari contesti lâapplicazione di tecniche di Data Mining può dimostrarsi una soluzione indubbiamente vantaggiosa. Esse infatti, per loro intrinseca natura, rendono possibile la gestione efficace di grandi quantitĂ di dati e la produzione di risultati sempre piĂš robusti allâaumentare delle dimensioni della base di dati disponibile.
Sulla base di queste considerazioni questo lavoro di tesi si è concentrato in primo luogo su unâattenta revisione delle piĂš consolidate tecniche di Data Mining, individuando gli ambiti applicativi, nel campo dei trasporti, in cui esse possono rappresentare dei validi strumenti di analisi.
Con il termine Data Mining si fa riferimento al processo di estrazione dellâinformazione presente in un certo insieme di dati, finalizzato ad individuare relazioni ânascosteâ nei dati stessi o comunque a sintetizzare in modalitĂ nuove la visione su di essi. Esso rappresenta una parte di un piĂš ampio processo di estrazione della conoscenza, che inizia con unâaccurata selezione e trasformazione dei dati disponibili (come detto i dati sottoposti a âminingâ sono spesso raccolti con altri obiettivi) e si conclude con unâattenta interpretazione e valutazione dei risultati. Uno schema di classificazione generalmente accettato suddivide le tecniche di Data Mining in sei categorie in rapporto alla funzione considerata: stima (reti neurali, modelli di regressione, alberi decisionali), previsione (reti neurali, alberi decisionali), classificazione (k-nearest neighbour, alberi decisionali, reti neurali), raggruppamento (tecniche di clustering, Self-Organising-Maps), associazione (regole di associazione) e descrizione (regole di associazione, clustering, alberi decisionali).
Nel presentare un quadro dâinsieme dellâampia letteratura esistente in materia, uno specifico rilievo è stato dato alle piĂš consolidate tecniche di classificazione, raggruppamento e associazione, in quanto maggiormente impiegate nei diversi contesti applicativi.
Successivamente è stato tracciato uno stato dellâarte per ciò che attiene le applicazioni in ambito trasportistico. In tal senso la revisione dei lavori prodotti ha evidenziato la notevole flessibilitĂ dâuso di queste tecniche e la loro crescente diffusione applicativa. Molti sono infatti i filoni di ricerca che hanno beneficiato di queste tecniche innovative; tra questi nel lavoro di tesi si sono evidenziati alcuni tra i piĂš interessanti: la previsione a breve termine dei flussi di traffico da dati storici o in real-time (traffic forecasting), lâidentificazione e la quantificazione dei fattori che influenzano i fenomeni di incidentalitĂ , lâanalisi di sistemi di gestione delle pavimentazioni stradali e di sistemi di monitoraggio del traffico.
La seconda parte della tesi si è invece focalizzata su unâapplicazione delle tecniche di Data Mining allo studio del funzionamento di un sistema viario, attraverso una revisione critica della Procedura FHWA (Federal Highway Administration) per il monitoraggio del traffico stradale. La scelta di questo filone di ricerca è data dal fatto che la raccolta di informazioni sui volumi di traffico è un aspetto rilevante nellâattivitĂ di pianificazione dei trasporti (ambito stradale), quale componente significativa del processo conoscitivo. Dâaltra parte i costi legati alla gestione dei sistemi di monitoraggio, sia per attrezzature che per personale, richiedono una crescente attenzione alla loro progettazione, al fine di ottenere la massima qualitĂ dei risultati.
Negli Stati Uniti la FHWA definisce periodicamente alcune linee guida per migliorare questi aspetti attraverso la Traffic Monitoring Guide (2001) e ha raggiunto progressivamente un ruolo di riferimento per altre agenzie dello stesso tipo in altre parti del mondo, Italia compresa. Tale procedura è basata sullâuso congiunto di rilievi di diversa durata (rilievi in continuo con strumenti fissi e rilievi di breve durata con apparecchiature portatili) ed è finalizzata principalmente alla stima del Traffico Giornaliero Medio Annuo (Annual Average Daily Traffic, AADT).
Lâanalisi della letteratura esistente ha individuato la lacuna principale della procedura FHWA nella determinazione dei gruppi tipologici di strade sulla base dei profili temporali di traffico e nellâassegnazione delle sezioni monitorate con rilievi di breve durata a questi gruppi. Lâapproccio elaborato si è pertanto posto lâobiettivo di migliorare la procedura relativamente a questi due aspetti rilevanti.
Per trattare lâesistenza di situazioni di incerta attribuzione di una sezione stradale ad un certo gruppo tipologico, specie quando non è semplice fornire una chiara definizione in termini trasportistici (ad esempio strada âpendolareâ o âturisticaâ), sono state adottate tecniche di Fuzzy Clustering, garantendo unâopportuna trattazione formale del problema. Per quanto concerne il secondo aspetto, le sezioni non monitorate in continuo vengono inserite nel gruppo tipologico piĂš simile rispetto ai profili temporali di traffico osservati. Per effettuare lâassegnazione di queste sezioni ai gruppi tipologici, lâapproccio proposto ha utilizzato una Rete Neurale Artificiale, opportunamente progettata per mantenere lâincertezza presente nella fase di creazione dei gruppi fino alla fine del processo. Lâoutput della rete è infatti rappresentato dallâinsieme delle probabilitĂ di appartenenza del rilievo di breve durata ai diversi gruppi tipologici ed è interpretato utilizzando la teoria di Dempster-Shafer. Le misure di incertezza associate allâoutput (indici di non-specificitĂ e discordanza) permettono di descrivere sinteticamente la qualitĂ dellâinformazione disponibile.
Lâapproccio proposto è stato implementato considerando i dati di monitoraggio provenienti dal programma SITRA (Sistema Informativo TRAsporti) della Provincia di Venezia. Rispetto allâambito applicativo di interesse è stata verificata la validitĂ dellâapproccio, confrontando i risultati ottenuti nella stima dellâAADT con precedenti approcci proposti in letteratura. Lâanalisi comparativa dei risultati ha permesso di rilevare una migliore accuratezza delle stime e soprattutto la possibilitĂ , assente nei precedenti approcci, di evidenziare eventuali carenze informative (dovute allâesiguo numero di dati) e la necessitĂ di procedere con ulteriori rilievi di traffico. I risultati positivi ottenuti in questa fase sperimentale hanno permesso di avviare il progetto per la realizzazione di uno strumento software di immediata spendibilitĂ applicativaIn the study of transportation systems, the collection and the use of correct information of the state of the system represent a central point for the development of reliable and proper analyses. Unfortunately in many application fields information is generally obtained using limited, scarce and low-quality data and their use produces results affected by high uncertainty and in some cases low validity.
Technological evolution processes which interest different fields, including Information Technology, electronics and telecommunications make easier and less expensive the collection of large amount of data which can be used in transportation analyses. These data include traditional information gathered in transportation studies (e.g. traffic volumes in a given road section) and new kind of data, not directly connected to transportation needs (i.e. Bluetooth and GPS data from mobile phones).
However in many cases, in particular for the latter case, this large amount of data cannot be directly applied to transportation problems. Generally there are low-quality, non-homogeneous data, which need time consuming verification and validation process to be used. Data Mining techniques can represent an effective solution to treat data in these particular contexts since they are designed to manage large amount of data producing results whose quality increases as the amount of data increases.
Based on these facts, this thesis first presents a review of the most well-established Data Mining techniques, identifying application contexts in transportation field for which they can represent useful analysis tools. Data mining can be defined as the process of exploration and analysis which aims to discover meaningful patterns and ââhiddenââ rules in the set of data under analysis. Data Mining could be considered a step of a more general Knowledge Discovery in Databases Process, which begins with selection, pre-processing and transformation of data (âminedâ data are generally collected for reasons different from the analysis) and is completed with the interpretation and evaluation of results. A classification scheme generally accepted identifies six categories of DM techniques, which are related to the objective one would achieve from the analysis: estimation (neural networks, regression models, decision trees), prediction (neural networks, decision trees), classification (k-nearest neighbor, decision trees, neural networks), clustering (clustering techniques, Self-Organizing-Maps), affinity grouping or association (association rules) and profiling (association rules). In the review of the wide literature concerning Data Mining methods, particular attention has been devoted to the well-established technique of clustering, classification and association, since they are the most applied in different application contexts.
The literature review process has been further extended to Data Mining applications in the transportation field. This review highlights the great flexibility of use of these techniques and the increasing number of applications. Many research topics have taken advantages of these innovative tools and some of them are presented due to their interest: short-term traffic flow forecasting from historical and real-time data, identification and quantification of factor risks in accident analysis, analysis of pavement management systems and traffic monitoring systems.
The second part of the thesis has focused on the application of Data Mining techniques to road system analysis, through a critical review of U.S. Federal Highway Administration (FHWA) traffic monitoring approach. The choice of this topic is due to the fact that traffic monitoring activities represent a relevant aspect of highway planning activities, as a part of the knowledge process. However data collection activities produce relevant management costs, both for equipment and personnel, therefore monitoring programs need to be designed with attention to obtain the maximum quality of results.
In the U.S.A., the Federal Highway Administration (FHWA) provides guidance for improving these aspects by way of its Traffic Monitoring Guide (TMG) (FHWA, 2001), which has a reference role for other similar agencies in the world. The FHWA procedure is based on two types of counts (short duration counts taken with portable traffic counters and continuous counts taken with fixed counters) and has the main objective of determine the Annual Average Daily Traffic (AADT).
Critical review of literature on this topic has pointed out that the most critical aspects of this procedure are the definition of road groups based on traffic flow patterns and the assignment of a section to a road group using short counts. The proposed approach has been designed to solve both issues.
The first issue is related to situations for which road section could belong to more than one road group, and the groups cannot be easily defined in transportation terms, (e.g. âcommuter roadâ, ârecreational roadâ). The proposed approach introduces Fuzzy Clustering techniques, which adopt an analytical framework consistent with this kind of uncertainty. Concerning the second issue, road sections monitored with short counts are assigned to the road group with more similar traffic patterns. In the proposed approach an Artificial Neural Network is implemented to assign short counts to roads groups. The Neural network is specifically designed to maintain the uncertainty related to the definition of road groups until the end of the estimation process. In fact the output of the Neural Network are the probabilities that the a specific short counts belongs to the road groups. These probabilities are interpreted using the Dempster-Shafer theory; measures of uncertainty related to the output (indices of non-specificity and discord) provide an assessment of the quality of information in a synthetic manner.
The proposed approach have been implement on a case study, using traffic data from SITRA (Sistema Informativo TRAsporti) monitoring program of the Province of Venice. In this specific context the approach has been validated and the results obtained (AADT estimates) from the proposed method have been compared with those obtained by two approaches proposed in previous studies. The comparative analysis highlights that the proposed approach increases the accuracy of estimates and gives indication of the quality of assignment (depending on sample size) and suggests the need for additional data collection.
The positive results obtained in the experimental phase of the research have led to the design of a software tool to be used in next future in real world applications.XXIV Ciclo198