En jämförelse av maskininlärningsalgoritmer för uppskattning av cykelflöden baserat på cykelbarometer- och väderdata

DSpace Repository

En jämförelse av maskininlärningsalgoritmer för uppskattning av cykelflöden baserat på cykelbarometer- och väderdata

Show full item record

Files for download

Facebook

Simple item record

Publication Bachelor thesis
Title En jämförelse av maskininlärningsalgoritmer för uppskattning av cykelflöden baserat på cykelbarometer- och väderdata
Author(s) Aspegren, Sebastian ; Dahlström, Jonas
Date 2016
English abstract
Context. Machine Learning Algorithms can be used to make predictions based on a va- riety of data. We use data from a bicycle barometer located at a bike path in Malmö in our research. This barometer counts the number of passing bikes per day. Together with weather data, consisting of temperature and precipitation, we compare the accuracy of the algorithms to estimate the number of cyclists. In this study we implement and test a variety of machine learning algorithms that are available in the software Weka. We rely on previous research in order to identify which algorithms are best suited for our type of data. We will then select the three algorithms with the best accuracy and examine them closer. Goal. The goal of the study is to identify the machine learning algorithm that provides the most reliable results to estimate the number of cyclists using our bicycle barometer- and weather data. Methods. We process the data from the bicycle barometer and weather station to filter out days that can distort the results. Examples of data that we filter out are public holidays and school holidays. With the filtered data we implement three different machine learning algorithms to estimate the number of bicyclists who will pass the barometer in the near future. The results from the algorithms are then used to compare and see which algorithm that makes the most reliable estimate of the current application. Results. According to our results, the Random SubSpace and Bagging methods are the superior algorithms to estimate the cycle flow. These algorithms provide the best results in all of our experiments. The results differ beyond those two algorithms but on average Wekas REPTree algorithm is the third most accurate. The variable that contributes the most to our estimate of cyclists is date. Without the date predictor the correlation is reduced to half compared to the other experiments. However, when we eliminate the temperature predictor the correlation increases. Analysis. We have found a correlation between dates and bicycle flows. In addition we have been able to estimate the cycle flows, depending on date and weather. We did not expect that the variable temperature makes it harder for algorithms to estimate the number of cyclists. We assume that this is because people choose to cycle by date instead of the temperature.
Swedish abstract
Kontext. Maskininlärningsalgoritmer kan användas för att göra förutsägelser baserat på en mängd data. Vi använder oss utav data ifrån en cykelbarometer lokaliserad vid en cy- kelväg i Malmö i vår forskning. Denna barometer räknar antalet förbipasserande cyklar per dag. Tillsammans med väderdata, som består av temperatur och nederbörd, jämför vi precisionen hos algoritmer för uppskattning av antalet cyklister. I denna studie imple- menterar vi och testar en mängd olika maskininlärningsalgoritmer som finns tillgängliga i programvaran Weka. Vi tar hjälp av tidigare forskning inom ämnet för att identifiera vilka algoritmer som lämpar sig bäst för vår typ av data. Vi väljer sedan ut de tre algoritmer med bäst träffsäkerhet och undersöker dessa närmare. Mål. Målet med studien är att vi ska få fram vilken maskininlärningsalgoritm som ger det mest tillförlitliga resultatet för att uppskatta antalet cyklister med hjälp av vår cykel- barometer- och väderdata. Metoder. Vi bearbetar datan ifrån cykelbarometern och väderstationen för att filtrera bort dagar som kan förvränga resultatet. Exempel på data som vi filtrerar bort är helgdagar och skollov. Med den filtrerade datan implementerar vi ett flertal maskininlärningsalgorit- mer för att uppskatta antalet cyklister som kommer att passera barometern under en nära framtid. Resultaten ifrån algoritmerna använder vi för att jämföra och se vilken algoritm som ger den mest tillförlitliga uppskattningen för den aktuella tillämpningen. Resultat. Enligt våra resultat är Random SubSpace och Bagging de överlägsna algorit- merna för att uppskatta cykelflöde. I samtliga av våra experiment åstadkommer dessa två bättre resultat än övriga algoritmer som finns tillgängliga i Weka. Resultaten därefter skil- jer sig från experiment till experiment men i genomsnitt är Wekas REPTree-algoritm den tredje mest precisa. Variabeln som bidrar mest till vår uppskattning av antalet cyklister är datum. Utan denna variabel reduceras korrelationen till hälften för samtliga algoritmer. När vi avlägsnar temperatur-variabeln presterar däremot algoritmerna bättre genom att ge högre korrelation. Analys. Vi har hittat en korrelation mellan datum och cykelflöden samt kunnat förutsäga cykelflöden beroende på datum och väder. Vi förväntade oss inte att variabeln temperatur gör det svårare för algoritmer att uppskatta antal cyklister. Vi antar att detta beror på att människor väljer att cykla efter datum istället för temperatur.
Publisher Malmö högskola/Teknik och samhälle
Pages 27
Language swe (iso)
Subject(s) Data Mining
Algorithm comparison
Estimation
Handle http://hdl.handle.net/2043/21194 (link to this page)

This item appears in the following Collection(s)

Show full item record

Search


Browse

My Account

Statistics