Ram-Logga2

Statistik
Ulla LembkePeter Lembke
Meny

Grön fyrkant Beräkna dina hålltider
Grön fyrkant Beräkna mellantider
Grön fyrkant WAVA ålderskalkylator
Grön fyrkant The McMillan Running Calculator

Siffror är kul. Jag för träningsbok, och det genererar en hel del siffror.
Har du sett statistiken på Stockholm marathon? Där går det att söka och få en lista med personer och resultat, sedan kan man gå in på personen och se alla personens resultat.

Grön fyrkant Tänk om man kunde ta alla tävlingar och göra så med. Vad coolt det skulle vara. Men oj vad mycket data. Det är nog lämpligt att begränsa sig lite. Vad sägs om att bara ta slutresultatet av alla ultralopp i sverige som är max 5 år gamla.

1. Vi behöver först säkra alla resulatlistorna.
2. Aj då, resultatlistorna presenterar data på olika sätt. Även samma tävling med olika årtal presenterar resultatet lite olika.
Vanligaste innehållet är EfterNamn, FörNamn, Klubb, Klass, Distans (på tidslopp) eller Tid (på distanslopp) (Obs även dagar). Vi sållar ut den datan.
3. Nu kan vi göra det enkelt för oss och skapa två extra kolumner med tävlingens namn och tävlingsdatum.
Nu kan alla resultaten lagras i en enda lång tabell. Fördel att det är enkelt och att vi helt slipper referenser till andra tabeller.
4. Nu kan vi söka på klubb, klass, loppnamn, årtal, distans, tid, förnamn, efternamn och kombinationer och delar av detta.
Vi bygger en sökfunktion och en snygg presentation av resultaten på webben.
5. Fortsätter sedan med svenska ultralopp som är äldre än 5 år.
6. Nu har vi fått upp ångan och letar upp alla svenskar som har sprungit ultralopp i utlandet och handskriver dem.
7. Alla nya lopp gör vi samma sak med så de också kommer in i databasen. Vid det här laget har det kommit en nationell standard på hur resultatlistor måste redovisas, nu säger det bara tjoff så kommer data in i databasen.

Tror du att det här är ett hästjobb?
Inte?

Statistik - Skit in skit ut
Eftersom jag gillar statistik känner jag till uttrycket "Skit in ger skit ut". Har du dåliga värden i ekvationen blir svaret väldigt dåligt. När det gäller löpning är det kvalitén på banmätningarna, tidtagningen, mellantiderna som ska vara exakta, men inte till överdrift.

Smutsig data
Vi vet vad vi heter. Hur många sätt kan man visa ett namn på?
Peter Lembke
Lembke Peter
Lembke, Peter
Och två varianter till där Peter och Lembke är i varsitt fält.
När data tas in i databasen måste all "smutsig data" tvättas och ordnas upp.
En klassiker på smutsig data är när man på jobbet skriver in mobilnummer i telefonrutan istället för i mobilrutan. Sedan får kunden inget SMS.

Gruppering av data
När det gäller gruppering av data är det viktigt att alla namn är identiska.
I det enkla fallet ovan har vi enbart en enda tabell för enkelhetens skull. Det förutsätter att alla namn och texter är rätt.
Exempel: Hur många poster i tabellen innehåller Tävling="Lilla Edet"?
Om någon post har "Lila Edet" kommer den inte att existera i beräkningen.
Normalt brukar man separera den sortens data i en separat tabell och ha ett unikt referensnummer istället. Då försvinner många problem men komplexiteten ökar lite.

Info om sidan