1/
Dit draadje gaat over de wet van Benford en hoe je met deze wetmatigheid kunt controleren of data zijn gemanipuleerd of een natuurlijke oorsprong hebben.
Wikipedia deel 1: De wet van Benford beschrijft de frequentieverdeling van het begincijfer van getallen in grote dataverzamelingen waarin een beperkte mate van stochasticiteit optreedt.
Wikipedia deel 2: De wet van Benford werd in 1881 ontdekt door de Amerikaanse wiskundige en astronoom Simon Newcomb, maar kreeg grote bekendheid door de herontdekking en publicaties in 1938 van Frank Benford
Wikipedia deel 3: In 1938 publiceerde Benford een artikel in een wetenschappelijk tijdschrift, waarin hij het verschijnsel beschrijft dat in veel verzamelingen van getallen uit het normale leven (maar niet allemaal) de meeste van die getallen met een 1 beginnen.
Wikipedia deel 4: Minder getallen beginnen met een 2 en de minste met een 9. Dit wijst erop dat de kans om begincijfer te zijn niet voor alle cijfers van 1 tot en met 9 hetzelfde is.
De wetmatigheid van Benford is eigenlijk best simpel. Als je een data set met getallen hebt, kijk je alleen naar het eerste getal van de getallen uit de dataset. Voorbeeld: 10, 24, 55, 33, 121, 9, 400 zou worden: 1, 2, 5, 3, 1, 9, 4
Op deze manier kun je dus verschillende data (bijna alle data!) controleren op fraude.
- Mocht je Netflix hebben raad ik aan de aflevering Digits van de serie Connected te kijken, dit is een makkelijke begrijpelijke uitleg over de wet van Benford. -
Waarom begin ik over de wet van Benford in Corona tijd? Nou simpel. Als je naar de data van het RIVM omtrent Corona kijkt en je past daar de wet van Benford op toe, gaat het niet via de wet van Benford, oftewel de data is niet natuurlijk maar gefabriceerd / gemanipuleerd.
Ik heb ongeveer 2 maanden lang iedere dag een update op Twitter gegeven met statistieken afkomstig van het #RIVM. Als ik deze nu met terugwerkende kracht volgens de wet van Benford controleer klopt het niet en ziet het er zo uit 👇🏻
Mocht je denken dit is wel heel raar, probeer het zelf eens uit met bijvoorbeeld de eerste 20 transacties op je bankrekening. (Let op als de transactie begint met een 0, dan geld het eerste getal dat geen 0 is van die transactie.)
Je zult verbaast zijn dat dit altijd klopt.