Toen ik begon als PhD was ik van twee dingen overtuigd: 1) Onzekerheid op voorspellingen modelleren is niet eenvoudig. 2) Dit kan enkel op een Bayesiaanse manier.
Dit idee is zo sterk verspreid binnen de statistiek en datawetenschappen dat het wel waar moet zijn. Of niet? (2/n)
Gelukkig leerde ik al vrij snel een alternatief kennen. Het idee achter "Conformal prediction" is zo simpel als het maar kan zijn: je berekent de fouten op wat validatiedata en kiest bijvoorbeeld het 90%-kwantiel. (3/n)
Als predictie-intervallen (de betrouwbaarheidsintervallen voor nieuwe voorspellingen) neem je nu alle waarden die hoogstens zo veel afwijken van jouw voorspelling als het gekozen kwantiel en het blijkt dat dit correct zal zijn in 90% van de gevallen. (4/n)
In tegenstelling tot andere methodes levert conformal prediction dus intervallen op die statistici als correct zouden aanzien + in tegenstelling tot het Bayesiaanse framework, waar je al een goed idee van de verdeling moet hebben, heb je hier nauwelijks veronderstellingen. (5/n)
Het enige dat je moet weten is dat de volgorde van de data geen betekenis heeft (dit omvat dus bijna elk soort data op tijdreeksen na). Bovendien is het computationeel veeeel eenvoudiger dan de numerieke nachtmerrie van Bayesiaanse modellen. (6/n)
Wil je wat meer weten en eens zien hoe dit framework zich verhoudt tot bestaande modellen? Lees dan onze paper arxiv.org/abs/2107.00363 of volg @predict_addict (7/n, n=7)
• • •
Missing some Tweet in this thread? You can try to
force a refresh
A translation of my first thread for the general public out there. I will talk about how to correctly, yet efficiently model the uncertainty on predictions (for example in machine learning). (1/n)
When I started as a PhD I was convinced of two things: 1) Modelling uncertainty is hard, and 2) The only viable approach is the Bayesian one.
This idea is so strongly ingrained in the statistical literature and data science community that it must be true, right? (2/n)
The answer is no and luckily I quickly learned of a great alternative. The idea behind "Conformal prediction" is as simple as possible: You calculate the errors on a holdout dataset and choose, for example, the 90% quantile. (3/n)