Profile picture
Ondřej Kokeš @kondrej
, 27 tweets, 4 min read Read on Twitter
Pojďme si ukázat rozdíl mezi teorií a praxí. V teorii nám stát dává spoustu otevřených dat. Ale použitelnost v praxi je trochu jiná. (Velká spousta tweetů bude následovat.) #opendatacz
Třeba obchodní rejstřík. Zajímá vás OKD a celá jeho historie, račte sem - MFČR vám to dá strojově zpracovatelné. A zkuste v URL změnit tu nulu na konci na jedničku (plná historie). Už 3 měsíce to nejde stáhnout. wwwinfo.mfcr.cz/cgi-bin/ares/d…
Dobře, čert vem OKD, chci prostě skoro všechna ostatní data... super, to API použiju. Potřebuju prvně seznam IČO (dá se sehnat několika způsoby, pokud víte kde hledat), pak ale ono API... je brutálně pomalé. OK, napíšu skript, který prostě počká.
Jenže to API je nejen pomalé, ale má limity, 60 tisíc entit denně. Máme cca milion obchodních společností, to je nějakých 17 dní stahování (v naprosto ideálním případě). Supr, bývalo to půl roku.
OK, máme staženo, co s tím, je to hromada komplexních XML s dokumentací v podobě XSD, tedy strojově čitelná "dokumentace", nic moc pro lidi.
Pak si řeknete - Ondra je pitomec, dyk MFČR má opendata, celý rejstřík ke stažení*!

* Celý bez dat narození angažovaných osob, takže v praxi vám bude dost k prdu. Ale aspoň je tam celkem dobrej seznam IČO.
Co když nechcete rejstřík, stačí vám základní info o firmách (sídlo, NACE, vznik, zánik, ...). Supr, je tu RES, registr ekonomických subjektů. Dejte tam opět OKD... nenalezeno, protože RES od nedávna přestal zobrazovat data pro firmy víc jak 4 roky zaniklé.
Takže hodně štěstí při párování na stará transakční data. Tam jsou totiž i staré firmy, žejo.
OK, rejstřík bychom nějak měli, jdem na faktická data. Dotace! OK, je tu CEDR, DotInfo, MMR, možná ještě něco.
CEDR jsou takové gigantické normalizované tabulky. Bude vám chvíli trvat se v tom vyznat, ale aspoň to má jakousi dokumentaci. Je to ale technická dokumentace, takže jednotlivé sloupečky dat nevykoukáte.
Můžu vám dát mail na velmi ochotnou paní, která vám to vysvětlí. Ten kontakt mi dal kamarád z VŠ. Hodně štěstí bez něj.
Dobře, čert vem CEDR, máme tu DotInfo. To má... rok starý datový export. A ta data nejdou celá naparsovat (špatně se to vydumpovalo z nějakého SAP). OK, je to aspoň Excel, tak to jde celkem snadno. A proč vlastně je CEDR a DotInfo paralelně? Liší se?
Si piš! Věnovalo se tomu i NKÚ, je v tom neskutečný bordel. Udělej si sumu přijatých dotací per firma/rok, najoinuj ty dva datasety a bude humor, jsou to jiný světy.
OK, furt tu máme MMR a jejich evropský fondy, ty jsou v novinách každej den, takže ty budou cajk, ne?

Hehehe.
Data jsou ve formě Excelu, takže se to dá zpracovat, ale jednotlivý dotační období maj úplně jinej Excel - to vč. formátu souboru, ale hlavně co se týče schématu. Jo a to schéma se mění z měsíce na měsíc. Protože proč ne?
Jo a v těhle zabordelenejch souborech je veřejná evidence pro skoro 100 miliard ročně.
Dotace mě nezajímaj, já chci třeba smlouvy. Hm, tady je to trochu lepší. Máme tu exporty od MVČR, denní, je to celkem rychlý (byť to odmítaj komprimovat, takže to trvá věčnost, ale menší věčnost než ARES).
Snad ti nevadí XML (to nesmí, v open datech je všude), protože tady si ho užiješ. A jakmile to naparsuješ, tak zjistíš, že z hlediska kvality dat je registr smluv minové pole.
Zakázka za sto korun (která měla být za sto tisíc), záporné sazby DPH, neexistující IČO, dodatky smluv nerozpoznatelné jako dodatky (takže duplikujou částky v sumách) atd. To je denní chleba.
A zodpovědný lidi to nezajímá. Teda pardon, ono je těžký dopátrat zodpovědný lidi, moc se k tomu nemaj. On to totiž někdo vymyslel, někdo provozuje a pod někoho to patří. Takže na email ti odpověděj něco ve smyslu "Tohle neni v naší gesci, čus bus"
Smlouvy mě nezajímaj, chci zakázky. OK, a chceš VZ pro zákon č. 134/2016 Sb., nebo snad 137/2006 Sb. Nebo tě zajímaj zakázky z eTržišť? A nebo snad profily zadavatele? Že nevíš co cokoliv z toho znamená? Si dostuduj.
Ještě bych rád kouknul na výsledky voleb, tam budou informace k lidem, stranám, to mi pomůže.
OK, a jak starý volby? Protože v open datech jsou jen za posledních 12 let. A opendatama myslim XML. A DBF (LOL). Jo a schémata se mění.
Tohle je jen pár příkladů toho, jak je práce s open datama minový pole. Tyhle špatnosti na vás číhaj všude možně. A to už jste docela daleko, vy jste ta data totiž vůbec museli prvě najít, to taky neni automatický.
A neni automatický, že vůbec existujou. Na spoustu datasetů jsme čekali dlouhé roky. A často to šlo přes soudy (moje nekonečný díky lidem jako je Honza Cibulka).
Takže data existujou, vy jste je našli, nějakym způsobem zpracovali... ale pak vás čeká to nejtěžší - pochopit podstatu těch dat, jaký mají vztah k jiným datům, jaké jsou významy jednotlivých položek atd. atd. A to zpravidla nikde není.
Takže hodně štěstí, tahle práce je fakt k prdu. Ale já ji mám nějakym způsobem rád.
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Ondřej Kokeš
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member and get exclusive features!

Premium member ($30.00/year)

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!