Existem várias razões de ser difícil compreender os fenômenos que observamos, muita razões para nem sempre as coisas serem o que parecem. Hoje vou falar de TRÊS coisas relacionadas a essa dificuldade. Pronto para mais um fio 🧶de #DataScience #Statistics #Science? 😃🥳 1/20
2/20 Talvez o mais óbvio sejam variáveis latentes ou ñ observadas/medidas. Em muitos casos, independente da quantidade de dados q vc observar sobre 2 eventos, você seguirá vendo uma correlação q fará você achar que um evento está causando o outro. Em uma determinada região, por
3/20 exemplo, foi observado q quando o consumo de sorvete aumentava, mais pessoas morriam por ataques de tubarão e acidentes em piscinas. Quando o consumo de sorvete caía, menos pessoas morriam por ataques de tubarão e acidentes em piscina. Nenhuma quantidade de dados sobre
4/20 estes 2 eventos mudaria isso. Pelo contrário, a tendência c/ + dados é q o seu p-valor ficasse bem menor e sua crença de q essa correlação implica em causalidade maior (o q é uma falácia argumentativa chamada cum hoc ergo propter hoc, ou seja, achar q 2 eventos acontecendo
5/20 sempre juntos, significa q um causa o outro). O problema aqui é q tem uma terceira variável q não medimos e, ao ignorá-la, ficamos inclinados a achar que de fato há uma relação direta entre consumo de sorvete e esses acidentes “aquáticos”. Essa terceira variável latente, ñ
6/20 medida, é a temperatura. Quanto mais quente, maiores as chances do consumo de sorvete aumentar, e maiores as chances das pessoas irem se banhar em piscinas e na praia. Mais frio? Menos provável, para ambos. É esperado q + acidentes ocorram quando muitas pessoas vão à praia,
7/20 do que quando pouquíssimas vão. Se você calculasse a probabilidade conjunta entre consumo de sorvete e cada um desses dois outros eventos (acidentes com tubarão ou em piscinas), dado a temperatura, você iria observar que elas são independentes. Ou seja, P(A,B|C) = P(A)P(B).
8/20 Existir uma variável latente que tem efeito causal nas variáveis que você mediu costumam ser responsáveis por inferências enviesadas, isto é, estudos encontrando resultados que estão equivocados. Isso chama-se efeito confundidor. Esse é o nosso primeiro problema.
9/20 O segundo problema se trata de amostragem. Ele ocorre quando queremos inferir características de uma população com base em uma amostra dessa população, ou seja, uma seleção de indivíduos, e essa seleção não é representativa dessa população. O q eu quero dizer c isso? Imagine
10/20 que eu quero descrever o número de quartos nas residências brasileiras e como é inviável checar a casa de todos os brasileiros, eu faço uma seleção de 10.000 residências. No entanto, por várias razões, é possível que essas 10.000 residências não sejam representativas
11/20 da residência brasileira média. Digamos que eu fiz a medição apenas em capitais, em casas de famílias de renda média alta ou alta e assim por diante. Isso me levará a inferir adequadamente informações sobre ESSES INDIVÍDUOS, mas por não ter identificado esse viés de seleção
12/20 eu irei reportar que essas características são do brasileiro médio. Em alguns casos, isso é óbvio, como nesse caso imagino que seria. Em outros casos, isso é muito mais complicado. Em um estudo clínico, por exemplo, ao acaso pode ocorrer que meus pacientes em um grupo sejam
13/20 todos ex-fumantes. Já existem relatos na literatura sobre ser comum ex-fumantes não reportarem que são ex-fumantes e coisas do tipo. Non-compliance também é um problema sério, que é quando o paciente não segue as instruções dos pesquisadores. Podemos também ter situações
14/20 onde nem o paciente sabe que tem alguma outra doença e os pesquisadores também não saibam que isso influenciaria o resultado do estudo em andamento. Nosso segundo problema, portanto, é a seleção enviesada de indivíduos para o estudo.
15/20 O terceiro problema são erros de medição, ruído e coisas do tipo. Aqui, eu gostaria de trazer algo bem interessante e que de certo modo já faz parte da cultura popular. A teoria do caos! Um sistema caótico é aquele que é muito sensível às condições iniciais. Isso significa
16/20 q imprecisão de poucas casas decimais podem nos levar a resultados absurdamente diferentes. Vc mediu as variáveis do seu estudo c/ 6 casas decimais, 5,234611 por exemplo, e pensou: wow, isso que é precisão!! Mas, caso você esteja tratando de um sistema caótico
17/20 uma imprecisão muito pequena pode ser suficiente p/ vc encontrar resultados absurdamente diferentes. É esse tipo de coisa assustadora que faz parecer que sistemas caóticos são estocásticos, isto é, aleatórios. SÓ QUE NÃO! Eles são determinísticos 😃 A questão é medir com a
18/20 precisão necessária p/ ser possível fazer a predição. Observe os dois gráficos de um pêndulo duplo. Uma pequena variação nas condições iniciais fazem o comportamento ser bastante diferente. Uma das primeiras pessoas a se deparar com esse tipo de problema foi Isaac Newton e
19/20 em uma carta p/ um colega ele confessou q esse problema fazia sua cabeça doer e q ele iria apenas parar de pensar nisso hehehe. Esse é o nosso terceiro problema, imprecisão na medição! Existem várias razões para imprecisões, assim como para os outros problemas. Entenda esse
20/20 fio como 1 pincelada básica nesses 3 problemas. (1) Dificuldade em medir todas as variáveis, (2) dificuldade em medir todos os indivíduos e (3) dificuldade em fazer as medições com a precisão necessária. Ninguém disse que seria fácil fazer ciência, né? 😅 Mas vale a pena!!!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Marcel Ribeiro-Dantas 👨🏻‍💻

Marcel Ribeiro-Dantas 👨🏻‍💻 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @mribeirodantas

3 Jun
1/10 Ontem, a Academia Brasileira de #Ciências #ABC transmitiu a nona edição de seu webinário "O mundo a partir do #coronavírus" com a temática: "Modelos computacionais e isolamento social" #COVID19. O Prof. Dr. Cesar Victora abriu com uma palestra de ~15min c/ o título
2/10 "Epidemiologia da COVID-19 na população brasileira". Faço aqui um resumo c/ informações chaves trazidas pelo Prof. Victora. Ele apresenta os resultados de estudos (todos em preprint, 1 já aceito na Nature Medicine) onde se analisa dados de prevalência do COVID-19
3/10 no Brasil (medrxiv.org/content/10.110…). O projeto foi financiado pelo @iserrapilheira, @minsaude, dentre outras instituições, assim como parceria com várias universidades do Rio Grande do Sul. O primeiro resultado alarmante que ele traz é o de Breves, na Ilha de Marajó, com 25%
Read 13 tweets
8 May
1/6 Olha, eu já adianto que vou ser um pouco evasivo com relação a essa pergunta por não ser da área de epidemiologia, e por respeitar os profissionais envolvidos que tem décadas de experiência na área, talvez mais tempo de experiência na área do que eu de vida. O primeiro ponto
2/6 que eu acho importante dar ênfase é que modelos são úteis, mas ñ são objetos de clarividência. Devem nos guiar, e do mesmo modo que precisam ser feitos com responsabilidade, eles precisam ser interpretados com responsabilidade. Muita gente ama os reports do IC quando
3/6 gosta dos resultados (caos), e faz vista grossa qndo não é o caso. Saiu uma carta publicada na Science (tweet abaixo) onde se fazia chamado para transparência. Isso é fundamental, mais do que nunca! Ñ da para criar políticas públicas sem transparência
Read 6 tweets
26 Apr
Durante essa pandemia, tenho produzido conteúdo de divulgação científica, tutoriais técnicos e análises técnicas voltadas à COVID-19. Nessa thread vou reunir em um só lugar essas produções para facilitar quem está atrás de leituras com esse escopo. #COVID19 #pandemia #SARSCoV2
À convite do @datahackersofic, participei de uma conversa super legal em um episódio do podcast deles junto com o Pedro Gemal, médico e CTO da @PEBmed, sobre Data Science em saúde e acabamos falando um pouco sobre COVID19. medium.com/data-hackers/h…
Posteriormente, tive autorização da WIRED para traduzir um texto deles, do Prof. @rjallain, e acabei publicando a tradução, seguida de uma análise, no @PortalDeviante, onde sou redator. Por que achatar a curva? Vem entender a matemática por trás disso. deviante.com.br/noticias/a-mat…
Read 34 tweets
6 Feb
1/13 Hoje irei falar para vocês sobre dois conceitos que são menos independentes do que parecem para alguns: Causalidade e predição. Confesso que é até estranho tratá-las como duas coisas separadas, ou diferentes, e espero convencê-los ao... #IA #AI #ML #causality #bookofwhy
2/13 final dessa thread de que essa visão é fundamentada. Na década de 50, Jacob Yerushalmy realizou um estudo onde acompanhou 15 mil crianças da região da baía de São Francisco. Para surpresa de Yerushalmy, e contrariando o que já se mostrava forte na época (que fumar
3/13 fazia mal a saúde), seus resultados indicavam que bebês de mães fumantes nascidos com baixo peso tinham mais chances de sobreviver do que bebês de mães não fumantes nascidos com baixo peso. Não era um estudo de inferência causal, era apenas predição, alguns podem dizer.
Read 14 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!