Estamos melhorando os padrões dos dados da BD+.

Até o final de julho o nosso data lake público estará passando por mudanças nos padrões dos dados disponíveis, para melhorar ainda mais a experiência do usuário e a qualidade de nossos dados e metadados. Veja o que irá mudar 🧶
➡️Nomeação de variáveis

Quem já usa nossos dados pode ter notado que algumas tabelas possuem variáveis nomeadas como estado_abrev, porém, estamos substituindo e subindo novos dados utilizando sigla_uf. Os dados da PNAD Covid são um exemplo, ela já usa o nome sigla_uf.
➡️Nomeação de bases e tabelas

No novo padrão, as tabelas estão com letra minúsculas e no singular. Algumas tabelas mais antigas na BD+ são, ou eram, nomeadas no plural, como o dataset br_ibge_populacao, que agora possui a tabela município, e não municípios.
➡️Tipos de variáveis

Outro ponto é a mudança dos tipos das variáveis de INTEGER para STRING. Agora, variáveis só serão do tipo INTEGER (ou INT64) se forem números inteiros com os quais é possível fazer contas.
Utilizamos STRING para variáveis de texto e para quaisquer chaves categóricas que possuam dicionários ou diretórios. Por exemplo, a variável id_municipio, presente em grande parte das tabelas, mudou de INT64 para STRING.
É importante ressaltar que estamos repadronizando as bases em etapas e passando sempre por uma série de revisões. Logo, algumas bases estão já no novo padrão enquanto outras ainda não, recomendamos que você verifique se a base que você está acessando já passou por essas mudanças.
Você pode conferir as bases que estão passando ou que já passaram pelas mudanças nesta planilha: docs.google.com/spreadsheets/d…

Você pode conferir mais detalhes em nosso Manual de Estilo clicando no link: basedosdados.github.io/mais/style_dat…
Quer tirar alguma dúvida com relação às mudanças recentes ? Mande uma mensagem para nós ou entre no canal #duvidas em nossa comunidade no Discord: discord.com/invite/huKWpsV…

#bdmais #dados #opendata #transparency #jornalismo #pesquisa

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Base dos Dados

Base dos Dados Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @basedosdados

16 Jun
Você é desenvolvedor(a) iniciante e gostaria de trabalhar com a Base dos Dados?👩‍💻

Estamos buscando desenvolvedores(as) em Python para participar da criação e manutenção de novas funcionalidades da nossa API.

Veja mais no fio 🧶
Como desenvolvedor(a) você irá nos ajudar a:

- Criar novas funcionalidades e fazer manutenção da API em Python
- Criar pipelines de validação de dados e metadados
- Ajudar na documentação das ferramentas e infraestrutura
Temos planos para melhorar a interface com o usuário e também expandir nossas validações automáticas de qualidade dos dados e você pode fazer parte desse time dinâmico e colaborativo que mantém um dos maiores projetos open source do Brasil.
Read 6 tweets
14 Jun
Mais um mês com lançamento de bases, tutoriais e workshops aqui na BD e você pode conferir tudo que rolou pela nossa newsletter mensal! 📬

Ainda não se inscreveu? Corre lá: basedosdados.hubspotpagebuilder.com/assine-a-newsl…

E siga o fio 🧶
Esse mês tivemos o lançamento dos dados do Censo Escolar na BD+, junto de um tutorial que te ensina a explorar esses dados pelo nosso datalake público.

Tivemos também workshops apresentando nossa versão em R, explorando os dados da Série A do Brasileirão e muito mais!
Nós preparamos ainda textos explicando como explorar nossos dados pelo BigQuery e como funciona a infra da BD, muito conteúdo interessante para te ajudar a aproveitar o máximo do nosso datalake público.
Read 4 tweets
3 Jun
Os dados da mais importante pesquisa estatística educacional brasileira já estão disponíveis na BD+ para facilitar sua análise! 👨‍🏫

Você encontra dados do Censo Escolar já integrados, limpos e organizados em nosso data lake público! Veja mais no fio🧶 Image
O Censo Escolar, coordenado pelo @inep_oficial, é o principal instrumento de coleta de informações da educação básica no Brasil. Ele abrange as diferentes etapas e modalidades da educação, ou seja, compreende desde a educação infantil até cursos técnicos e profissionalizantes.
Para demonstrar como é possível fazer análises bem ricas com esses dados, nós elaboramos estes gráficos que apontam a diferença do perfil racial existente entre escolas públicas e privadas pelos municípios brasileiros. Image
Read 6 tweets
3 May
Nesse mês começa o Brasileirão! Que tal acessar os dados da Série A do campeonato? As tabelas com dados desde 2003 já estão na BD+ ! ⚽🏟️

São dados sobre cada partida, os times que estão jogando, pontuação, número de gols, detalhes sobre técnicos, estádio e mais! Veja o fio 🧶
Com a BD+ você pode acessar e explorar esses dados com mais facilidade. 👩‍💻

Para exemplificar, preparamos essa tabela com os pontos acumulados dos times da série A e o gráfico que mostra a frequência de número de gols no campeonato, de 2003 até 2020. 📉
➡️ Confira essa base em nossa plataforma: basedosdados.org/dataset/mundo-…

Veja também os detalhes sobre o código das análises em nosso Github:

💻 github.com/basedosdados/m…
Read 5 tweets
1 May
Hoje é o Dia Mundial do Trabalho e, para comemorar a ocasião, nós disponibilizamos os dados do CAGED na BD+ para sua análise. 👷‍♀️

Com esses dados, nós criamos esses gráficos que traçam um panorama interessante sobre a média salarial e os tipos de contratação mais comuns no BR. ImageImage
Veja que o primeiro gráfico demonstra, em um mapa, a média salarial no Brasil em 2019. Como foi a média salarial em seu Estado?📈 🔎

O segundo gráfico traça a evolução dos tipos de contratações mais comuns no Brasil, nesse mesmo ano.
O Cadastro Geral de Empregados e Desempregados foi criado como instrumento de acompanhamento e de fiscalização do processo de admissão e de dispensa de trabalhadores regidos pela CLT, com o objetivo de assistir os desempregados e de apoiar medidas contra o desemprego.
Read 5 tweets
3 Apr
Os dados dos indicadores educacionais chegaram à BD+ para você manusear e cruzar usando poucas linhas de código.

Você já pode acessar a base completa por município com todos os indicadores da série histórica pelo nosso data lake público! Veja mais 🧶
Com esses dados pudemos elaborar esses dois gráficos. O gráfico de barras mostra que, em 13 estados, as crianças matriculadas em creches públicas nas áreas urbanas passam tempo integral nas atividades escolares, com uma média diária de horas-aula de pelo menos 7 horas.
O gráfico scatter plot mostra a taxa de distorção idade-série, que é a proporção de alunos com mais de 2 anos de atraso escolar. A taxa de abandono possui forte ligação com a defasagem idade-série, porque alunos atrasados nos estudos têm maiores chances de desistirem da escola.
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(