Até o final de julho o nosso data lake público estará passando por mudanças nos padrões dos dados disponíveis, para melhorar ainda mais a experiência do usuário e a qualidade de nossos dados e metadados. Veja o que irá mudar 🧶
➡️Nomeação de variáveis
Quem já usa nossos dados pode ter notado que algumas tabelas possuem variáveis nomeadas como estado_abrev, porém, estamos substituindo e subindo novos dados utilizando sigla_uf. Os dados da PNAD Covid são um exemplo, ela já usa o nome sigla_uf.
➡️Nomeação de bases e tabelas
No novo padrão, as tabelas estão com letra minúsculas e no singular. Algumas tabelas mais antigas na BD+ são, ou eram, nomeadas no plural, como o dataset br_ibge_populacao, que agora possui a tabela município, e não municípios.
➡️Tipos de variáveis
Outro ponto é a mudança dos tipos das variáveis de INTEGER para STRING. Agora, variáveis só serão do tipo INTEGER (ou INT64) se forem números inteiros com os quais é possível fazer contas.
Utilizamos STRING para variáveis de texto e para quaisquer chaves categóricas que possuam dicionários ou diretórios. Por exemplo, a variável id_municipio, presente em grande parte das tabelas, mudou de INT64 para STRING.
É importante ressaltar que estamos repadronizando as bases em etapas e passando sempre por uma série de revisões. Logo, algumas bases estão já no novo padrão enquanto outras ainda não, recomendamos que você verifique se a base que você está acessando já passou por essas mudanças.
Você pode conferir as bases que estão passando ou que já passaram pelas mudanças nesta planilha: docs.google.com/spreadsheets/d…
Quer tirar alguma dúvida com relação às mudanças recentes ? Mande uma mensagem para nós ou entre no canal #duvidas em nossa comunidade no Discord: discord.com/invite/huKWpsV…
Você é desenvolvedor(a) iniciante e gostaria de trabalhar com a Base dos Dados?👩💻
Estamos buscando desenvolvedores(as) em Python para participar da criação e manutenção de novas funcionalidades da nossa API.
Veja mais no fio 🧶
Como desenvolvedor(a) você irá nos ajudar a:
- Criar novas funcionalidades e fazer manutenção da API em Python
- Criar pipelines de validação de dados e metadados
- Ajudar na documentação das ferramentas e infraestrutura
Temos planos para melhorar a interface com o usuário e também expandir nossas validações automáticas de qualidade dos dados e você pode fazer parte desse time dinâmico e colaborativo que mantém um dos maiores projetos open source do Brasil.
Esse mês tivemos o lançamento dos dados do Censo Escolar na BD+, junto de um tutorial que te ensina a explorar esses dados pelo nosso datalake público.
Tivemos também workshops apresentando nossa versão em R, explorando os dados da Série A do Brasileirão e muito mais!
Nós preparamos ainda textos explicando como explorar nossos dados pelo BigQuery e como funciona a infra da BD, muito conteúdo interessante para te ajudar a aproveitar o máximo do nosso datalake público.
Os dados da mais importante pesquisa estatística educacional brasileira já estão disponíveis na BD+ para facilitar sua análise! 👨🏫
Você encontra dados do Censo Escolar já integrados, limpos e organizados em nosso data lake público! Veja mais no fio🧶
O Censo Escolar, coordenado pelo @inep_oficial, é o principal instrumento de coleta de informações da educação básica no Brasil. Ele abrange as diferentes etapas e modalidades da educação, ou seja, compreende desde a educação infantil até cursos técnicos e profissionalizantes.
Para demonstrar como é possível fazer análises bem ricas com esses dados, nós elaboramos estes gráficos que apontam a diferença do perfil racial existente entre escolas públicas e privadas pelos municípios brasileiros.
Nesse mês começa o Brasileirão! Que tal acessar os dados da Série A do campeonato? As tabelas com dados desde 2003 já estão na BD+ ! ⚽🏟️
São dados sobre cada partida, os times que estão jogando, pontuação, número de gols, detalhes sobre técnicos, estádio e mais! Veja o fio 🧶
Com a BD+ você pode acessar e explorar esses dados com mais facilidade. 👩💻
Para exemplificar, preparamos essa tabela com os pontos acumulados dos times da série A e o gráfico que mostra a frequência de número de gols no campeonato, de 2003 até 2020. 📉
Hoje é o Dia Mundial do Trabalho e, para comemorar a ocasião, nós disponibilizamos os dados do CAGED na BD+ para sua análise. 👷♀️
Com esses dados, nós criamos esses gráficos que traçam um panorama interessante sobre a média salarial e os tipos de contratação mais comuns no BR.
Veja que o primeiro gráfico demonstra, em um mapa, a média salarial no Brasil em 2019. Como foi a média salarial em seu Estado?📈 🔎
O segundo gráfico traça a evolução dos tipos de contratações mais comuns no Brasil, nesse mesmo ano.
O Cadastro Geral de Empregados e Desempregados foi criado como instrumento de acompanhamento e de fiscalização do processo de admissão e de dispensa de trabalhadores regidos pela CLT, com o objetivo de assistir os desempregados e de apoiar medidas contra o desemprego.
Os dados dos indicadores educacionais chegaram à BD+ para você manusear e cruzar usando poucas linhas de código.
Você já pode acessar a base completa por município com todos os indicadores da série histórica pelo nosso data lake público! Veja mais 🧶
Com esses dados pudemos elaborar esses dois gráficos. O gráfico de barras mostra que, em 13 estados, as crianças matriculadas em creches públicas nas áreas urbanas passam tempo integral nas atividades escolares, com uma média diária de horas-aula de pelo menos 7 horas.
O gráfico scatter plot mostra a taxa de distorção idade-série, que é a proporção de alunos com mais de 2 anos de atraso escolar. A taxa de abandono possui forte ligação com a defasagem idade-série, porque alunos atrasados nos estudos têm maiores chances de desistirem da escola.