top of page
Buscar
  • Foto do escritorJoão Marcelo Ferreira Curi

1º projeto de Data Science


Caro leitor, agora que já vimos como decidi estudar Data Science e demos um norte de como começar vamos colocar a mão na massa. E para esse primeiro projeto, neste contexto de pandemia onde as pessoas estão perdendo sua principal fonte de renda e discussões sobre igualdade de oportunidades escolhi como primeiro projeto na área de Data Science analisar se:

· Se uma pessoa negra com as mesma formação que uma pessoa branca tem a mesma renda ?

· Uma mulher ganha o mesmo que o homem ? E se essa mulher for negra então ?

· E a população indígena ?

Acredito que podemos extrair essas informações da PNAD continua.


O que é a PNAD contínua ?


A Pesquisa Nacional por Amostra de Domicílios Contínua (PNAD contínua) realizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE) tem como intuito acompanhar as flutuações trimestrais e a evolução, no curto, médio e longo prazos, da força de trabalho, e outras informações necessárias para o estudo do desenvolvimento socioeconômico do País.



Aqui nesta primeiro post de uma série vou registrar todo o processo de coletar essa base do próprio governo e construir um modelo onde vamos poder visualizar a realidade e montar um modelo de machine learning que consiga prever com os anos de estudo que tem, sua cor e seu sexo o valor médio de sua renda.


A coleta de dados


Primeira barreira que encontrei foi que quantidade de dados é tão grande, variada e complexa que estes são representados por códigos conhecidos como microdados, o que torna a leitura ou extração destes dados uma tarefa não tão simples, mesmo utilizando um software. Pesquisando muito na internet e agradecendo ao meu mentor da Awari Vicicius e ao post do Medium do Otávio Simões Silveira consegui um norte como iniciar a leitura dos microdados.

Segundo o IBGE microdados são o menor nível de desagregação dos dados de uma pesquisa, retratando, sob a forma de códigos numéricos, o conteúdo dos questionários e preservando o sigilo estatístico com vistas à não individualização das informações. O Instituto disponibiliza estes microdados em arquivos em formato .txt conhecidos como fixed width files — FWF — ou arquivos de largura fixa, em uma tradução livre.

Arquivos FWF são de leitura pouco amigável, sendo praticamente impossível extrair deles alguma informação apenas olhando. Na prática são apenas uma sequência de número jogados em um arquivo de texto, como podemos ver abaixo.



Então para conseguir criar um DataFrame precisamos criar os delimitadores e criar as colunas. O jeito foi assim, já utilizando o jupyter notebook:


Os tamanhos width foram extraídos do dicionário_e_input também disponibilizado na página do IBGE.


Assim ficamos com o DataFrame abaixo, bem mais amigável:



O segundo problema foi no tamanho dos dados, cada ano estava com 1gb de informação, a PNAD contínua tem a partir de 2012, então até 2020 teríamos 8Gb de dados. Para carregar tudo isso eu teria que trabalhar com Big Data, algo que ainda estou aprendendo. Sendo assim decidi trabalhar com dois anos de informação, de 2018 a 2020. Ainda fiquei com mais de 2gb de dados o que ainda travava tudo. Então decido pegar aleatoriamente usar o pandas para pegar uma amostra aleatória desses 2 anos e diminuir um pouco mais o arquivo original e assim conseguir trabalhar. Para isso usei um comando sample:


PNADc.sample(frac=0.1, replace=True)

Criei um arquivo csv unificado para trabalhar e o carreguei novamente simplesmente para ficar mais fácil e não travar meu computador no processo:



Ao analisar o dicionário_e_Input, identifiquei quais são as colunas que me interessa neste projeto, e que precisava alterar alguns nomes dessas colunas pois a maioria vem com códigos, por exemplo a coluna sexo que vem com o nome V2007. Outra coisa é que tem muitos dados NaN, pois só é considerado apto a trabalhar pessoas acima dos 14 anos. Dessa forma todo o trabalho mostrado abaixo foi para melhorar a minha base:






Como podem ver ficamos com 192.456 linhas, uma boa base para trabalhar. Nas próximas publicações poderão acompanhar a continuidade desse projeto. Vamos transformar esses códigos que o IBGE informa nos arquivos em informações que possamos entender.

31 visualizações0 comentário

Posts recentes

Ver tudo

Comments


bottom of page