Primeira linha de código, vamos importar a biblioteca do pandas que está pré definida do colab.
import pandas as pd
import = comando que importa bibliotecas, funções e etc para o python
pandas = biblioteca de manipulação de dados
as = comando que irá fazer associação do nome da biblioteca para o apelido.
pd = apelido convencionado nas comunidades que utilizam.
Para conhecer mais funções que esta biblioteca de manipulação de dados possui acesse o site https://pandas.pydata.org/docs/reference/index.html#api .
Agora é hora de correr atrás dos dados.
Para podermos usar nesta fase do projeto, os dados que vou usar foram retirados no site do IBGE e covid.saude.org.br.
Os dados podem ser salvos na Cloud ou fisicamente na sua infraestrutura, a sua escolha. No meu caso eu vou de Cloud com o Google Drive.
Foram utilizadas duas formas de baixar os dados, a primeira e mais simples, ir no site e realizar o download do arquivo manualmente. A segunda é massa, através da linha de comando o sistema irá solicitar o download do arquivo e salvar no Google Drive.
Agora não esqueça que para realizar este processo é necessário dar permissão ao Colab para acessar o Google drive, vamos fazer isso.
Passo a passo: Permissão de interligação do Colab com o Google Drive.
1 – Abre o Colab
2 – Do lado esquerdo da parte superior da tela click no ícone “ficheiro “.
3 – Ao abrir a tela vai ter um ícone com o logo do Google drive, click nele.
4 – Abrirá uma pop up perguntando se você deseja dar permissão de acesso, click em “dar permissão” .
5 – Selecione a conta Google que você deseja dar acesso. Pronto conexão estabelecida.
Existe também a forma em linha de comando que realiza esta conexão.
A base da covid e meio grandinha, então vou usar os recursos de rede do Google. Dentro das linhas de comando no Colab “vamos lançar um feitiço” solicitando que ele faça o download do arquivo e armazene diretamente na pasta do projeto que foi criado no Google Drive.
!wget -P “/content/drive/MyDrive/pylton com analise de dados/dados” https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/19fd0cdf182f137c7ec1e6c53c41c597_HIST_PAINEL_COVIDBR_25mai2021.zip
Nada de comemorar ainda, eu sei, mas segurar a vontade.
Vamos agora colocar as informações dentro do Colab para ser mais rápido nossa interação com os dados.
Os dados estão zipados então vou usar o zipfile para baixar e “dizipar” ( pense na palavra que não sei se realmente existe mas que uso bastante para dizer que estou tirando a compactação Zip de um arquivo), que seja vamos em frente.
Para entender mais sobre a biblioteca de compressão de dados e armazenamento zipfile, acesse ; https://docs.python.org/pt-br/3/library/zipfile.html&ved=2ahUKEwiE9eTkxuvwAhW6HLkGHfQRCTgQFjASegQIMxAC&usg=AOvVaw2mq6VMaMqyuZytH6gWT8kg&cshid=1622177114015
Linha de comando no Colab e execute.
import zipfile
zip_ref = zipfile.ZipFile(“/content/drive/MyDrive/pylton com analise de dados/dados/19fd0cdf182f137c7ec1e6c53c41c597_HIST_PAINEL_COVIDBR_25mai2021.zip”, ‘r’)
zip_ref.extractall(“/content/sample_data/Projeto”)
zip_ref.close()
Será que deu certo? Vamos descobrir.
Colab por favor me mostre a base de dados.
pd.read_csv(‘/content/sample_data/Projeto/HIST_PAINEL_COVIDBR_2020_Parte1_25mai2021.csv’,sep=’;’)
Muita felicidade nesta hora. Mas antes de terminarmos esta fase vamos agora fazer o mesmo para a segunda base de dados.
Agora sim, com a alma lavada. Missão dada é missão cumprida, vou me despedindo deste post e te esperar no próximo.
Beijos, Maga