- Responsável: Leonardo S. Barone e Jonathan Phillips
Data: 01/06
Formato: arquivo .pdf ou .html produzido com RMarkdown, acompanhado de script em formato .R
Via: e-mail com título "[FLS6397] - D3".
Siga as instruções abaixo. Faça no arquivo de RMarkdown uma síntese de sua atividade e apresente apenas o essencial do código (você deve julgar o que é essencial).
Documente TODOS os seus passos no arquivo de script. Comente no seu script TODOS os seus passos e explique a si mesm@ suas escolhas e estratégias.
As primeiras linhas do seu script devem conter suas informações pessoais como comentário, tal qual o modelo abaixo:
### nome <- "Fulano da Silva Sauro"
### programa <- "Mestrado em Paleontologia"
### n_usp <- 32165498
### data_entrega: "29/02/2017"
Construa um data.frame único com as seguintes características: as observações (linhas) devem ser municípios e as colunas características dos municípios.
Você deve construir esse data frame combinando pelo menos 3 das seguintes fontes:
- Perfil dos Municípios Brasileiros 2015 - Bases de dados em .xls no menu do lado esquerdo
- Informações Financeiras e Fiscais dos Municípios
- Estatísticas sobre óbitos - DATASUS
- CEPESPData (usando o pacote cepespr)
- Outra fonte de sua escolha, desde que devidamente indicada no documento.
Quem tiver dificuldades com a obtenção/abertura de algumas das bases de dados, pode utilizar as cópias armazenadas no repositório do curso: MUNIC15, DATASUS e FINBRA
Lembre-se que as bases devem ser combinadas utilizando o código de município. Algumas fontes podem conter códigos com 6 ou 7 dígitos e você deve ignorar o 7o dígito se isso ocorrer. Para tranformar um código de 7 dígitos em um de 6 dígitos faça:
cod_ibge6 <- as.numeric(substr(cod_ibge7, 1, 6))
Escolha as variáveis de seu interesse em cada fonte e mantenha apenas estas no data frame.
Sugestão: use inner_join para fazer as combinações de bases para ficar apenas com os casos completos em todas as variáveis de seu interesse. Não esqueça, porém, de notar que alguns casos serão perdidos.
Utilizando os tutoriais de sala de aula sobre ggplot2 e os capítulos Cap 3. Visualização de dados e Cap 7. Análise exploratória de dados, faça uma apresentação criativa dos dados e explore relações entre variáveis das diversas fontes. Considere, para facilitar seu processo criativo, visualizar variáveis e relações entre elas para os quais você consegue formular explicações ou hipóteses.
Sua apresentação deve conter pelo menos: 1 gráfico para uma variável contínua; 1 gráfico para uma variável discreta; 1 gráfico para duas variáveis, sendo uma discreta e uma contínua; e 1 gráfico para duas variáveis contínuas.
Em todos os gráficos, insira título e rótulos dos eixos. Quando necessário, inclua legenda. Altere os elementos da geometria (cor, tamanho, formato, etc de linhas, pontos e barras) para tornar as visualizações o mais elegange possível. Explique brevemente - em duas ou três frases - o que podemos aprender a partir de cada gráfico.
Finalmente, seu arquivo de RMarkdown deve conter pelo menos 3 informações provenientes dos dados (exemplo: contagem de casos, médias de variáveis, somatórios) no meio dos parágrafos ("inline code").