Skip to content

Repositório contendo atividades da disciplina Pipelines e Sistemas Streaming

Notifications You must be signed in to change notification settings

pedroalvesbatista/cecd-mba-engdados-pds

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

PDS - Pipelines e Sistemas Streaming

Repositório contendo atividades da disciplina Pipelines de Dados, CI/CD e Streaming

1. Atividade I

Para concluir essa atividade, você deverá realizar os seguintes passos, levando em consideração que para cada atividade, você poderá optar por incluir cada ponto em commits separados, ou criar branches específicas.

O arquivo em PDF contém os enunciados da atividade, e abaixo está pontuado conforme cada enunciado.

Os materiais complementares abaixo são para dar uma guiada em sua busca, demais dúvidas podem ser direcionadas no grupo de dúvidas do WhatsApp :)

1.1 - Clonar repositório

Faça o clone (ou fork) do presente repositório. Todas as modificações efetuadas das seguintes atividades deverão ocorrer em branches que não a main/master.

A forma de avaliação desse item será dada de acordo com o fork realizado. Sem fork, sem avaliação :O

1.2 - Criar diretório IaC

Será preciso criar um diretório IaC contendo os manifestos Terraform.

Para cada provedor de numem pública, existem maneiras de conectar o Terraform com as credenciais necessárias. Consulte documentação do provedor e siga as orientações.

1.3 - Criar diretório docs

Nesse diretório você deverá documentar sua solução, contendo diagramas indicando da arquitetura arquitetura na nuvem do seu provedor escolhido.

Crie também um arquivo README.md igual esse resumindo sua jornada no desenvolvimento da arquitetura.

1.4 - Criar diretório .github/workflows

Nesse diretório você deve incluir os workflows necessários para seu fluxo CI/CD, aos quais serão executados pelo Github Actions.

Consulte Como criar workflows CI/CD no Github Actions para ter um melhor entendimento.

1. Atividade II

Referências e materiais complementares

O conceito de Pipeline de Dados, na sua forma atual, é uma extensão de ETL, recebendo algumas características "próprias". Os materiais a seguir dão uma visão introdutória, mas também dos componentes de um pipeline de dados.

Pipeline de Dados - I

Pipeline de Dados - II

Pipeline de Dados - III

Pipeline de Dados - IV

Pipeline de Dados - V

Pipeline de Dados - VI

Referências da Atividade Final

Cada item da atividade final possui métodos específicos e formas de se realizar. Algumas dessas Referências irão te ajudar a estruturar sua solução final \o/

1 - ETL Architecture

ETL Architecture - I

ETL Architecture - II

ETL Architecture - III

ETL Architecture - IV

ETL Architecture - V

2.1 - Batch Architecture

Batch Architecture - I

Batch Architecture - II

Batch Architecture - III

Batch Architecture - IV

Batch Architecture - V

2.2 - Micro-Batch Architecture

Micro-Batch Architecture - I

Micro-Batch Architecture - II

Micro-Batch Architecture - III

Micro-Batch Architecture - IV

3 - Lambda & Kappa Architecture

Lambda Architecture - I

Lambda Architecture - II

Lambda Architecture - III

Lambda Architecture - IV

Lambda Architecture - V

Kappa Architecture - I

Kappa Architecture - II

Kappa Architecture - III

Kappa Architecture - IV

Kappa Architecture - V

Livros

Nathan Marz, James Warren - Big Data

Joe Reis, Matt Housley - Fundamentals of Data Engineering: Plan and Build Robust Data Systems

Martin Kleppmann - Designing Data-Intensive Applications

Tyler Akidau, Slava Chernyak, Reuven Lax - Streaming Systems

James Densmore - Data Pipelines Pocket Reference

About

Repositório contendo atividades da disciplina Pipelines e Sistemas Streaming

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published