Skip to content

RCarnavalRJ/data-engineering-roadmap

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Jornada de dados 2024

Nossa missão é fornecer o melhor ensino em engenharia de dados

Se você quer:

  1. Construir uma base sólida em Python e SQL
  2. Aprender as principais habilidades e ferramentas de engenharia de dados
  3. Criar ou melhorar seu portfólio de dados
  4. Criar ou aumentar o seu networking na área
  5. Mudar ou dar o próximo passo em sua carreira

A Jornada de Dados é o seu lugar

Visite o nosso site

Calendário

Data Workshop Horário e canal
01/09/23 Como estruturar o seu projeto de dados do zero Link
01/10/23 Do Jupyter Notebook Pro Deploy Link
01/11/23 Como construir um DW barato Link e Link
24/01 Automacao Data Quality Excel ETL gravação na plataforma de alunos
27/01 Projeto e processos do Zero gravação na plataforma de alunos
24/02 Pydantic, Data Quality e TDD em dados gravação na plataforma de alunos
09/03 Docker para analista e engenheiro de dados: ajudando o seu deploy gravação na plataforma de alunos
12/03 ETL com Python do Zero ao Deploy gravação na plataforma de alunos
23/03 Orquestrando suas ETLs com Airflow gravação na plataforma de alunos
13/04 Web scraping e noSQL gravação na plataforma de alunos
27/04 restAPI fastAPI Deploy gravação na plataforma de alunos
25/05 Amazon SQS e lambda gravação na plataforma de alunos
11/06 Data Warehouse com Python, SQL e dbt-core Part. Kaio Silva Youtube
13/06 Qualidade de dados em ETL com Pandera e Python: Um Guia para Contrato de Dados Part. Renan Heckert Youtube
19/06 Crie pipelines CI/CD com dbt e github actions Part. Bruno Souza Youtube
Em andamento Bootcamp de Web Scraping avançado 19h google meet
29/06 Dashboard e frontend 09h google meet
Julho Kafka Streaming data processing 09h google meet
Julho Infra as a Code com Terraform 09h google meet
Agosto Prometheus Datadog Sentry Monitoramento 09h google meet
Agosto Machine Learning Ops 09h google meet
Agosto Databricks e Fabric, nosso DW de milhoes 09h google meet

Calendário Bootcamp - Python do zero

Um intensivo único para você iniciar com Python e ir até tópicos avançados (API por exemplo) para você resolver problemas reais

Data Workshop Horário
19/02 Python, Git e VScode: Python do Zero 12am
20/02 TypeError, Type Check, Type Conversion, try-except e if 12am
21/02 Controle de Fluxo: DEBUG, IF, FOR, While, Listas e Dicionários 12am
22/02 Tipos complexos e Type Hint (Dicionários vs DataFrames Vs Tabelas Vs Excel) 12am
23/02 Projeto 01: Leitura e Escrita de Arquivos, lendo 1 bilhão de linhas 12am
26/02 Exercício de revisão 12am
27/02 Funções em Python e Estrutura de Dados - Parte 1 12am
28/02 Funções em Python e Estrutura de Dados - Parte 2 12am
29/02 Funções em Python e Estrutura de Dados - Parte 3 12am
01/03 Aula de revisão 12am
04/03 Introdução a POO 19pm
05/03 Introdução às Classes em Python - Parte 01 19pm
06/03 Introdução às Classes em Python - Parte 02 19pm
07/03 Introdução às Classes em Python - Parte 03
08/03 Introdução às Classes em Python - Parte 04 19pm
18/03 Aula de revisão de programação orientada a objetos + SQLModel 12am
19/03 SQLAlchemy - Conjunto de ferramentas para manipular SQL em Python 12am
20/03 O que é uma API? Request, Pydantic e fazendo nosso CRUD 12am
21/03 O que é uma API? Criando nossa primeira API 12am
22/03 Nosso Projeto de CRUD Backend + Frontend + Banco de Dados 12 am

Calendário Bootcamp - SQL início dia 22/04

Um workshop focado em SQL para engenharia de dados

  1. Introdução ao SQL Básico:

• Comandos fundamentais (SELECT, INSERT, UPDATE, DELETE). • Funções de agregação e filtragem. • Joins e subqueries.

  1. Fundamentos de Infraestrutura de Banco de Dados: • Visão geral de índices e seu impacto no desempenho. • Particionamento de dados e estratégias. • Conceitos de ACID para garantir a integridade dos dados.

  2. Configuração do Ambiente Local: • Instalação e configuração de um ambiente de desenvolvimento SQL local.

  3. Uso do Postgres com Docker: • Criação de um ambiente Docker para o PostgreSQL.

  4. Configuração do Amazon RDS para Produção: • Configuração e otimização do Amazon RDS.

  5. ETL (Extract, Transform, Load): • Conceitos e ferramentas para ETL. • Prática de transformação de dados e carga em um data warehouse.

  6. Procedures e Automatização: • Criação e uso de stored procedures para automatização de tarefas. • Princípios de design e manutenção de procedures.

  7. Testes Unitários em SQL: • Introdução aos testes de software e como aplicá-los ao SQL. • Ferramentas e frameworks de teste específicos para SQL.

  8. Integração com DBT (Data Build Tool): • Cinco aulas cobrindo desde a introdução ao DBT até casos de uso avançados. • Melhores práticas para modelagem de dados e versionamento com DBT.

  9. Orquestração de Workflows com Airflow: • Introdução ao Apache Airflow e sua importância na orquestração de tarefas de engenharia de dados. • Como integrar processos de ETL, testes e outras tarefas automatizadas com Airflow.

Jornada de dados 2024

Nossa missão é fornecer o melhor ensino em engenharia de dados

Se você quer:

  1. Construir uma base sólida em Python e SQL
  2. Aprender as principais habilidades e ferramentas de engenharia de dados
  3. Criar ou melhorar seu portfólio de dados
  4. Criar ou aumentar o seu networking na área
  5. Mudar ou dar o próximo passo em sua carreira

A Jornada de Dados é o seu lugar

Metodologia

Acredito no ensino ao vivo, são mais de 20 workshops no total

Os encontros são aos sábados ás 9 horas, são 4 horas de workshop

Detalhe das aulas

  • Criando uma colletor de excel em python
  • Qualidade com Pydantic
  • Versionamento com Git e Github
  • Documentando com Mkdcos
  • Observabilidade com Sentry
  • UI com Streamlit (se eu não achar nada mais fácil até lá)
  • Introdução aos 12 fatores
  • Versionamento com Git e Github
  • Migrando para Python 3.12 com Pyenv
  • Ambiente virtual com PIP, Poetry e Conda
  • Documentação com Mkdocs
  • Teste sua aplicação com Pyenv
  • Criando um fluxo de trabalho com pré-commit
  • Estruturando uma PR e criando um processo
  • Garantindo conformidade com CI/CD
  • Pydantic para Modelagem de Dados
  • Garantindo Qualidade de Dados
  • Test-Driven Development em Dados com Pytest
  • Estratégias de Validação de Dados
  • Pydantic e TDD: Casos Práticos
  • Fundamentos de Infraestrutura para Dados
  • Linux Essencial para Engenheiros de Dados
  • Docker: Containerização em Dados
  • Criando Ambientes de Dados com Docker
  • Melhores Práticas em Infra de Dados
  • Introdução ao Airflow para Orquestração
  • Configurando Airflow: Melhores Práticas
  • Desenvolvendo Workflows Eficientes no Airflow
  • Deploy de Workflows com Airflow
  • Monitoramento e Troubleshooting no Airflow
  • Introdução ao NoSQL: Redis e MongoDB
  • Redis para Caching e Gerenciamento de Dados
  • MongoDB: Modelagem e Consultas
  • Comparativo NoSQL: Redis vs MongoDB
  • Casos de Uso: Redis e MongoDB
  • Desenvolvendo REST APIs Eficientes
  • FastAPI: Criação e Documentação
  • Estratégias de Deploy para APIs
  • Segurança e Escalabilidade em APIs
  • APIs com FastAPI: Estudos de Caso
  • Introdução ao Processamento de Streaming
  • Apache Kafka: Fundamentos e Práticas
  • Desafios no Streaming de Dados
  • Casos Práticos Kafka
  • Mensageria com Amazon SNS e SQS
  • RabbitMQ: Configuração e Uso
  • Comparação: SNS, SQS, RabbitMQ
  • Padrões de Mensageria na Cloud
  • Casos de Uso em Sistemas Distribuídos
  • Introdução a Infraestrutura como Código
  • Terraform: Conceitos Básicos
  • Gerenciando Cloud com Terraform
  • Segurança e Compliance com Terraform
  • Terraform: Casos de Uso Práticos
  • Monitoramento com Prometheus
  • Datadog para Observabilidade de Dados
  • Sentry para Gestão de Erros
  • Integrando Prometheus, Datadog e Sentry
  • Melhores Práticas de Monitoramento
  • Introdução ao MLOps
  • Ciclo de Vida de Modelos ML
  • Automação e Orquestração em ML
  • Monitoramento e Governança de ML
  • Casos Práticos de MLOps
  • Databricks: Plataforma de Big Data
  • Fabric: Gestão de Dados em Escala
  • Arquiteturas de Data Warehouse
  • Databricks e Fabric: Integração
  • DW de Milhões: Desafios e Soluções

Pré requisitos

Para você aproveitar ao máximo do curso, é importante que você se sinta confortável com SQL e uma experiência com Python também será útil, ideal que você tenha entre 1 e 2 anos trabalhando com dados.

Caso você não tenha de 1 a 2 anos na área terá que estudar muito SQL e Python em paralelo, acredito que ao menos 1h por dia de estudos fora os Workshops.

Mas fique tranquilo, temos o nosso Bootcamp de 100 dias de Python e SQL para te colocar no shape.

Aqui é o lugar certo para aprender Python e SQL voltado para a engenharia de dados

Plataforma e autonomia

Alternativamente, você pode acessar nossa plataforma, nossa aplicação disponibiliza uma plataforma bem user-frindly para você pode acessar ao material do curso

Possui dúvidas?

About

roadmap de engenharia de dados da jornada 2024

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 98.2%
  • Other 1.8%