Skip to content

Latest commit

 

History

History
32 lines (24 loc) · 1.76 KB

azure-databricks-remover-duplicados.md

File metadata and controls

32 lines (24 loc) · 1.76 KB

Remover valores duplicados no Azure Databricks

Remover valores duplicados no Azure Databricks

Aprensentamos nesse vídeo como acessar arquivos do Azure Data Lake com assinatura compartilhada de acesso (SAS) no Azure Databricks para remover os registros duplicados do conjunto de dados.

Iremos conhecer as técnicas: 🔹Instalar pacote python para acessar Azure Data Lake (AZURE FILE DATALAKE STORARGE CLIENT);
🔹Instalar pacote python para ler arquivo excel (OPEN PY XL, READ, WRITE, EXCEL FILE, XLSX, XLSM);
🔹Obter o caminho do arquivo no Azure Data Lake (STORAGE ACCOUNT, CONTAINERS, FILESYSTEM, OVERVIEW, URL);
🔹Criar assinatura de acesso compartilhado (SAS);
🔹Ler arquivo excel e combinar registros (READ EXCEL, APPEND);
🔹Conhecer os dados (PANDAS, INFO, ENTRIES, COLUMNS);
🔹Identificar e remover registros duplicados (DUPLICATED, SUBSET, KEEP);
🔹Salvar registros em tabela do Azure Databricks (DATA CATALOG, SPARK, WRITE, TABLE);
🔹Consultar tabela e visualizar em gráfico integrado (SPARK SQL, DISPLAY).

▶️ Acesse o vídeo no link abaixo: https://www.fabioms.com.br/?url=azure-databricks-remover-duplicados

📁 Arquivos disponíveis no GitHub: https://www.fabioms.com.br/?url=github

😉 Gostou do conteúdo? Inscreva-se também no canal: https://www.fabioms.com.br/?url=youtube-subscribe

🎁 Banco de Dados para Estudo SQL: Se você quer uma base para estudar liguagem #SQL ou #BusinessIntelligence, elaborar seu curso ou treinamento, aqui você encontrará material. Contribua e cite o projeto para fortalecê-lo! https://www.fabioms.com.br/?url=github-estudados

#microsoft #dataplatform #azure #databricks #python #DicadoFabinho