jupytext

kernelspec

formats

text_representation

md:myst

extension	format_name	format_version	jupytext_version
.md	myst	0.13	1.11.5

display_name	language	name
Python 3	python	python3

Qualidade de Dados

Valores Ausentes

:tags: [remove-output]
import pandas

df = pd.read_csv('nome_do_arquivo.csv')

# Identificando dados ausentes
df.isnull().sum()

# Remoção de objetos com valor ausente em qualquer atributo preditivo;
df_obj = df.dropna(how='any')

# Remoção de objetos com valor ausente em todos os atributos preditivos
df_obj = df.dropna(how='all')

# Remoção de objetos com valor ausente em qualquer/todos os atributos preditivos selecionados
df_obj = df.dropna(how='any', subset=['Coluna1', 'Coluna2'])
df_obj = df.dropna(how='all', subset=['Coluna1', 'Coluna2'])

# Remoção de atributo preditivo com valor ausente em qualquer objeto
df_pred = df.dropna(axis='columns')

# Remoção de atributo preditivo com valor ausente em todos os objetos
df_pred = df.dropna(axis='columns', how='all')

# Remoção de atributo preditivo com valor ausente em um número determinado de objetos
df_pred = df.dropna(axis='columns', thresh=3)

Preenchimento de Valores

# Preencher com um valor constante
df_tratamento = df.fillna(value=0)

# Preencher com a média
df["Coluna"].fillna(df["Coluna"].mean())

# Preencher com a mediana
df["Coluna"].fillna(df["Coluna"].median())

# Preencher com a moda
df["Coluna"].fillna(df["Coluna"].mode())

# Preencher com o valor do próximo exemplo
df_tratamento = df.fillna(method="bfill")

Valores Redundantes

# Encontrando dados duplicados
df.duplicated()

# Especificar a coluna que deseja encontrar dados duplicados
df.duplicated(["Coluna1", "Coluna2"])

# Apresentando dados duplicadas
df[df.duplicated(keep=False)]

# Contando dados duplicados
df.duplicated().sum()

# Removendo dados duplicadas
df.drop_duplicates()

# Removendo dados duplicados de uma coluna específica
df.drop_duplicates(["Coluna"])

Valores Outliers

from scipy import stats

z_df = df.apply(stats.zscore)
df_filtered = df[(z_df < 3).all(axis=1)]

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

cp4.md

cp4.md

Qualidade de Dados

Valores Ausentes

Preenchimento de Valores

Valores Redundantes

Valores Outliers

Files

cp4.md

Latest commit

History

cp4.md

File metadata and controls

Qualidade de Dados

Valores Ausentes

Preenchimento de Valores

Valores Redundantes

Valores Outliers