数据清洗是数据预处理中非常重要的一部分,下面是一个简单的示例代码,展示了如何进行数据清洗:
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 查看数据缺失值情况
print(data.isnull().sum())
# 去除缺失值
data = data.dropna()
# 去除重复值
data = data.drop_duplicates()
# 数据去重后重新查看缺失值情况
print(data.isnull().sum())
# 保存清洗后的数据
data.to_csv('cleaned_data.csv', index=False)
在这段代码中,首先通过 Pandas 库读取了一个数据文件,然后使用 isnull()
方法查看数据中的缺失值情况,接着使用 dropna()
方法去除了缺失值,再使用 drop_duplicates()
方法去除了重复值。最后将清洗后的数据保存到了一个新的文件中。
下面一个包含数据的 DataFrame,并对数据进行清洗,包括去除空值和重复值:
import pandas as pd
# 创建一个包含数据的 DataFrame
data = {
'A': [1, 2, None, 4],
'B': ['apple', 'banana', 'carrot', ''],
'C': [10, 20, 30, 20]
}
df = pd.DataFrame(data)
# 显示原始数据
print("原始数据:")
print(df)
# 删除包含空值的行
df = df.dropna()
# 删除重复的行
df = df.drop_duplicates()
# 重置索引
df = df.reset_index(drop=True)
# 显示清洗后的数据
print("\n清洗后的数据:")
print(df)
这段代码首先创建了一个包含数据的 DataFrame,然后删除了包含空值的行和重复的行,最后重置了索引并输出清洗后的数据。你可以根据实际需求修改和扩展这段代码来完成更复杂的数据清洗任务。