【数据清洗】_数据清洗删除缺失值代码-CSDN博客

贺公子之数据科学与艺术，欢迎关注与点赞、留言，本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_31532979/article/details/145843454

数据清洗是数据预处理中非常重要的一部分，下面是一个简单的示例代码，展示了如何进行数据清洗：

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 查看数据缺失值情况
print(data.isnull().sum())

# 去除缺失值
data = data.dropna()

# 去除重复值
data = data.drop_duplicates()

# 数据去重后重新查看缺失值情况
print(data.isnull().sum())

# 保存清洗后的数据
data.to_csv('cleaned_data.csv', index=False)

在这段代码中，首先通过 Pandas 库读取了一个数据文件，然后使用 isnull() 方法查看数据中的缺失值情况，接着使用 dropna() 方法去除了缺失值，再使用 drop_duplicates() 方法去除了重复值。最后将清洗后的数据保存到了一个新的文件中。

下面一个包含数据的 DataFrame，并对数据进行清洗，包括去除空值和重复值：

import pandas as pd

# 创建一个包含数据的 DataFrame
data = {
    'A': [1, 2, None, 4],
    'B': ['apple', 'banana', 'carrot', ''],
    'C': [10, 20, 30, 20]
}
df = pd.DataFrame(data)

# 显示原始数据
print("原始数据：")
print(df)

# 删除包含空值的行
df = df.dropna()

# 删除重复的行
df = df.drop_duplicates()

# 重置索引
df = df.reset_index(drop=True)

# 显示清洗后的数据
print("\n清洗后的数据：")
print(df)