Python 比较实用的一些数据处理方法

本文总结了在数据处理过程中遇到的问题及解决方案,包括如何使用`pd.merge`去除合并后的重复数据,如何在DataFrame中插入或移动列,处理列顺序不一致的数据表,以及利用`drop_duplicates()`进行多行数据去重。这些技巧对于数据清洗和预处理至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

记录下平时在进行数据处理所遇到的一些问题和解决方法:

1.merge合并表格数据

使用pd.merge合并两个datafrme数据时,会多出数据条数来。可使用drop_duplicates()函数去掉重复数据。

2.对于datafrme数据在固定某列后添加数据:

 col_name=data.columns.tolist() #获取数据的列名
 col_name.insert(col_name.index('A')+1, 'B') #在 A 列后面插入B
 data = data.reindex(columns=col_name)  #重新赋值下data列名

如果你想把已在这个dataframe中的某列移动过来,可以先将这列的值赋值给B,删除掉这列后,然后再把B的列名重新修改为这列名字。

col_name=data.columns.tolist()
col_name.insert(col_name.index('A')+1, 'B_1') #在 A列后面插入
data = data.reindex(columns=col_name)

data['B_1'] = data['B']  #B列值赋值给B_1列
data.drop(['B'], axis=1, inplace=True)
data.rename(columns={'B_1': 'B'}, inplace=True) #将B_1的列名修改为B

3. 两个数据列名相同,但是可能列排列的顺序不同。

在进行两张数据表拼接的过程中,发现两张表中列数和列名是一样的,但是因为有些列排列的顺序不同,直接不能使用pd.concat()拼接,因为concat是按照列名一一拼接数据。

所以需要将两张表数据列名修改成一样。代码如下:

data_1.reindex(index=data_1.columns, columns=data.columns)

4.多行数据去重

newdata.drop_duplicates(subset=[],keep = False)

keep = False,表示的是去掉所有重复行

keep = ‘first’,表示的是保留第一个出现重复行

keep=‘last’,表示保留最后一次出现重复行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值