掌握Python Pandas中的多数据源合并技巧

最新推荐文章于 2025-04-13 09:35:51 发布

python慕遥

最新推荐文章于 2025-04-13 09:35:51 发布

阅读量773

点赞数 9

分类专栏： Pandas 文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/csdn1561168266/article/details/143536938

版权

Pandas 专栏收录该内容

45 篇文章

订阅专栏

大家好，在数据分析的过程中，经常需要从多个来源获取数据，并将其整合在一起进行统一分析。Pandas作为Python中的强大数据分析工具，提供了多种方法来实现数据的合并与整合。无论是从多个表格、数据库，还是不同的文件类型，Pandas都可以轻松应对。本文将介绍如何使用Pandas进行多数据源的合并，结合具体示例展示不同的合并方式及其应用场景。

在实际项目中，数据往往来源于不同的系统或数据库。为了得到更全面的分析结果，通常需要将这些分散的数据合并成一个统一的视图。数据整合可以将多个数据表或数据集进行合并，能够在一个统一的表格中处理所有信息，进而进行数据分析和建模。

Pandas提供的merge、concat和join等函数可以实现不同类型的数据整合。

1.使用`concat`进行数据拼接

concat函数可以将多个DataFrame按照行或列拼接在一起。通常在以下几种情况下使用concat：

将数据源按照行或列进行简单的合并。
无需根据键值进行匹配，直接将多个数据集堆叠或并排。

1.1 按行拼接数据

import pandas as pd

# 创建两个示例DataFrame
data1 = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie']
})

data2 = pd.DataFrame({
    'id': [4, 5, 6],
    'name': ['David', 'Eve', 'Frank']
})

# 使用concat按行拼接
combined_data = pd.concat([data1, data2], ignore_index=True)

print(combined_data)

在这个例子中，concat将两个DataFrame按行合并，并使用ignore_index=True重新索引。如果不使用该参数，合并后的DataFrame会保留原有的索引。

1.2 按列拼接数据

# 创建两个示例DataFrame
data3 = pd.DataFrame({
    'age': [23, 34, 29],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# 按列拼接
combined_columns = pd.concat([data1, data3], axis=1)

print(combined_columns)

axis=1参数表示按列拼接，这在需要将多个属性添加到同一个DataFrame时非常有用。按列拼接时，Pandas会自动根据索引对齐行。

2.使用`merge`进行数据合并

merge函数类似于SQL中的JOIN操作，它可以根据指定的列将两个DataFrame进行合并。

常用的merge方式包括inner、left、right和outer，它们分别对应SQL中的内连接、左连接、右连接和全连接。

2.1 内连接合并

# 创建两个示例DataFrame
df_left = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', 'Charlie', 'David']
})

df_right = pd.DataFrame({
    'id': [3, 4, 5],
    'age': [23, 34, 29]
})

# 使用merge进行内连接合并
merged_inner = pd.merge(df_left, df_right, on='id', how='inner')

print(merged_inner)

在这个例子中，对id列进行了内连接合并，结果只保留了两个DataFrame中id相同的行。

2.2 左连接合并

# 使用merge进行左连接合并
merged_left = pd.merge(df_left, df_right, on='id', how='left')

print(merged_left)

在左连接合并中，左侧DataFrame的所有行都会保留，而右侧DataFrame只会保留匹配的行，其他未匹配到的列将填充NaN。

2.3 外连接合并

# 使用merge进行外连接合并
merged_outer = pd.merge(df_left, df_right, on='id', how='outer')

print(merged_outer)

外连接将保留两个DataFrame中的所有行，并在没有匹配的地方填充NaN。

3.使用`join`进行索引对齐合并

join函数用于基于索引合并两个DataFrame。它类似于merge，但默认情况下会基于索引进行合并。常见的场景是当需要基于行索引将两个表连接在一起时：

# 设置不同的索引
df_left_index = df_left.set_index('id')
df_right_index = df_right.set_index('id')

# 使用join进行索引合并
joined_data = df_left_index.join(df_right_index, how='inner')

print(joined_data)

通过join，可以方便地按照索引将两个DataFrame进行合并。在本例中，join基于id索引进行了内连接合并。

4.多个数据源合并

在实际数据处理中，可能会涉及多个数据源的合并。Pandas可以一次性合并多个DataFrame，支持灵活的数据整合。

# 创建第三个DataFrame
df_third = pd.DataFrame({
    'id': [1, 2, 3],
    'salary': [50000, 60000, 70000]
})

# 依次合并多个DataFrame
merged_multiple = pd.merge(pd.merge(df_left, df_right, on='id', how='inner'), df_third, on='id', how='inner')

print(merged_multiple)

在这个示例中，先将两个DataFrame合并，再将结果与第三个DataFrame合并，完成多个数据源的整合。

5.常见的合并问题与解决方案

5.1 处理重复列名

当两个DataFrame中存在相同的列名时，Pandas默认会为这些列添加后缀，以避免列名冲突。

可以使用suffixes参数来自定义这些后缀：

# 合并时自定义后缀
merged_suffix = pd.merge(df_left, df_right, on='id', suffixes=('_left', '_right'))

print(merged_suffix)

5.2 处理缺失值

在合并数据时，经常会遇到缺失值问题。Pandas在合并时选择如何处理缺失值，例如使用fillna()函数填充缺失值。

# 填充缺失值
filled_data = merged_outer.fillna(0)

print(filled_data)

通过填充缺失值，可以确保数据的完整性，避免因缺失值导致分析结果不准确。

综上所述，本文介绍了使用Pandas进行数据整合，包括concat、merge和join等多种合并方式。通过这些合并操作，可以轻松地将来自多个数据源的数据整合成一个完整的DataFrame，为后续的分析和建模提供基础。