数据分析---pandas的高级操作

S1406793

已于 2022-03-15 15:58:00 修改

阅读量4.9k

点赞数

分类专栏：数据分析文章标签：数据分析数据挖掘

于 2022-03-15 14:28:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/S1406793/article/details/123497393

版权

数据分析专栏收录该内容

12 篇文章

订阅专栏

一、替换操作(replace)

替换操作可以同步作用与Series和DataFrame中

df.replace(to_replace , value , replace , ...) #将所有to_replace 替换成value

df.replace(to_replace={4:5},value='five' ) #将指定列的元素进行替换，re_place{列索引：被替换的值}

df.replace(to_replace={1:'one'} ) #字典形式的替换，将1替换成‘One’

二、映射操作(map)

概念：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定（给一个元素值提供不同的表现形式）——字典形式的映射关系表
创建一个df，两列分别是姓名和薪资，然后给其名字起对应的英文名

Series_data. map( dic) #只能给Series数据进行映射(dic)

map只能是Series的方法，只能被Series调用

三、运算工具(map)

需求：超过3000部分的钱需要缴纳50%的税，计算每个人的税后薪资

四、排序实现的随机抽样

take([隐式索引]，axis=1) #将原始数据按隐式索引打乱（列打乱）

np.random.permutation(n) #产生0~n的随机数

1. 将原始数据的列打乱（axis=1）

2. 在此基础上将原始数据的行进行打乱（axis=0）

3. 随机取样

五、数据的分类处理

数据分类处理的核心
groupby(by , )函数
groups属性查看分组情况

原始数据：

1. 对原始数据的水果进行分类并查看分组情况

2. 为什么要进行分组呢？为了进行聚合【分组聚合】——计算每一种说过的平均价格

3. 将计算出的每种颜色的平均重量汇总到源数据，需要用到映射——map(dic),字典数据。

六、高级数据聚合

当我们分好组之后，想进行一个聚合操作，但是这个聚合操作并没有被pandas封装，那么就需要我们自己封装一个聚合操作，例如mean()。

transform( ) #返回映射后的结果
apply( ) #返回没有映射的结果

七、数据加载

1. 读取type-.txt文件

2. 将文件中每一个词作为元素存放到DataFrame中

3. 读取数据库中的数据

八、透视表

透视表是一种可以对数据动态排列并且分类汇总的表格格式。在Excel中常用，而在pandas中被称作pivot_table。
透视表优点：
- 灵活性高，可以随意定制你的分析计算要求
- 脉络清晰易于理解数据
- 操作性强，报表神器

1. 导入数据

2. 参数index

3. 参数values

4. 参数aggfunc

5. 参数columns

九、交叉表

是一种用于计算分组的特殊透视表，对数据进行汇总
pd.crosstab(index,columns)
index：分组数据，交叉表的行索引
columns：交叉表的列索引

1. 原始数据

2. 求出各个性别（列）抽烟（行）的人数

3. 求出各个年龄段（行）抽烟（列）人的情况

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。