数据分析---pandas的高级操作

一、替换操作(replace)

  •  替换操作可以同步作用与Series和DataFrame中

df.replace(to_replace , value , replace , ...)   #将所有to_replace 替换成value

df.replace(to_replace={4:5},value='five' )     #将指定列的元素进行替换,re_place{列索引:被替换的值}

df.replace(to_replace={1:'one'} )                   #字典形式的替换,将1替换成‘One’

二、映射操作(map)

  • 概念:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表现形式)——字典形式的映射关系表
  • 创建一个df,两列分别是姓名和薪资,然后给其名字起对应的英文名

Series_data. map( dic)    #只能给Series数据进行映射(dic)

map只能是Series的方法,只能被Series调用

 三、运算工具(map)

  • 需求:超过3000部分的钱需要缴纳50%的税,计算每个人的税后薪资

 四、排序实现的随机抽样

take([隐式索引],axis=1)       #将原始数据按隐式索引打乱(列打乱)

np.random.permutation(n)   #产生0~n的随机数

 1. 将原始数据的打乱(axis=1) 

 2. 在此基础上将原始数据的行进行打乱(axis=0)

 3. 随机取样 

 五、数据的分类处理

  • 数据分类处理的核心
    • groupby(by , )函数
    • groups属性查看分组情况 

 原始数据:

 1. 对原始数据的水果进行分类并查看分组情况

 2. 为什么要进行分组呢? 为了进行聚合【分组聚合】——计算每一种说过的平均价格

 3. 将计算出的每种颜色的平均重量汇总到源数据,需要用到映射——map(dic),字典数据。

 

 六、高级数据聚合

 当我们分好组之后,想进行一个聚合操作,但是这个聚合操作并没有被pandas封装,那么就需要我们自己封装一个聚合操作,例如mean()。

  • transform( )   #返回映射后的结果
  • apply( )   #返回没有映射的结果

 七、数据加载

1. 读取type-.txt文件

 2. 将文件中每一个词作为元素存放到DataFrame中

 3. 读取数据库中的数据

 八、透视表

  • 透视表是一种可以对数据动态排列并且 分类汇总 的表格格式。在Excel中常用,而在pandas中被称作pivot_table。
  • 透视表优点:
    • 灵活性高,可以随意定制你的分析计算要求
    • 脉络清晰易于理解数据
    • 操作性强,报表神器

1. 导入数据

2. 参数index

 3. 参数values

 4. 参数aggfunc

 5. 参数columns

 九、交叉表

  • 是一种用于计算分组的特殊透视表,对数据进行汇总
  • pd.crosstab(index,columns)
    • index:分组数据,交叉表的行索引
    • columns:交叉表的列索引

1. 原始数据

 2. 求出各个性别(列)抽烟(行)的人数

 3. 求出各个年龄段(行)抽烟(列)人的情况

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值