
python 数据分析
文章平均质量分 59
学习笔记
Han_python
一个机械工程师
展开
-
Matploblib库
基本绘图plotargs kwargs plot([x], y, [fmt], data=None, **kwargs) plot([x], y, [fmt], [x2], y2, [fmt2], ..., **kwargs)[fmt] 可以用来设置线条样式和颜色plt.plot中的data参数可以为一个字典或者DataFrame对象,然后子啊x和y上指定列的名字。plt.plot('a','b','',data = data1 )y1 = [np.random.randint(0,1原创 2021-07-14 22:30:48 · 380 阅读 · 0 评论 -
pandas小结
原创 2021-07-11 13:37:21 · 190 阅读 · 0 评论 -
numpy小结
原创 2021-07-08 21:45:58 · 244 阅读 · 0 评论 -
python数据分析77-79
分组和聚合原创 2021-07-06 23:38:03 · 225 阅读 · 2 评论 -
python数据分析72 -76
数据规整pd.merge()如果没有对应的key值,而索引可以对应,可以设置按索引链接:需要着重记住 left_on 和 right_index 两个参数join()要求两组数据没有重叠的列pd.concat()np.concatenate()pd.cancat()默认axis = 0join默认为outerSeries合并时查看索引有无重复pd.concat([data1,data2],axis = 1)...原创 2021-07-05 21:57:27 · 133 阅读 · 1 评论 -
python数据分析68-71
字符串操作append方法注意事项split()分隔strip()去空白字符join() 方法‘a’ in data # a是否在data中data.index('a') #返回a的索引data.find('a') # 查找a,找到则返回索引下标位置,没有找到返回-1val.replace('a','b') #将a替换为b正则表达式要使用正则表达式,需要导入re模块 import rere.split()re.compile()将经常用到的正则表达原创 2021-07-04 20:04:02 · 407 阅读 · 1 评论 -
python数据分析63-67
数据准备replace()函数两种等价的写法原创 2021-07-04 10:54:30 · 116 阅读 · 0 评论 -
python数据分析61-62 重点
数据处理使用data.duplicated()方法可以判断数据是否重复使用data.drop_duplicates()可以删除重复行,默认检测所有列,也可以指定data.drop_duplicates(['k1']) 以k1列来判断利用映射进行数据转换可以使用lower()函数,取出food类型,简化对应关系的建立还可以使用lambda函数进一步简化:lambdamap...原创 2021-07-03 21:21:43 · 120 阅读 · 0 评论 -
python数据分析59-60
数据加载与处理编码报错read_csv 默认分隔符为逗号read_table 默认分隔符为换行符因此,会把逗号也读取出来,我们可以设置原创 2021-07-02 22:31:37 · 289 阅读 · 2 评论 -
pandas数据分析49-58
对齐运算原创 2021-06-30 23:53:56 · 215 阅读 · 5 评论 -
python数据分析41-48
Pandas的索引操作Series和DataFrame中的索引都是Index对象索引对象不可变,保证了数据的安全常见的Index种类:Index索引Int64Index,整数索引MultiIndex,层级索引DatetimeInex,时间戳类型变更索引:reindexSeries:DataFrame:增加索引:Series:s1['a'] = 2如果想要在不改变原有对象的基础上增加一个索引,需要使用append()方法s3= s1.append(s2)原创 2021-06-29 23:57:14 · 170 阅读 · 2 评论 -
python数据分析pandas 33-40
PandasPandas的数据结构,主要包含两个,Series和DataframeSeriesSeries 是一种一维标记的数组型对象,能够保存任何数据类型,包含数据和索引。创建方法:使用列表 s1 = pd.Series([1,2,3,4])使用数组s1 = pd,Series(np.arange(1,10))Series的首字母大写可以指定索引s2 = pd.Series([1,2,3,4],index=[“a”,“b”,“c”,“d”]) ,但索引长度必须相同还可以通过字典原创 2021-06-28 22:30:22 · 223 阅读 · 3 评论 -
python数据分析25-32
np.random模块np.random.seed生成随机数时候的种子np.random,rand()产生一个0-1之间的随机数np.random.rand(2,3)生成一个两行三列的0-1之间的随机数数组np.random.randn()生成均值为0,标准差为1的标准正态分布np.random.randint(1,20,size=(3,4))随机整数np.random.choice([2,3,1,4],2) 从一个列表或者数组中随机采样,采样个数可以通过参数指定np.random.sh原创 2021-06-27 15:13:49 · 424 阅读 · 0 评论 -
python数据分析22-24
空值处理NAN和INF值处理NAN: not a number 属于浮点类型INF: infinity 无穷大,也属于浮点类型NAN和NAN不相等NAN和任何值做运算,结果都是NAN删除NAN直接删除空值用np.isnan()函数来判断空值然后使用布尔索引的方法来取出空值加~表示取反删除空值后,数组会变成一维数组删除空值所在的行...原创 2021-06-27 12:19:14 · 326 阅读 · 0 评论 -
python数据分析18-21
文件操作操作csv文件原创 2021-06-26 20:58:41 · 6550 阅读 · 2 评论 -
python数据分析10-17
数组的值替换数组值的替换有三种方法:使用索引或者切片来替换使用条件来替换使用where函数来替换条件判断bool索引布尔索引可以返回一个包含true和false的同纬度的数组& 与|或切片的方式where函数需要传入一个条件和两个参数,将满足条件的用第一个参数来替换,不满足的用第二个替换数组的运算数组与数的运算因为数组有广播机制,所以直接在数组上运算即可a = a*2数组与数组的运算数组之间要实现运算,需要满足下面三个条件中的任意一个两个数组有相同的s原创 2021-06-25 22:36:05 · 180 阅读 · 1 评论 -
python数据分析1-9
Anaconda集成了python3及一些库的安装包,镜像网址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda prompt 是专门用来操作anaconda的终端Jupyter notebook 的使用 :先打开 Anaconda Prompt终端,然后进入项目所在目录比如先输入D: 切换盘符cd 接 对应目录输入jupyter notebook 即可进入jupyter notebook 工作环境创建新原创 2021-06-25 00:21:45 · 255 阅读 · 4 评论