Python之Pandas
文章目录
一、pandas是什么?
pandas是"Python data analysis"的简称,字面意思的用在数据分析的,是以Numpy为基础的延申,Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。
二、与Numpy的区别?
主要是矩阵里面的元素可以异构(可以不一样)
三、运用的地方
文件的读取与保存(excel、csv)
制作表
二、基础使用
1.引入库
import pandas as pd
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.读取和保存数据
形参 | 解释 |
---|---|
header | 指定第几行作为列名(忽略注解行),如果没有指定列名,默认header=0; 如果指定了列名header=None |
index_col | 默认为None 用列名作为DataFrame的行标签,如果给出序列,则使用MultiIndex。如果读取某文件,该文件每行末尾都有带分隔符,考虑使用index_col=False使panadas不用第一列作为行的名称。 |
dtype | 例子: {‘a’: np.float64, ‘b’: np.int32} 指定每一列的数据类型,a,b表示列名 |
文件读取:
url形式
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
本地形式
data = pd.read_csv("./test1.txt", sep=' ') #以空格为分隔符读取文件至pandas表格中,其他默认
data = pd.read_csv("./test1.txt", sep=' ', header=None, index_col=False, dtype=np.float64)
3.索引(赋值\修改)
行索引与列索引
----------------------------------
data = pd.DataFrame(np.arange(12, 24).reshape((3, 4)), index=["a", "b", "c"], columns=["A", "B", "C", "D"])
out:
A B C D
a 12 13 14 15
b 16 17 18 19
c 20 21 22 23
----------