Pandas -- 数据结构，详细介绍_pandas 的 fpath-CSDN博客

本文链接：https://blog.csdn.net/Create_future/article/details/110535068

Pandas学习笔记

读取csv文件：ratings = pd.read_csv(fpath)

pvuv = pd.read_csv(
    fpath,
    sep="\t",
    header=None,
    names=['pdate', 'pv', 'uv']
)
# 查看前几行数据
ratings.head()
# 查看数据的形状，返回(行数、列数)
ratings.shape
# 查看列名列表
ratings.columns
# 查看索引列
ratings.index
# 查看每列的数据类型
ratings.dtypes

读取excel文件

fpath = "你自己的文件地址"
pvuv = pd.read_excel(fpath)

数据结构DataFrame和Series

Series
Series是一种类似于一维数组的对象，它由一组数据（不同数据类型）以及一组与之相关的数据标签（即索引）组成。

# 左侧为索引，右侧是数据，索引默认为0123
s1 = pd.Series([1,'a',5.2,7])
# 获取索引
s1.index
# 获取数据
s1.values
# 更改索引
s2 = pd.Series([1, 'a', 5.2, 7], index=['d','b','a','c'])

使用Python字典创建Series

sdata={'Ohio':35000,'Texas':72000,'Oregon':16000,'Utah':5000}
s3=pd.Series(sdata)
# 查询数据
s3['Ohio']
s3[['Ohio','Texas']]

DataFrame
每列可以是不同的值类型（数值、字符串、布尔值等)
既有行索引index,也有列索引columns
可以被看做由Series组成的字典

data={
        'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002],
        'pop':[1.5,1.7,3.6,2.4,2.9]
    }
df = pd.DataFrame(data)
df['year']
type(df['year']) # 结果是series
df[['year', 'pop']] # 类型就是dataframe
df.loc[1]
df.loc[1:3]