Pandas学习笔记
官网文档
- 读取csv文件:
ratings = pd.read_csv(fpath)
pvuv = pd.read_csv(
fpath,
sep="\t",
header=None,
names=['pdate', 'pv', 'uv']
)
ratings.head()
ratings.shape
ratings.columns
ratings.index
ratings.dtypes
fpath = "你自己的文件地址"
pvuv = pd.read_excel(fpath)
数据结构DataFrame和Series
- Series
Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成。
s1 = pd.Series([1,'a',5.2,7])
s1.index
s1.values
s2 = pd.Series([1, 'a', 5.2, 7], index=['d','b','a','c'])
sdata={'Ohio':35000,'Texas':72000,'Oregon':16000,'Utah':5000}
s3=pd.Series(sdata)
s3['Ohio']
s3[['Ohio','Texas']]
- DataFrame
- 每列可以是不同的值类型(数值、字符串、布尔值等)
- 既有行索引index,也有列索引columns
- 可以被看做由Series组成的字典
data={
'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002],
'pop':[1.5,1.7,3.6,2.4,2.9]
}
df = pd.DataFrame(data)
df['year']
type(df['year'])
df[['year', 'pop']]
df.loc[1]
df.loc[1:3]