目录
2.5 将Excel/csv文件转换为Pandas DataFrame
1、DataFrame和Series
1.1 什么是DataFrame?
DataFrame:一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。
1.2 什么是Series?
Series 是一个一维数组对象 ,类似于 NumPy 的一维 array。它除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组。
2、DataFrame的创建
2.1 创建空的Dataframe
df = pd.DataFrame(columns=['A', 'B', 'C'], index=[0,1,2])
columns参数用来定义列名,index参数用来定义行号。上面的代码创建了一个3行3列的二维数据表,结果看起来是这样:
嗯,所有数据项都是NaN。
2.2 字典类型→DataFrame
方法1:直接使用pd.DataFrame(data=test_dict),
具体如下:
import pandas as pd
# 用传入等长列表组成的字典来创建(用DataFrame自带索引) 自带列名
test_dict = {
'id':[1,2,3,4,5,6],
'name':['Alice','Bob',
'Cindy','Eric','Helen','Grace '],
'math':[90,89,99,78,97,93],
'english':[89,94,80,94,94,90]
}
test_dict_df = pd.DataFrame(test_dict)
# 传入嵌套字典(字典的值也是字典)创建DataFrame (使用字典内嵌索引) 自带列名
nest_dict = {
'shanghai': {2015: 100, 2016: 101},
'beijing': {2015: 102, 2016: 103}}
test_dict_df2 = pd.DataFrame(nest_dict)
就得到了一个DataFrame,如下
方法2:使用from_dict
方法:
test_dict_df = pd.DataFrame.from_dict(test_dict)
2.3 列表类型→DataFrame
import pandas as pd
test_list = [[1,2,3],['a','b','c']]
test_list_df = pd.DataFrame(test_list)
其结果如下: