12.4 数据分析
在接下来的内容中,将分析数据集的中信息,了解动漫信息和对应的用户评分信息,为实现后面的推荐系统打下基础。
12.4.1 基础数据探索方法
在数据分析的初期,我们需要采取一些基础的探索方法,以了解数据的整体情况、结构和特点。这包括:
- 查看前几行数据以了解数据的格式和结构。
- 统计数据集的基本信息,包括数据类型、非空值数量等。
- 描述性统计信息,帮助我们了解数值列的分布情况。
(1)打印输出动漫数据集的形状(shape)和前几行的内容,并通过样式设置使输出结果更具可读性。
# 输出动漫数据集的形状
print(f"Shape of The Anime Dataset: {anime.shape}")
# 输出动漫数据集前几行的内容,通过样式设置使输出更具可读性
print("\nGlimpse of The Dataset:")
anime.head().style.set_properties(**{"background-color": "#2a9d8f", "color": "white", "border": "1.5px solid black"})
对上述代码的具体说明如下所示:
- anime.shape:输出数据集的形状,即行数和列数。
- anime.head():获取数据集的前几行。
- style.set_properties(...):通过样式设置,将输出的背景颜色、文字颜色和边框进行调整。
这样的输出方式使得查看数据集的形状和前几行内容更加清晰,背景颜色、文字颜色的设定进一步增强了可读性。运行这段代码,将看到一个带有样式的表格,展示了动漫数据集的形状和前几行内容,如图12-1所示。
图12-1 数据集的形状和前几行内容
(2)打印输出有关动漫数据集的信息,anime.info() 提供了有关数据集的详细信息,包括每列的非空值数量、数据类型等。
# 输出有关动漫数据集的信息
print("Informations About Anime Dataset :\n")
print(anime.info())
运行这段代码后将得到有关动漫数据集的详细信息,如每列的数据类型、非空值数量等,这对于初步了解数据的结构和特性非常有用。
Informations About Anime Dataset :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12294 entries, 0 to 12293
Data columns (total 7 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 anime_id 12294 non-null int64
1 name 12294 non-null object
2 genre 12232 non-null objec