(12-3-01)动漫推荐系统:数据分析(1)

本文介绍了如何通过基础数据探索方法,如查看数据格式、统计信息、数据集形状和内容、缺失值检测等,对动漫和评分数据集进行初步分析。作者展示了如何使用Pandas库进行数据预处理,包括数据形状检查、样式化输出、统计摘要和缺失值处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

12.4  数据分析

在接下来的内容中,将分析数据集的中信息,了解动漫信息和对应的用户评分信息,为实现后面的推荐系统打下基础。

12.4.1  基础数据探索方法

在数据分析的初期,我们需要采取一些基础的探索方法,以了解数据的整体情况、结构和特点。这包括:

  1. 查看前几行数据以了解数据的格式和结构。
  2. 统计数据集的基本信息,包括数据类型、非空值数量等。
  3. 描述性统计信息,帮助我们了解数值列的分布情况。

(1)打印输出动漫数据集的形状(shape)和前几行的内容,并通过样式设置使输出结果更具可读性。

# 输出动漫数据集的形状
print(f"Shape of The Anime Dataset: {anime.shape}")

# 输出动漫数据集前几行的内容,通过样式设置使输出更具可读性
print("\nGlimpse of The Dataset:")
anime.head().style.set_properties(**{"background-color": "#2a9d8f", "color": "white", "border": "1.5px solid black"})

对上述代码的具体说明如下所示:

  1. anime.shape:输出数据集的形状,即行数和列数。
  2. anime.head():获取数据集的前几行。
  3. style.set_properties(...):通过样式设置,将输出的背景颜色、文字颜色和边框进行调整。

这样的输出方式使得查看数据集的形状和前几行内容更加清晰,背景颜色、文字颜色的设定进一步增强了可读性。运行这段代码,将看到一个带有样式的表格,展示了动漫数据集的形状和前几行内容,如图12-1所示。

图12-1  数据集的形状和前几行内容

(2)打印输出有关动漫数据集的信息,anime.info() 提供了有关数据集的详细信息,包括每列的非空值数量、数据类型等。

# 输出有关动漫数据集的信息
print("Informations About Anime Dataset :\n")
print(anime.info())

运行这段代码后将得到有关动漫数据集的详细信息,如每列的数据类型、非空值数量等,这对于初步了解数据的结构和特性非常有用。

Informations About Anime Dataset :

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12294 entries, 0 to 12293
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   anime_id  12294 non-null  int64  
 1   name      12294 non-null  object 
 2   genre     12232 non-null  objec
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农三叔

感谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值