数据处理
用户数据处理
用户数据一行
第一条数据是: 1::F::1::10::48067
- 首先,读取用户信息文件中的数据:
- 接下来把用户数据的字符串类型的数据转成数字类型,并存储到字典中,实现如下:
- 代码如下:
# 解压数据集
!unzip -o -q -d ~/work/ ~/data/data19736/ml-1m.zip
import numpy as np
def get_usr_info(path):
# 性别转换函数,M-0, F-1
def gender2num(gender):
return 1 if gender == 'F' else 0
# 打开文件,读取所有行到data中
with open(path, 'r') as f:
data = f.readlines()
# 建立用户信息的字典
use_info = {}
max_usr_id = 0
#按行索引数据
for item in data:
# 去除每一行中和数据无关的部分
item = item.strip().split("::")
usr_id = item[0]
# 将字符数据转成数字并保存在字典中
use_info[usr_id] = {'usr_id': int(usr_id),
'gender': gender2num(i