数据分析准备阶段遇到的若干问题

本文深入讲解数据分析的三个核心模块:数据准备,利用Python的numpy和pandas库进行数据操作;数据获取,介绍如何使用sklearn模块获取经典数据集并从UCI网站读取数据;数据探索,演示如何统计字段值及进行字符串截取。适合初学者和实践者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分析的三个基本模块

import numpy as np #数组
import pandas as pd 
import matplotlib.pyplot as plt #可视化

1、将两个一维数组转换成二维数组。如将DataFrame的某字段作为其中一个数组,另一个数组的元素都为零,如下:

X=np.array(list(zip(np.array(df['user_count']),np.zeros(shape=(500000,)))))

2、数据来源,做数据分析肯定需要一份可以用来分析与挖掘的数据,在sklearn模块中有几份较小的数据,如鸢尾花数据

from sklearn import datasets
iris = datasets.load_iris()

得到的数据是iris.data和iris.target是numpy.ndarray类型的。其位于D:\XXXX\Anaconda3\Lib\site-packages\sklearn\datasets\data中,更多的数据可见UCI的数据网站查看。通过Python可以直接调用(若不能调用,可先下载)

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
df = pd.read_csv(url, names=names) 

此时是pandas.DataFrame类型数据。

3、查看某字段/特征中各数值个数

对于numpy.ndarray,借助其他模块

from collections import Counter
Counter(oversampled_trainY)

Out[42]

Counter({2: 1298071, 1: 1298071})

对于pandas.DataFrame,就一句

df['class'].value_counts()

4、字符串截取——DataFrame

Data的某个字段的截取,类比mysql的substr

data={'country':['China','America','India'],'poplation':[14,3,13]}
data=pd.DataFrame(data)
data
 countrypoplation
0China14
1America3
2India13
data['country'].str[0:2]

Out[35]:

0    Ch
1    Am
2    In
Name: country, dtype: object

未完待续。。。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值