Data Analysis and Processing Technology
数据的单位
从小到大依次是:
- bit
- Byte,
- KB
- MB
- GB
- TB
- PB
- EB
- ZB
- YB
- BB
- NB
- DB
之间的进率除了Byte和bit之间是1Byte = 8bit,其余的都为 2 10 2^{10} 210也就是1024,举个例子:1KB = 2 10 2^{10} 210Byte = 1024Byte
记忆方法
前面的KMG都很好记,因为比较常用,计算机网络里面也经常用到。后面的顺序依次为TPEZ YBND,可以四个四个这样记。
几个概念
数据
客观对象的表示,客观反映事实的数字和资料。
信息
数据内涵的意义,数据的内容和解释。
信息与数据的关系
信息与数据是不可分离的,数据是信息的表达,信息是数据的内涵。
数据的分类
结构化数据
能够用数据或统一的结构加以表示。例如数字。
存储在结构化数据库中,可以用二维表结构来逻辑表达实现的数据。
非结构化数据
无法用数字或统一的结构表示。例如图像、声音、所有格式的办公文档、各类报表、视频信息等。
半结构化数据
介于完全结构化数据和完全无结构的数据之间的数据。例如HTML文档。
数据的结构和内容混在一起,没有明显的区分。
结构化数据属于非结构化数据的一部分,是特例。
信息的分类
结构化信息
信息的性质和量值的出现的位置是固定的。例如电子商务信息。
非结构化信息
所有内容是不可预知的。例如博客和BBS。
半结构化信息
规则的和不规则的混杂在一起。
大数据定义
数据数量非常庞大,大到在合理时间内无法通过目前主流软件工具进行相关操作(管理、处理、整理etc.)
大数据本质包含 数量、类型、速度三个维度的问题。
大数据特点(4V+1C)
- Value价值密度低
有效的信息可能比较少,数据量又庞大的情况下,价值密度肯定是低的。 - Velocity快速
数据增长速度块,要求对数据的处理速度也要块。 - Volume数据量大
不然为什么叫大数据呢?PB级别是起始单位。 - Variety多样
数据的来源及结构多样。 - Complexity复杂度
对数据的处理和分析难度比较大。
大数据强调全体数据的观念,而非小数据的随机抽样。
数据处理的过程
要全体不要抽样,要效率不要绝对精确,要相关不要因果。
数据处理的过程可以概况为四个步骤:采集、导入和预处理、统计和分析、数据挖掘。
以音乐软件采集用户听歌喜好数据来分析这些过程。
第一步-采集
定义:利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库进行简单的查询和处理工作。
实例:用户在听歌过程中,将某一首歌加入了收藏,此时我们的音乐软件就可以收集此音乐的类型标签信息加入相关的用户数据库中,或者收集其他的信息。
第二步-导入和预处理
定义:在对数据处理之前的清洗,摘除掉一些无关的信息。
实例:用户在使用音乐软件的时候,还补充了一些个人信息,例如年龄、地区、性别之类的。假设我们此时只想分析年龄和听歌喜好,那么地区、性别这些无关信息就可以抛弃不要。因为数据量实在很大,如果能减少无关数据的输入,那么处理速度就会进一步得到提升。那我们必然可以想到这样一个问题,如果数据大到一个数据库不足以存放的下,该怎么办呢?答案是多增加几个数据库不就好了嘛!利用分布式数据库或分布式存储集群(毕竟不是所有数据库实体都能放在一块儿),换而言之,是将这些数据分布存储到不同的主机上。
第三步-统计和分析
实例:终于拿到必需的数据了,现在进行操作。假如我们想统计不同年龄段的听歌喜好(类型),那么我们就遍历这些数据,将得到的听歌喜好累加在对应的年龄段总喜好上。(这其实是Map + Reduce的过程)
第四步-数据挖掘
定义:在现有数据上面进行基于各种各种算法的计算,从而起到预测的效果。
实例:基于历史的听歌喜好,我们想给用户提供每日推荐功能,那么就需要在已有的数据中运行算法,来预测用户可能加入收藏的歌曲。这一步就是数据挖掘。