大数据系统及分析技术

本文深入探讨了大数据的关键特征:大量化、多样性、快速化和价值密度低,并介绍了大数据的生命周期,包括数据预处理、建模、检验和应用。大数据处理流程涵盖数据生成、获取、预处理、存储、分析和应用。文中提到了多种大数据存储技术,如分布式文件系统HDFS、NoSQL数据库和云数据库。此外,还详细讨论了大数据分析框架,如批处理的MapReduce、流处理的Storm和交互式计算的Spark。最后,文章指出深度学习、知识计算和可视化是大数据分析的重要组成部分,并对未来的发展趋势进行了展望。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据

    IDC将大数据技术定义为:“为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。” 大数据的关键在于种类繁多、数量庞大、使用传统的数据分析工具无法在可容忍的时间内处理相应的数据。大数据分析主要涉及两个不同的领域:一是如何将海量的数据存储起来,二是如何在短时间内处理大量不同类型的数据,即解决大数据存储与大数据处理等问题

 

大数据概览

大数据的主要特征

大量化(Volume)指数据的数量巨大。日新月异的信息存储技术使得存储大量数据的成本越来越低,特别是分布式存储技术的日益成熟,逐渐使得存储 PB、EB 甚至 ZB 级别的数据成为可能

多样性(Variety)指数据的种类繁多。只需要连上互联网,就可以随时随地查看并获取想要的数据,但与此同时也面临了一系列的挑战。互联网上的数据虽多,但大部分数据的呈现形式为非结构化或半结构化的。如何将不同的数据结构归结到统一的结构中是一个重要的问题

快速化(Velocity)是指目前大数据时代,数据越来越实时化,数据的产生与处理速度逐渐能够满足人们 的需求

价值密度低(Value)是大数据中最为关键的一点, 虽然真实世界中的数据量极大,但真正有价值的内容 却较少。以监控视频为例,虽然监控视频的内容极其之大,但实际有价值的部分可能不过几分钟。如何利用云计算等技术从大量的数据中提取出最为关键、最有价值的部分,并将信息转换成知识是值得研究的内容,如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:4583+数字45782,欢迎添加,私信管理员,了解课程介绍,获取学习资源

大数据的生命周期

    传统的数据分析处理流程中,数据的来源是多种多样的(数据库、社交媒体等),但由于数据价值密度低的特点,通常获取到的数据并不能直接使用进行分析,还需要进行一些列预处理。例如,将无用或者重复的数据过滤并去除,将大量的数据分类并进行管理,根据业务需要对相同类型的数据进行聚合,将非结构化或半结构化的数据结构化并存储到数据库中,或者将原结构化的数据从原有表现形式统一成另一种表示形式,从而使数据井井有条以便于数据分析工作的开展。完成数据整合后,就可以使用统计建模方法建立模型,用数据集进行训练,估计出模型参数。模型建立完成后,在模型投入使用之前还需要对其进行数据检验。最后,训练好的模型要接受新数据的检验, 这一阶段也叫模型评估,它可以用于决策、推荐,也可以通过新收集的数据重新估计参数更新模型

    通过数据建模进行统计分析具有重要商业意义:用户行为数据是大数据中一种较为常见的类型,通过大数据技术可以对用户行为数据(例如商品购买记录, 网页访问记录等等)进行分析,从而挖掘出用户与商品之间的关联性,并以此推荐出用户喜爱的商品

大数据处理流程

    大数据技术的主要流程可以分为

数据生成和获取  大数据来源多种多样,可以来自物联网、互联网、各类传感器等,同时数据的方式也是多种多样的(数字、文字、声音、图片、视频等),归纳起来其主要来源于三个方面

自然界的大数据机器与机器交互产生的数据,主要通过各类传感器采集

生命和生物的大数据主要是研究基因组学、蛋白组学、代谢组学等生物学数据

社交大数据主要来源于人类社会活动,而互联网通常为其载体

    目前大数据的主要研究对象集中在社交数据和自然数据,同时生命和生物的大数据对医学方面的贡献也不容小视

数据预处理  现实中收集到的真实数据通常都是不完整的脏数据,没有办法直接进行数据挖掘和处理,为了提高数据的质量,需要对采集到的原始数据进行预处理。数据预处理的内容主要有

数据审核  主要审核数据的准确性、适用性、及时性、一致性

数据筛选对审核过程中发现的错误进行纠正的过程,通常包括剔除不符合要求的数据、筛选出符合条件的数据两方面内容

数据排序按照一定的顺序把数据进行排列,以便于研究者进一步观察和分析

    数据预处理的主要方法

数据清理  主要目的是格式标准化、清除异常数据、纠正错误

数据集成将多个数据源中的数据结合起来统一存储

数据变换利用规范化、平滑聚集、数据概化等方式将数据转变成有利于数据挖掘的形式

数据规约可以得到规约表,节省挖掘分析时间且仍然能保持数据的完整性

数据存储传统的数据存储方式可以分为块存储、文件存储、对象存储,大数据的存储方式可以分为

分布式系统主要包含分布式文件系统HDFS--具有高度容错性,适用于批量处理并且能够提供高吞吐量的数据访问、分布式键值系统--可以用于存储关系比较简单的半结构化数据,其存储和管理的是对象而不是数据块

NoSQL数据库由于关系数据库已经无法满足大量数据的管理需求,NoSQL可以存储超大规模的数据,具有较好的横向扩展能力

云数据库基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库

    大数据存储技术路线包括

分布式架构  包括Hadoop、MapReduce等,随着相关技术的不断进步,其应用场景也将逐步扩大

大数据一体机专门用于大数据分析处理而设计的软硬件结合的产品,具有良好的稳定性和纵向扩展性

MPP混合架构重点面向行业大数据,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,具有高性能和高扩展性的特点

数据分析挖掘从海量数据中提取出隐含其中的、具有潜在价值的信息,是统计学、人工智能、数据库技术的综合运用

大数据的计算分析框架主要包括

批处理框架

流处理框架

交互式计算框架

混合处理框架

图数据处理框架

数据结果应用大数据已被广泛认为是创造新价值的利器,具有无可估量的资源价值,推动各个领域的快速发展,例如医疗、教育、商

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值