大数据(1)-概论

本文深入探讨了大数据的概念,解析其并非单一技术,而是多种技术的综合应用,涵盖了数据库、文件存储、处理平台等。文章阐述了大数据的历史背景,从1998年首次提出至今,已发展出一整套解决方案。同时,文中详细介绍了大数据的分类,包括结构化与非结构化数据,以及内外部数据源。此外,还讨论了大数据面临的四大挑战:数据获取、时效性、安全性和成本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是大数据?

首先大数据不是一门专门的技术,而是一些列技术的综合应用,各类数据库、文件存储、处理平台、操作系统甚至是硬件的综合。

“大数据”这个词被广为流传,但真正说起来,它更是一种市场用语,是营销手段的产物。“大数据”所代表的是一种较新的理念,一种对数据处理的新的技术组合,一种新的解决数据或企业运营的思路。

“大数据”所包含的概念很早就被提出,而被具体化成一个名词概念,则是在1998年被提出的。

截止到现在,大数据市场已经有了一整套合理而可行的解决方案。

大数据的数据是哪些?

大数据的涵盖范围之广,囊括了所有可以具体承载在计算机中的数据。归纳一下主要就是结构化的数据与非机构化的数据,结构化的数据一般存放在关系型数据库,如mysql\oracle等常见数据库,非结构化数据则多种多样,如文本、图片、语音数据、视频数据等。

而从来源上区分,则有企业内部数据与外部数据的区别。内部数据是企业可以直接获取的数据,是指企业在运营过程中所产生的所有数据的综合,如作为一般公司来说,人员管理、资产管理、财务管理、生产管理等产生的记录信息,在与客户沟通过程中产生的录音或视频,由各种终端上报给服务器的各种信息等。外部数据则是企业通过购买,爬取等手段所能获取的数据,作为购买的数据,一般都是脱敏后的数据,而爬取来的数据风险就会较大,很容易产生侵权现象。

大数据的挑战

大数据面临的挑战有不少,但从关键点来说,主要有这么四点:

1、数据获取:比如面向目标市场的社会数据分析,单靠企业内部产生的数据是远远不足的,需要以合理的手段获取可以扩展或弥补企业缺失的数据,而通过外部获取的数据质量都是不可控的。再有,随着网络安全策略的日益完善,爬虫所能爬取的数据也越来越局限。

2、时效性:时间在各种指标分析中,都是一个关键因素,你不能摆脱它。数据处理必然会耗用时间,这个时间的跨度与我们需求的紧凑性会产生矛盾。我们需要做出一定的取舍。

3、安全性:我们获取数据时,获取的数据是否合法,是否在侵犯用户隐私,这些都是要慎之又慎,要明确的。

4、成本:大数据的处理毕竟耗费大量的计算资源,这对企业运营来说是一定要进行权衡的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值