首先大数据不是一门专门的技术,而是一些列技术的综合应用,各类数据库、文件存储、处理平台、操作系统甚至是硬件的综合。
“大数据”这个词被广为流传,但真正说起来,它更是一种市场用语,是营销手段的产物。“大数据”所代表的是一种较新的理念,一种对数据处理的新的技术组合,一种新的解决数据或企业运营的思路。
“大数据”所包含的概念很早就被提出,而被具体化成一个名词概念,则是在1998年被提出的。
截止到现在,大数据市场已经有了一整套合理而可行的解决方案。
大数据的涵盖范围之广,囊括了所有可以具体承载在计算机中的数据。归纳一下主要就是结构化的数据与非机构化的数据,结构化的数据一般存放在关系型数据库,如mysql\oracle等常见数据库,非结构化数据则多种多样,如文本、图片、语音数据、视频数据等。
而从来源上区分,则有企业内部数据与外部数据的区别。内部数据是企业可以直接获取的数据,是指企业在运营过程中所产生的所有数据的综合,如作为一般公司来说,人员管理、资产管理、财务管理、生产管理等产生的记录信息,在与客户沟通过程中产生的录音或视频,由各种终端上报给服务器的各种信息等。外部数据则是企业通过购买,爬取等手段所能获取的数据,作为购买的数据,一般都是脱敏后的数据,而爬取来的数据风险就会较大,很容易产生侵权现象。
大数据面临的挑战有不少,但从关键点来说,主要有这么四点:
1、数据获取:比如面向目标市场的社会数据分析,单靠企业内部产生的数据是远远不足的,需要以合理的手段获取可以扩展或弥补企业缺失的数据,而通过外部获取的数据质量都是不可控的。再有,随着网络安全策略的日益完善,爬虫所能爬取的数据也越来越局限。
2、时效性:时间在各种指标分析中,都是一个关键因素,你不能摆脱它。数据处理必然会耗用时间,这个时间的跨度与我们需求的紧凑性会产生矛盾。我们需要做出一定的取舍。
3、安全性:我们获取数据时,获取的数据是否合法,是否在侵犯用户隐私,这些都是要慎之又慎,要明确的。
4、成本:大数据的处理毕竟耗费大量的计算资源,这对企业运营来说是一定要进行权衡的。