原文:KDNuggets
数据工程——数据科学的“表亲”,颇具挑战
原文:
www.kdnuggets.com/2021/01/data-engineering-troublesome.html
评论
作者:Lissie Mei,Visa 数据科学家。
我们总是认为数据科学是“21 世纪最性感的工作”。当涉及到从传统公司向分析公司转型时,公司的期待或数据科学家们都希望尽快进入数据分析的炫目世界。但情况总是如此吗?
我们的三大推荐课程
1. Google 网络安全证书 - 快速进入网络安全职业之路。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作
一个麻烦的开始
自从我们 UC Davis 的实习团队开始与 Hilti,一家领先的电动工具及相关服务制造公司,合作以来,我们制定了几个精彩的蓝图:定价自动化、倾向模型……与这样一家伟大的公司合作对我们而言是一个宝贵的机会,我们迫不及待地想要发挥我们的分析技能以创造商业价值。但当我们开始接触数据时,我们发现,与数据驱动的公司如电子商务公司相比,从传统公司直接获取干净且结构化的数据是非常困难的。
由于我主要负责项目的数据清理和工程,我亲眼见证了由于数据准备不足,我们在分析进展中受到的阻碍。
我亲眼见证了由于数据准备不足,我们在分析进展中受到的阻碍。
我们直接与财务团队合作,但另一个团队,定价运营,实际上负责数据库的管理。最初,由于我们几乎无法及时请求和查询数据或联系相关人员,流程进展缓慢。此外,由于 Hilti 的销售数据较为敏感,公司缺乏安全的数据传输方式,每次数据请求都需要耗时的数据掩码处理。第三,数据工程的不足导致了多个参考表之间的不一致,我们几乎无法建立可靠的模型或得出结论。最后,我们必须处理各种数据类型:CSV、JSON、SQLite 等……虽然这是一个学习的好机会。
大约两个月后,我们准备好了所有的数据,每一个异常情况也都被讨论并解决。
深入探索时间!
我们精心开发的可视化框架和模型迫不及待想要尝试新数据。然而,当我们用实际数据展示第一个提案时,最尴尬的事情发生了。
猜猜怎么了?那些大数字似乎对不上。经过简短的讨论,我们意识到我们根本没有收到完整的数据。我们只关注了数据的细节,例如异常值和数据源之间的关系,却忘记了进行基本的检查,比如总和和计数。这是我将终身铭记的教训。真的!
数据工程为何如此重要
我从数据工程的经历中学到的最重要的一点是,那些在幕后工作的角色,如数据工程师,实际上掌握了创新的门户。当传统公司考虑利用数据时,最有效且最初的行动应该是改善数据工程流程。拥有优秀的数据工程师,公司可以构建一个健康且可扩展的数据管道,这使得数据分析师进行数据挖掘和发现商业洞察变得更容易。
我还了解到,为什么许多公司要求数据分析师掌握编程相关工具,比如 Python 和 Scala,除了分析工具如 SQL 和 Excel。通常,我们不能期待一个“全栈”分析师,但确实需要有能够与工程人员和管理人员沟通的人。尽管明确的工作分配对高效率很重要,但每个数据工具的专家确实很有吸引力。
全栈……有道理!
我期待自己未来能够学习前端和后端的知识,比如 Java、JavaScript、Kafka、Spark 和 Hive,我相信这些最终会成为我经验中的亮点。
原文。经授权转载。
相关:
相关话题
数据无处不在,它驱动着我们所做的一切!
原文:
www.kdnuggets.com/2020/08/data-everywhere-powers-everything.html
评论
由 Pradeep Adaviswamy 提供,Bahwan CyberTek 的区域分析经理
我们的前三大课程推荐
1. Google 网络安全证书 - 快速进入网络安全职业的快车道。
2. Google 数据分析专业证书 - 提升您的数据分析能力
3. Google IT 支持专业证书 - 支持您的组织 IT
大自然赋予了我们火、水、空间、空气和土地这五大元素或资源,现在我们需要将数据也加入到这个列表中。
自然也通过 DNA 处理自身的数据集,并且这些数据是有机组织的。现在我们有责任有效地利用我们拥有的数据。
我们都在大量生成数据,现在组织面临的挑战是策划和货币化这些数据,以便在市场上变得具有竞争力,实现生存,并为其产品和服务带来创新和盈利。
在本文中,我希望重点讨论公司如何启动以数据为中心的策略,以及如何在数据转型过程中取得成功。
一些组织拥有正确的“成分”(数据),他们需要提出正确的洞察以便利用这些数据;而另一些组织则拥有正确的用例,他们需要找到正确的“成分”(数据)来解决和实现这些用例。这两种方法都有效,关键在于他们的数据战略的整体成功,以实现最终的商业目标和目的。
数据货币化是新的全球经济,无论是老牌公司、大公司、小公司还是初创公司,都必须智能地捕获、存储、处理和消费数据。这必须是一个持续的反馈循环数据周期。有大量的工具和技术可以处理这个数据周期,但成功取决于组织的方向和治理。
行业研究和实地经验表明,永远不要采用“大干快上”的方法(‘大思考,小开始’),在建立企业数据项目时,始终设立临时检查点。组织不应认为拥有大数据/数据湖设置或人工智能实验室就能解决所有的数据分析需求。
如果公司采用以数据为中心的架构方法,并有一个全面的管理机构,那么将会繁荣,否则,仅仅拥有数据湖/中心是无法带领公司前进的。数据湖必须得到维护、策划和保护等,不能仅仅被视为企业数据存储解决方案,否则数据将会过时。
公司应始终致力于制定数据战略,这些数据战略应促进数据治理的民主化和企业数据素养,这可以成为整体业务绩效的催化剂,赋能用户,并带来自主性。
组织不应鼓励团队走捷径,只追求眼前的成功(如果他们的整体愿景是长期的)。我将这种处理数据的捷径过程称为***‘数据乱穿马路’***。如果公司想要进行商业智能、分析或数据科学,业务单元的领导应确保数据工程师、分析师和数据科学家不采取任何不科学的捷径。他们应避免在执行任务和构建 AI 模型时出现盲点。整体成功不应仅通过概念验证(PoC)或 AI 实验室原型结果来衡量,而应通过大规模部署和对业务及最终用户的影响来衡量。
数据领导者(如首席信息官、首席数据官、首席分析官等)应始终提出正确的数据问题,参与并监督数据策划、数据准备阶段及审查,以建立一个强大的组织数据语料库。这将为分析、数据科学/AI 模型构建和部署打下基础,同时与 AI 模型治理相结合。
一旦数据语料库准备好,组织可以获得合适的工具来构建和获取洞察。在数据分析的过程中,组织可能会遇到一些困难,比如在将数据策略付诸实践时可能面临的挑战(例如,挑战可能来自架构、数据基础设施、能力、运行成本、业务用户的期望、人员等)。这些挑战必须尽早解决和克服。
公司必须把数据视为其增长的关键,以便保持竞争力、变得更加智能、创新,并为任何无法预见的市场惊喜做好准备。
希望这篇文章的内容对你有帮助,并与你的经验和想法产生共鸣?欢迎分享你的想法、反馈和评论。
简介:Pradeep Adaviswamy 是 Bahwan CyberTek 的区域分析经理。他在解决方案设计与架构、大数据、商业智能、数据科学与分析、企业数据湖、数据管理与数据治理(DMBoK)、ETL、数据仓库、数据建模、数据可视化和人工智能等方面拥有约 17 年的经验。
原文。经许可转载。
相关:
-
每位数据科学家需要向商业领袖学习的内容
-
向您的大数据提出的 3 个关键数据科学问题
-
数据分析中的 5 大趋势
更多相关话题
机器学习的数据结构 – 第二部分:构建知识图谱
原文:
www.kdnuggets.com/2019/06/data-fabric-machine-learning-building-knowledge-graph.html
评论
介绍
我们的前 3 个课程推荐
1. Google 网络安全证书 - 快速进入网络安全职业
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织的 IT
在系列文章的最后:
[机器学习的数据结构。第一部分。
如何利用语义的新进展提高我们在机器学习中的表现。 towardsdatascience.com
[机器学习的数据结构。第 1-b 部分:图上的深度学习。
图上的深度学习日益重要。在这里,我将展示思考机器学习的基础… towardsdatascience.com
我已经在谈论数据结构的一般情况,并给出了一些数据结构中机器学习和深度学习的概念。同时也给出了我对数据结构的定义:
数据结构是支持公司中所有数据的平台。它的管理、描述、组合和普遍访问方式。该平台由企业知识图谱构成,以创建统一的数据环境。
如果你查看定义,它会说数据结构是由企业知识图谱形成的。因此,我们最好了解如何创建和管理它。
目标
一般
建立知识图谱理论和构建的基础。
细节
-
解释与企业相关的知识图谱概念。
-
关于建立成功的企业知识图谱提供一些建议。
-
展示知识图谱的例子。
主要理论
数据结构中的数据结构是通过知识图谱构建的,要创建知识图谱,你需要语义和本体来寻找有效的方式将数据链接起来,以独特地识别和连接具有共同业务术语的数据。
第一部分。什么是知识图谱?
medium.com/@sderymail/challenges-of-knowledge-graph-part-1-d9ffe9e35214
知识图谱由整合的数据和信息集合组成,并且还包含大量不同数据之间的链接。
关键在于,在这种新模型下,我们正在寻找答案。我们希望获得事实——这些事实来自哪里并不那么重要。这里的数据可以表示概念、对象、事物、人物,实际上可以是你脑海中想到的任何东西。图谱填补了概念之间的关系和连接。
在这种情况下,我们可以向数据湖提问:
这里有什么?
我们在这里的情况不同。一个可以建立框架来研究数据及其与其他数据关系的地方。在知识图谱中,以特定形式的本体表示的信息可以更容易被自动信息处理访问,如何最好地实现这一点是计算机科学如数据科学中的一个活跃研究领域。
所有数据建模声明(以及其他所有内容)在本体语言和知识图谱的世界中本质上都是渐进的。事后增强或修改数据模型可以通过修改概念来轻松完成。
通过知识图谱,我们正在构建一个人类可读的数据表示,这个表示唯一标识并连接了带有共同业务术语的数据。这个“层”帮助最终用户自主、安全、可靠地访问数据。
记得这个图像吗?
我之前提出过,数据结构中的洞察力可以被看作是其中的一个缺口。发现这种洞察力的自动化过程就是机器学习。
但这个结构是什么?它是由知识图谱形成的对象。就像在爱因斯坦的相对论中,结构是由时空的连续体(或离散体?)构成的,这里,结构是在你创建知识图谱时建立的。
构建知识图谱需要链接数据。链接数据的目标是以一种可以轻松消费并与其他链接数据结合的方式发布结构化数据,本体则是我们连接实体并理解它们关系的方式。
第二部分:创建成功的企业知识图谱
www.freepik.com/free-vector/real-estate-development-flat-icon_4167283.htm
不久前,Sébastien Dery 撰写了一篇关于知识图谱挑战的有趣文章。你可以查看一下:
[知识图谱的挑战
从字符串到事物——介绍 medium.com](https://medium.com/@sderymail/challenges-of-knowledge-graph-part-1-d9ffe9e35214)
来自伟大的博客cambridgesemantics.com
[学习 RDF
介绍 这组课程是对 RDF 的介绍,RDF 是语义网的核心数据模型和基础…… www.cambridgesemantics.com](https://www.cambridgesemantics.com/blog/semantic-university/learn-rdf/)
还有更多的资源,其中一个我在任何文章中都没有提到但非常重要的概念是三元组:主题、对象和谓词(或实体-属性-值)。通常,当你学习三元组时,它们实际上指的是资源描述框架(RDF)。
RDF 是三种基础语义网技术之一,另外两种是 SPARQL 和 OWL。RDF 是语义网的数据模型。
注意:哦,顺便提一下,几乎所有这些概念都是随着对万维网语义的新定义而来的,但我们将其用于一般的知识图谱。
我不打算在这里提供框架的完整描述,但我会给你一个它们如何工作的示例。请记住,我这样做是因为这是我们开始构建本体、链接数据和知识图谱的方式。
让我们看一个示例,看看这些三元组是什么。这与 Sebastien 的示例密切相关。
我们将从字符串“geoffrey hinton”开始。
这里我们有一个简单的字符串,它表示第一个边界,即我想了解更多的内容。
现在开始构建知识图谱,系统首先会识别到该字符串实际上指的是Geoffrey Hinton。然后,它会识别与此人相关的实体。
然后我们有一些与 Geoffrey 相关的实体,但我们还不知道它们是什么。
顺便提一下,如果你不认识这是Geoffrey Hinton:
然后系统会开始给关系命名:
现在我们有了命名的关系,我们知道我们的主要实体的连接类型。
该系统可以继续寻找连接的连接,从而创建一个巨大的图谱,代表我们“搜索字符串”的不同关系。
为此,知识图谱使用三元组。像这样:
要获得一个三元组,我们需要一个主题和对象,以及一个连接这两者的谓词。
正如你所看到的,我们有主体 与 对象 通过 谓词 相关。这对我们人类来说可能听起来很简单,但要用机器完成这项工作需要一个非常全面的框架。
这就是知识图谱形成的方式,以及我们如何使用本体论和语义来链接数据。
那么,我们需要什么来创建一个成功的知识图谱?来自 Cambridge Semantics 的 Partha Sarathi 写了一篇关于此的精彩博客。你可以在这里阅读:
自从 Google 在 2012 年通过一篇关于增强网页搜索的流行博客主流化知识图谱以来,企业们…… blog.cambridgesemantics.com
总结来说,他表示我们需要:
-
构思它的人: 你需要具备一些形式的业务关键领域专业知识和技术交集的人才。
-
数据多样性及其可能的高容量:企业知识图谱的价值和采用规模与其所涵盖的数据多样性成正比。
-
构建它的好产品: 知识图谱需要具备其他要求,包括良好的治理、安全性、与上游和下游系统的易连接性、可规模化分析性,并且通常需要适应云环境。因此,用于创建现代企业知识图谱的产品需要优化自动化,支持多种输入系统的连接器,提供基于标准的数据输出到下游系统,迅速分析任何数据量,并使治理用户友好。
你可以在这里阅读更多内容:
企业知识图谱帮助公司连接复杂的数据源。通过 Anzo®,你可以设计、构建…… info.cambridgesemantics.com
第三部分 知识图谱示例
Google:
Google 基本上是一个庞大的知识(不断扩展)图谱,他们基于此创建了也许是最大的数据结构。Google 拥有数十亿个事实,包括有关数百万个对象的信息及其之间的关系。它允许我们在其系统中进行搜索,以发现其中的见解。
在这里你可以了解更多:
LinkedIn:
我最喜欢的社交网络 LinkedIn 拥有一个庞大的知识图谱基础,建立在 LinkedIn 上的“实体”之上,如成员、职位、头衔、技能、公司、地理位置、学校等。这些实体及其之间的关系构成了职业世界的本体论。
洞察帮助领导者和销售人员做出业务决策,并提升 LinkedIn 的会员参与度:
engineering.linkedin.com/blog/2016/10/building-the-linkedin-knowledge-graph
记住,LinkedIn(以及几乎所有)知识图谱需要随着新成员注册、新职位发布、新公司、技能和职位在成员资料和职位描述中出现等情况进行扩展。
你可以在这里阅读更多内容:
作者:Qi He, Bee-Chung Chen, Deepak Agarwal engineering.linkedin.com](https://engineering.linkedin.com/blog/2016/10/building-the-linkedin-knowledge-graph)
金融机构的知识图谱:
概念模型用于协调来自不同来源的数据,并创建受管控的数据集以供业务使用。
在 这篇文章 中,Marty Loughlin 展示了平台 Anzo 如何帮助银行,你可以看到这项技术不仅与搜索引擎相关,而且能够处理不同的数据。
在那里,他展示了知识图谱如何帮助这种机构:
-
替代数据用于分析和机器学习
-
利率互换风险分析
-
交易监控
-
欺诈分析
-
特征工程与选择
-
数据迁移
还有更多内容。去看看吧。
结论
要创建知识图谱,你需要语义学和本体来找到一种有效的方式将数据链接起来,这样可以唯一标识并连接具有共同业务术语的数据,从而建立数据结构的基础。
当我们构建知识图谱时,需要形成三元组以使用本体和语义连接数据。同时,知识图谱的制造基本上依赖于三点:构思它的人、数据的多样性和一个良好的构建产品。
我们周围有许多我们甚至不知道的知识图谱。世界上最成功的公司正在实施和迁移他们的系统,以构建数据结构,并且当然包括其中的所有内容。
个人简介:Favio Vazquez 是一名物理学家和计算机工程师,专注于数据科学和计算宇宙学。他对科学、哲学、编程和音乐充满热情。他是西班牙语数据科学出版物 Ciencia y Datos 的创作者。他喜欢新挑战,和优秀团队合作,以及解决有趣的问题。他是 Apache Spark 合作项目的一部分,帮助开发 MLlib、Core 和文档。他热衷于运用自己的知识和专长于科学、数据分析、可视化和自动学习,助力世界变得更美好。
原文。经许可转载。
相关链接:
-
我在敏捷数据科学研究中的最佳技巧
-
如何实时监控机器学习模型
-
2018 年 AI/机器学习进展:Xavier Amatriain 总结
更多相关主题
机器学习的数据织物——第一部分
原文:
www.kdnuggets.com/2019/05/data-fabric-machine-learning-part-1.html
评论
图片由Héizel Vázquez提供
阅读第 1-b 部分:关于数据织物的深度学习:
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT
[机器学习的数据织物。第 1-b 部分:图上的深度学习。
*图上的深度学习日益重要。在这里,我将展示机器学习的基本思路……*towardsdatascience.com](https://towardsdatascience.com/the-data-fabric-for-machine-learning-part-1-b-deep-learning-on-graphs-309316774fe7)
介绍
如果你在线搜索机器学习,你会发现大约 2,050,000,000 个结果。是的,真的。很难找到适合所有用途或案例的描述或定义,但有一些很棒的定义。在这里,我将提出一种不同的机器学习定义,着重于一种新的范式——数据织物。
目标
概述
解释数据织物与机器学习的关系。
具体内容
-
给出数据织物及其创建生态系统的描述。
-
用几句话解释什么是机器学习。
-
提出一种在数据织物中可视化机器学习洞察的方法。
主要理论
如果我们能构建一个支持公司所有数据的数据织物,那么在其中获得的商业洞察可以被看作是一个凹痕。发现这个洞察的自动过程被称为机器学习。
第一部分:什么是数据织物?
我曾讨论过数据织物,并给出了一个定义(我会在下面再次提供)。
在谈论数据织物时,我们应提到几个词汇:图谱、知识图谱、本体论、语义、链接数据。如果你想要这些定义,请阅读上面的文章;然后我们可以说:
数据架构是支持公司所有数据的平台。它如何被管理、描述、组合和普遍访问。这个平台由企业知识图谱构成,以创建一个统一的一致的数据环境。
让我们把这个定义拆分开来。首先我们需要的是一个知识图谱。
知识图谱由整合的数据和信息集合组成,这些集合还包含大量不同数据之间的链接。关键在于,在这个新模型下,我们在寻找一个答案。我们想要的是事实——这些事实的来源并不重要。这里的数据可以表示概念、对象、事物、人物,实际上可以是任何你能想到的东西。图谱填充了这些概念之间的关系和连接。
知识图谱还允许你为图中的关系创建结构。通过它,可以建立一个框架来研究数据及其与其他数据的关系(记得本体论吗?)。
在这种情况下,我们可以向我们的数据湖提出这个问题:
这里有什么?
数据湖的概念也很重要,因为我们需要一个地方来存储我们的数据、管理它并运行我们的任务。但我们需要一个智能数据湖,一个了解我们拥有什么及如何使用它的地方,这就是拥有数据架构的一个好处。
数据架构应该是统一和一致的,这意味着我们应该努力将组织中的所有数据集中到一个地方,并真正管理和治理这些数据。
第二部分:什么是机器学习?
www.cognub.com/index.php/cognitive-platform/
机器学习已经存在了一段时间了。关于它有很多很好的描述、书籍、文章和博客,所以我不会用 10 段文字来让你感到乏味。
我只是想澄清一些要点。
机器学习不是魔法。
机器学习是数据科学工作流的一部分。但不是全部。
机器学习需要数据来存在。至少现在是这样。
好的,之后,让我给出一个稍微借用并个性化的机器学习定义:
机器学习是通过使用能够提取数据模式的算法,自动理解数据及其表示中的模式,而不需要专门为此编程,从而创建解决特定(或多个)问题的模型。
你可以同意这个定义,也可以不同意,目前文献中有很多很好的定义,我只是认为这个定义简单且对我想表达的内容很有用。
第三部分:在数据架构中进行机器学习
在爱因斯坦的引力理论(广义相对论)中,他在数学上提出了质量可以扭曲时空,而这种扭曲就是我们理解的引力。我知道如果你不熟悉这个理论,它可能听起来有些奇怪。让我试着解释一下。
在特殊相对论的“平坦”时空中,引力缺席,力学定律呈现出特别简单的形式:只要没有外力作用于物体,它将以恒定速度沿直线在时空中运动(牛顿的第一运动定律)。
但当我们有质量和加速度时,我们可以说我们在引力的作用下。正如惠勒所说:
时空告诉物质如何移动;物质告诉时空如何弯曲。
在上面的图像中,“立方体”是对时空结构的表示,当质量在其中移动时,它会扭曲它,“线条”的移动方式会告诉我们附近的物体如何在那个附近表现。所以引力就像是:
所以当我们有质量时,我们可以在时空中制造一个“凹痕”,在接近这个凹痕时,我们看到的就是引力。我们必须足够接近这个物体才能感受到它。
这正是我提出的机器学习在数据结构中的作用。我知道我听起来很疯狂。让我解释一下。
假设我们已经创建了一个数据结构。对我来说,最好的工具是 Anzo,正如我在其他文章中提到的。
你可以用 Anzo 构建一个叫做“企业知识图谱”的东西,当然也可以创建你的数据结构。
图谱的节点和边灵活地捕捉到每个数据源的高分辨率副本——无论是结构化还是非结构化。图谱可以帮助用户快速、互动地回答任何问题,让用户与数据对话以发现洞察力。
顺便说一下,这就是我对洞察力的描绘方式:
图片来源:Héizel Vázquez
如果我们有数据结构:
图片来源:Héizel Vázquez
我提议的观点是,洞察力可以被认为是数据结构中的一个凹痕。发现这个洞察力的自动过程就是机器学习。
图片来源:Héizel Vázquez
所以现在我们可以说:
机器学习是使用能够发现这些洞察力的算法的自动过程,这些算法没有被特别编程为此,以创建解决特定(或多个)问题的模型。
通过数据架构生成的洞察本身就是新数据,这些数据作为数据架构的一部分变得显而易见。也就是说,洞察可以扩展图谱,可能会产生进一步的洞察。
在数据架构中,我们面临一个问题,即尝试发现数据中的隐藏洞察,然后通过机器学习来发现它们。这在现实生活中会是什么样子?
Cambridge Semantics 的团队也有答案。Anzo for Machine Learning 解决方案用现代数据平台替代了这种繁琐且易出错的工作,旨在快速集成、协调和转换来自所有相关数据源的数据,形成优化的机器学习准备特征数据集。
数据架构提供了先进的数据转换功能,这对快速有效的特征工程至关重要,有助于从无关的噪声中分离出关键业务信号。
记住,数据优先,这一新范式通过内置的图数据库和语义数据层集成并协调所有相关的数据源——无论是结构化数据还是非结构化数据。数据架构传达了数据的业务背景和含义,使业务用户更容易理解和正确利用数据。
可重复性对数据科学和机器学习非常重要,因此我们需要一种简单的方法来重用协调的结构化和非结构化数据,通过管理数据集目录以及数据集成的持续方面,如数据质量处理,这正是数据架构所提供的功能。它还保留了机器学习数据集的数据端到端传承和来源,使得在生产中使用模型时容易找出所需的数据转换。
在接下来的文章中,我将给出一个在这个新框架下进行机器学习的具体示例。
结论
机器学习并不新颖,但有一种新的范式来实现它,也许它是该领域的未来(我真是太乐观了)。在数据架构中,我们有像本体、语义、层次、知识图谱等新概念;但所有这些都可以改善我们对机器学习的思考方式和实践。
在这个范式中,我们通过使用能够发现这些洞察而不需特别编程的算法,来在数据架构中发现隐藏的洞察,以创建解决特定(或多个)问题的模型。
感谢 Ciencia y Datos 的优秀团队对这篇文章的帮助。
感谢你阅读这篇文章。希望你在这里发现了一些有趣的内容 😃。如果这些文章对你有帮助,请与朋友分享!
如果你有问题,欢迎在 Twitter 上关注我:
[Favio Vázquez (@FavioVaz) | Twitter
*来自 Favio Vázquez (@FavioVaz) 的最新推文。数据科学家,物理学家和计算工程师。我有一个…*twitter.com](https://twitter.com/faviovaz)
和 LinkedIn:
[Favio Vázquez — 创始人 — Ciencia y Datos | LinkedIn
*查看 Favio Vázquez 在 LinkedIn 上的个人资料,这是世界上最大的职业社区。Favio 有 16 个职位在列…*www.linkedin.com](https://www.linkedin.com/in/faviovazquez/)
再见 😃
简介:Favio Vazquez 是一位物理学家和计算机工程师,专注于数据科学和计算宇宙学。他对科学、哲学、编程和音乐充满热情。他是 Ciencia y Datos 的创始人,这是一本用西班牙语出版的数据科学刊物。他喜欢迎接新挑战,和优秀的团队合作,以及解决有趣的问题。他是 Apache Spark 合作项目的一部分,参与 MLlib、Core 和文档的工作。他热衷于应用他的科学、数据分析、可视化和自动学习知识与专长,以帮助世界变得更美好。
原文。经许可转载。
相关:
-
我对敏捷数据科学研究的最佳建议
-
如何实时监控机器学习模型
-
人工智能/机器学习进展的年度回顾:Xavier Amatriain 2018 总结
更多相关内容
数据善用:以数据驱动的社会公益项目
原文:
www.kdnuggets.com/2014/07/data-for-good-data-driven-projects-social-good.html
由 Grant Marshall 撰写,2014 年 7 月
数据善用是一个新的非盈利组织,旨在展示那些更具利他主义的数据科学项目和资源。通过类似 Hacker News 或 Reddit 的格式,用户可以提交相关网站的链接,展示数据科学如何提供社会公益。发布到数据善用上的项目应对更广泛的受众友好,旨在向政府决策者展示数据能为他们做些什么。
图 1:数据善用项目标题的词云
网站上展示的项目种类繁多,涵盖了从 API、视频到展示城市如何利用数据平衡预算的报告等多个主题。如上所示,项目的重点是赋权“市民”或回馈“社区”。这些以社会为导向的术语主导了发布到网站上的项目标题,表明网站正致力于推广旨在提供社会公益的数据科学项目。
例如,网站首页上现在的危机网络是一个用于从多个来源以单一标准格式访问危机数据的 API。另一个适合发布到数据善用的例子是这个视频,展示了数据分析办公室如何利用数据科学解决纽约市非法油脂处理的问题。
图 2:数据善用过去两周的帖子数量
如上图所示(创建于 2014 年 7 月 22 日),尽管第一周的帖子数量每日不稳定(这些帖子主要来自两个独立用户),但在过去几天中,每日的帖子数量已经趋于稳定。此外,帖子现在来自各种用户,显示出该网站开始形成更为活跃的社区。这对网站来说是一个好兆头,希望这种社区参与的趋势能持续下去。
该项目恰逢数据科学提供社会公益的一个非常吉利的时机,KDD 2014 的主题是社会公益的数据科学,而DataKind则致力于将数据科学家与 NGO 连接起来以实现社会公益。将数据科学应用于改善社会的兴趣似乎正在上升。
总的来说,Data for Good 正在承担展示数据对社会能做什么这一崇高使命。如果他们继续成长,并且围绕该网站形成社区,Data for Good 可能会发展成为一个宝贵的资源,用于发现数据科学社区中面向社会的科学家所需的机会和资源。
相关内容:
-
KDD Cup 2014 – 预测 DonorsChoose.org 上的兴奋度
-
比尔及梅琳达·盖茨基金会资助:为社会公益提供大数据
-
美国开放数据行动计划及数据集
更多相关主题
-
[数据质量:好、坏与丑]https://www.kdnuggets.com/2022/01/data-quality-good-bad-ugly.html)
数据治理与可观测性,解读
原文:
www.kdnuggets.com/2022/08/data-governance-observability-explained.html
数据治理和数据可观测性在组织中越来越受到采用,因为它们构成了一个详尽却易于操作的数据管道的基础。两三年前,组织的目标是创建足够的概念验证,以赢得客户对基于 AI 产品的信任,即使是一个简单的 AI 功能也会成为区分因素。它可以轻松地在竞争中占据优势。
然而,在今天的环境中,基于 AI 的功能已成为话题,并且成为保持竞争力的必要条件。这就是为什么今天的组织关注于建立一个坚实的基础,以使数据解决方案与常规软件的生产一样无缝且高效。
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT
因此,让我们深入了解数据可观测性和数据治理的来龙去脉,这两个是建立更强大数据基础的关键。
数据可观测性是什么?
数据可观测性是一个相对较新的术语,它解决了保持不断增长的数据可控的需求。随着创新的增长和在企业界的广泛采用,托管数据解决方案的技术栈变得更加高效。但与此同时,它们也变得更加复杂和精细,这使得它们难以维护。
组织面临的最常见问题是数据停机。数据停机是指数据不可靠的期间。这可能表现为数据错误、不完整数据或不同来源之间的数据差异。没有可靠的数据,就没有希望实现最先进的解决方案。
这就是数据可观测性发挥作用的地方,使数据维护变得可管理。这种新兴的需求催生了可观测性工程这一新兴领域,该领域有三个高级组件。简单来说,这些组件是数据可观测性用于聚合数据的格式:
-
指标: 指标是对在特定时间范围内测量的数据的累积度量。
-
日志: 日志是记录在不同时间点发生的事件。
-
追踪: 追踪是分布式环境中相关事件的记录。
为什么数据可观测性是必要的?
数据可观测性提供了预测数据行为和异常的额外优势,这有助于开发者提前设置资源和准备。数据可观测性的关键能力在于找出导致记录数据性能的根本原因。例如,如果欺诈检测模型的敏感度评分相对较低,数据可观测性将深入分析数据,探究为什么评分相对较低。
这一能力至关重要,因为与普通软件中大多数结果受代码控制不同,在机器学习软件中,大多数结果超出了解决方案的控制范围。这是因为数据是独立因素,只需一个异常事件就能使解决方案失效。一个这样的数据中断例子是疫情,它扰乱了就业率、股票趋势、投票行为等。
同样,很可能一个在某个数据组(例如,某个州的数据)上表现 consistently 的解决方案在另一个数据组上表现糟糕。
因此,了解性能背后的为什么在评估任何数据解决方案的输出时成为首要任务。
数据可观测性如何不同于数据监控?
可观测性通常被称为监控 2.0,但它是监控的一个更大的超集。可观测性更像是工程师的助手,通过考虑系统的深层状态来确定系统是否按预期工作。让我们回顾一下几个区分可观测性与监控的要点:
上下文
可观测性不仅仅跟踪/监控系统中的脉冲。它还考虑到那些影响系统功能的脉冲的上下文。
深度
监控跟踪系统的表面层脉冲以了解性能。相比之下,可观测性记录痕迹(或相关事件),建立必要的联系,并总体跟踪系统的深层内部状态。
行动
尽管监控的输出主要是反映系统性能或资源消耗的数字,但可观测性的输出则是行动建议。例如,监控会指出系统已经消耗了 100 GB 的内存。相比之下,可观测性会说明内存消耗是否不理想,以及是否需要开发者的干预来进行优化。
ML 监控与 ML 可观测性
可观测性已经是 DevOps 框架的一部分很长时间了。然而,在 MLOps 社区中,对其需求也越来越明显。此外,随着数据变得更加复杂,数据管道变得更复杂且难以跟踪。因此,当我们将可观测性融入机器学习世界时,定义 ML 监控和 ML 可观测性之间的关键区别是重要的。
观察能力的核心要素在 ML 观察能力中从头到尾得到体现。ML 监控仅收集关于解决方案的高级输出或成功指标的数据,如敏感度和准确性。之后,它会根据预设的阈值发送警报。
另一方面,ML 观察能力深入探讨记录的性能背后的原因。最后,通过评估数据行为,关联验证、测试和传入数据的见解,找出根本原因。
数据观察的支柱
数据观察力是几个关键特性或支柱的总和,这些支柱并行运行以改善数据健康:
图 1:数据观察的支柱 | 图片由作者创建
数据新鲜度
如广泛所知,任何 ML 解决方案都不及数据的好坏。因此,确保数据的新鲜性至关重要,因为旧的和不相关的数据会对组织的资源、硬件和劳动力造成负担。数据观察力寻求提供最佳路径来更新数据表,并帮助决定更新的最佳频率。
数据分布
数据分布是 ML 最基本的概念之一,因此被高度认为是数据观察力的支柱之一。数据分布是了解手头的数据是否在期望范围内的一种方式。换句话说,它是检查数据采样是否正确的方式。
数据量
正如其名,数据量只是跟踪数据的进出交易量。因此,应跟踪数据量的突然变化,并确保所有可用数据源的正常运行。
架构
架构是数据存储的框架。每个数据架构都被组织中的多个团队访问,每个团队具有不同的访问级别(编辑、查看等)。因此,数据的变化是不可避免的,必须通过适当的数据版本控制设施进行跟踪。需要记录谁进行了更改、何时进行更改以及为什么进行更改。此外,同时进行的更改如果架构没有能力处理这种情况,可能会导致数据不一致。
数据沿袭
数据沿袭,简单来说,就是数据的故事。它叙述了数据从 A 点到 B 点的过程。这是由于传入数据源的变化、架构中数据处理的差异,还是人工更改?一个强大的数据沿袭可以回答这些问题及更多问题。跟踪数据沿袭的主要目标是准确了解在数据出现问题时需要关注的地方。由于机器学习管道因涉及多个实验而复杂,实验跟踪 工具和平台在理解数据在多个实验、模型和数据版本中的使用和历程时非常有用。
数据隐私和安全
如前所述,数据访问通常因团队和个人而异。数据安全和隐私是确保数据健康的一些主要指标。数据更新中的一个新手错误或数据落入错误之手可能会破坏整个数据谱系,并对组织造成巨大的成本。
元数据
元数据是关于数据的信息。作为数据监控的超集,数据可观察性不仅仅查看数据以追踪干扰的根本原因,还观察元数据以发现数据变化的趋势。 元数据存储确保每个关键机器学习阶段的元数据被跟踪和存储,以易于阅读和访问的方式建立可靠且可重复的机器学习管道。
数据可观察性的支柱在构建和管理公司数据骨干的基础时至关重要。
一种良好的数据可观察性解决方案如何帮助您的组织?
在选择数据可观察性解决方案时,必须牢记数据可观察性的支柱。一个好的解决方案可以显著改善组织的数据生态系统健康。良好的解决方案改变组织动态的一些方式包括:
主动避免数据问题
由于数据可观察性通过元数据和性能检查跟踪数据行为的变化,它可以提前警告机器学习工程师,以防止关键数据情况的发生,并采取主动修复措施。
映射的辅助
一个好的数据可观察性解决方案不需要被告知它需要监控哪些指标。事实上,借助机器学习模型,它可以帮助识别关键指标、依赖关系、变量、进出资源。 元数据存储和实验跟踪功能对于保持高清晰度的映射是必需的。
监控静态数据
监控静态数据时,不需要将数据加载进来。这可以通过节省内存、处理器和时间等资源来节省大量成本。这也使得数据解决方案在不妥协性能的情况下变得可扩展。
背景
数据可观察性的关键能力之一是通过追踪和建立数据与结果之间的适当联系来找到根本原因。当你拥有一个 AI 助手,它指出某一特定行的错误及其原因时,它将背景带入视图,并使数据问题的修复更加迅速。
安全性
安全性,作为数据可观察性的支柱之一,自然是一个关键关注点,因为它可能在数据中造成巨大干扰。因此,数据可观察性确保了最佳的安全性和合规性。
自动配置
数据可观察性解决方案使用 ML 模型评估数据、元数据和 ML 解决方案,以确定环境、关键指标和潜在危机(如性能下降低于特定阈值)的因素。因此,它消除了维护和处理几乎总是变化的复杂规则的需求。
轻松适配
一个好的数据可观察性解决方案是灵活的,并且可以轻松集成到现有的 ML 堆栈中。除非 ML 堆栈组织较差,否则团队无需进行任何更改或重写模块。这很好,因为它节省了许多资源。它还允许评估不同的解决方案,并快速找到合适的解决方案。
数据可观察性是一个广阔的领域,上述要点仅涉及常见问题。因此,让我们深入探讨数据治理,看看它如何适应创建完美的数据管道。
什么是数据治理?
数据治理是一套标准和规则,旨在维护整个数据管道中的数据质量。由于 AI 和 ML 等新兴技术在很大程度上依赖于数据这一独立变量,因此认证数据质量至关重要。
重要的是要注意,数据治理不是数据管理,而是围绕最佳执行建立策略和政策,并分配适当的角色和职责。
数据治理的好处
在如今数据解决方案竞争日益激烈的环境中,数据治理是必不可少的。以下好处将更好地说明为什么如此:
图 2:数据治理的好处 | 作者创建的图像
端到端视图
数据治理致力于实现数据的单一真实。然而,数据往往在新兴组织中跨多个团队和利益相关者共享而没有任何跟踪措施。这导致多个数据版本,产生数据不一致和不满意的最终客户。为所有团队提供 360 度视图的单一真实来源是解决上述问题的关键。
更好的数据质量
数据治理确保数据完整且数据来源可靠。它还负责数据的正确性。
数据映射
多个团队经常访问用于特定解决方案的数据用于其他目的。例如,咨询团队可能访问数据转储以解决升级问题。因此,为了防止任何混淆,需要一个所有利益相关者或用户都可以参考的一致关键。
更好的数据管理
数据治理通过引入最新技术和自动化来提升现有的数据管理方法,以提高效率和减少错误。
安全性
数据治理处理数据安全问题,并解决所有合规性要求。这导致端到端数据管道的干扰最小,因为安全问题是主要障碍,并且需要很长时间才能解决。
数据治理挑战
数据治理是一个相对较新的学科,因此组织在初始设置阶段面临一些常见挑战。其中一些包括:
缺乏业务理解
数据通常被认为完全由 IT/开发团队拥有和管理。这存在一个主要缺陷,因为 IT 团队没有端到端的业务视角,无法做出关键决策。因此,在数据收集过程中,客户提供必要数据或从其他来源收集数据时,会存在差距。
如果缺少只有全面业务团队才能识别的功能,数据将会是次优的。除非整合业务理解,否则当利益相关者传达结果时,也会存在相当大的差距。
无法识别痛点
数据治理的工作是解决数据管道中的问题。然而,如果参与者无法识别优先事项和痛点,数据治理标准可能会因试错循环而花费更长时间。
缺乏灵活性
数据管理通常需要多个审批。例如,在处理客户请求时,可能发现客户的数据会占用大量空间,超过了可用硬件限制。这会启动层级审批链。即使这是一个简单的过程,但由于时间的重大影响,效率低下。
预算限制
数据解决方案通常需要大量内存和高处理能力等复杂资源。不幸的是,这些资源可能对团队来说是禁区,尤其是在数据团队仍处于新兴和发展的组织中。为了弥补预算和资源的不足,需要制定次优的解决方案,影响数据生态系统的健康。
如果我们深入探讨,将会发现许多新的和不同的挑战。每个组织都有不同的特性,面临各种各样的挑战。关键是开始行动,并在问题出现时加以解决。
数据治理工具
在选择数据治理工具时,最好从成本效益高和快速的选项开始。因此,可靠的开源解决方案或处理重负担的云平台非常适合用于测试。这些重负担包括轻松添加新功能、简单集成、即时可用的硬件或服务器能力等。
让我们看看在缩小数据治理工具范围时应该考虑的一些要点:
-
提升数据质量: 数据治理工具应能在无需干预的情况下清理、优化和验证数据。
-
无缝管理数据: 工具应集成高效的 ETL(提取、转换、加载)过程,以便轻松追踪数据血统。
-
记录数据: 文档是任何过程中的最被低估的参与者,即使它为团队保留和传递了最大的价值。记录数据是必要的,以便提高可重复性、可搜索性、访问性、相关性和连接性。
-
具有高度透明性: 工具应提供高度透明性给任何管理或使用它的人。它应该像一个助手一样,帮助用户明确任务、沟通点和不作为的影响。
-
审查数据: 数据、数据趋势、访问点和数据健康状况不断变化,需要密切监控。因此,定期审查可以保持数据的最新性,避免潜在的故障。
-
捕捉数据: 数据治理工具应自动发现、识别和捕捉关键数据点。
-
提供敏感洞察: 数据治理工具应理解数据,并最终提供关键洞察,以帮助制定数据管道中的下一步行动。
总的来说,在选择数据治理工具时,易用性也应成为主要关注点之一,因为用户与工具之间的高摩擦最终会拖慢过程。
15 个数据治理最佳实践
尽管最佳实践是主观的并且取决于组织的现状,但这里列出了开始时的十五个常见数据治理实践:
-
开始行动: 迈出第一步,从小处开始,制定增量计划。
-
定义目标: 增量计划必须有明确的目标,不仅分配给数据治理的参与者,还分配给每个过程和阶段。目标当然需要现实、可达成,并且朝着正确的方向展开。
-
通过所有权确保问责: 分配目标固然不够,每个数据治理参与者需要拥有过程并承诺他们的成功。认证所有权的最佳方法可能是将绩效 KPI 与过程关联起来。
-
强调团队成长: 为了让团队进步,并使个体玩家在层级之间的表现相当,高层过程所有者应直接对低层过程所有者负责。这可以激发问责制、团队合作,从而提高效率。
-
涉及利益相关者: 业务利益相关者的见解至关重要,以确保他们在没有模糊或困惑的情况下贡献自己的部分。因此,最好教育他们有关数据治理架构的知识。
-
融入业务理解: 理解业务目标和组织的目标对于构建组织的数据骨干至关重要。例如,公司是致力于短期成功还是长期持久?公司有何合规要求?公司期望从数据解决方案中获得多少利润?这些数据必须在制定数据治理政策之前收集。
-
融入框架: 数据治理必须合理地融入组织现有的框架和基础设施中。除非组织是初创公司并且能够承受流程调整,否则不推荐进行重大干扰。
-
优先级排序: 在实施数据治理过程中会出现大量问题。领导层应负责确定哪些问题需要尽早解决,哪些问题可以等待。
-
标准化: 在初期阶段,标准化数据流程可能是一项昂贵的过程,但从长远来看,它能大幅节省成本。标准化有助于解决多个方面的问题,包括消除数据差异、一次性数据接入、减少沟通中的来回反复、高效利用现有硬件等等。
-
定义指标: 我们能得到我们所衡量的结果,这一点在数据治理中同样适用。识别出可以定义过程成功与失败的关键指标,并非常小心地选择阈值。确保这些指标与业务 KPI 和结果直接相关。这将帮助业务团队更好地理解指标。
-
商业提案: 准备好一个商业提案,列出数据治理能为组织带来的优势和利益。预算谈判、上下线目标以及节省的时间应进行估算并呈现给相关部门。
-
无缝沟通: 确保团队之间的无缝沟通,因为高效的沟通是推动每个过程的关键杠杆。团队间的沟通常常复杂,因为人们不确定该联系谁。确保定义过程负责人,并保持任务的高度透明,以便个人可以迅速找到联系人。
-
确保合规: 遵循合规规则的预先规划策略有助于顺利推进。然而,在过程中的意外合规问题可能会很复杂,并且肯定需要大量时间处理。
-
引入专家: 一个由学习者和专家组成的团队能够驱动效率。外部专家带来行业内的数据治理额外知识,而内部人员则与他们合作,提供对组织动态的全方位视角。当两种知识结合时,可以激发出卓越的视角和洞察力。
-
准备备用计划: 考虑到预算请求未被批准或关键资源失效的情况。记录下应对这些情况的最快且高效的解决办法。
总的来说,重要的是要记住“一刀切”并不适用所有情况。因此,虽然了解行业最佳实践是很好的,但不建议回避实验,以找到最适合你组织和文化的做法!
结论
数据可靠性正成为日益关注的问题,原因在于数据量的不断增加和不可靠来源的增多。因此,作为机器学习解决方案核心的数据显示出极大的重要性。即使是最先进的解决方案,如果没有高质量的数据支持,也可能会失败。
组织在人工智能时代的头几年通过执行多个数据解决方案的概念验证后开始意识到这一点。不幸的是,结果是这些解决方案在特定数据集和特定时间内有效,但很快就会失败并变得不相关,即使重新训练也是如此。这就是为什么开发人员希望理解失败背后的原因,这可以通过主动监控和深入分析来明显实现。
因此,数据治理和数据可观测性在当今快速变化的竞争环境中变得至关重要。尽管它们是相对较新的学科,但它们与一些成熟的领域如云数据架构、虚拟框架、机器学习等交叉重叠。各行业的采纳率将很快使它们成为前沿领域。在此之前,让我们开始为即将到来的变革奠定基础吧!
参考资料
towardsdatascience.com/what-is-data-observability-40b337971e3e
www.montecarlodata.com/beyond-monitoring-the-rise-of-observability/
www.montecarlodata.com/automated-data-quality-testing-at-scale-with-sql-and-machine-learning-2/
www.montecarlodata.com/the-26-things-your-data-observability-platform-must-do/
www.montecarlodata.com/the-new-rules-of-data-quality/
www.montecarlodata.com/data-observability-in-practice-using-sql-1/
www.montecarlodata.com/demystifying-data-observability/
www.montecarlodata.com/data-observability-the-next-frontier-of-data-engineering/
www.montecarlodata.com/what-is-data-observability/
www.eckerson.com/articles/data-observability-a-crucial-property-in-a-dataops-world
blog.layer.ai/experiment-tracking-in-machine-learning/
profisee.com/data-governance-what-why-how-who/
www.talend.com/resources/what-is-data-governance/
Samadrita Ghosh 是 Censius 的产品营销经理
更多相关内容
数据导入与 Pandas:初学者教程
原文:
www.kdnuggets.com/2022/04/data-ingestion-pandas-beginner-tutorial.html
图片由作者提供
Pandas 是一个易于使用的开源数据分析工具,广泛用于数据分析、数据工程、数据科学和机器学习工程。它具有强大的功能,如数据清理与操作、支持流行的数据格式以及使用 matplotlib 的数据可视化。大多数数据科学学生只学习导入 CSV,但在工作中,你必须处理多种数据格式,如果这是你第一次做,事情可能会变得复杂。在本指南中,我们将重点介绍导入 CSV、Excel、SQL、HTML 和 JSON 数据集。
我们的前三个课程推荐
1. Google 网络安全证书 - 快速进入网络安全职业。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你组织的 IT
SQL
要运行 SQL 查询,我们需要下载用于 Kaggle 科技行业心理健康 的 SQLite 数据库,许可证为 CC BY-SA 4.0。该数据库包含三个表:Questions、Answer 和 Survey。
SQL Schema | Kaggle
要从任何 SQL 服务器导入数据,我们需要创建连接(SQLAlchemy 可连接对象 / sqlite3),编写 SQL 查询,并使用 Pandas 的 read_sql_query() 函数将输出转换为数据框。在我们的案例中,我们将首先使用 sqlite3 包连接 mental_health.sqlite,然后将对象传递给 read_sql_query() 函数。最后一步是编写查询以从 Question 表中导入所有列。如果你是 SQL 新手,我建议你通过参加一个免费的课程来学习基础知识:Learn SQL | Codecademy。
import pandas as pd
import sqlite3
# Prepare a connection object
# Pass the Database name as a parameter
conn = sqlite3.connect("mental_health.sqlite")
# Use read_sql_query method
# Pass SELECT query and connection object as parameter
pdSql = pd.read_sql_query("SELECT * FROM Question", conn)
# display top 5 rows
pdSql.head()
我们已经成功将 SQL 查询转换为 Pandas 数据框。就是这么简单。
HTML
网络抓取在技术世界中是一项复杂且耗时的工作。你将使用 Beautiful Soup, Selenium,和 Scrapy 来提取和清理 HTML 数据。使用 Pandas read_html(),你可以跳过所有步骤,直接将网站上的表格数据导入数据框。这就是简单。在我们的案例中,我们将抓取 COVID-19 疫苗接种追踪器 网站,以提取包含 COVID19 疫苗接种数据的表格。
COVID19 疫苗接种数据 | 制药技术
仅使用**pd.read_html()**我们就能够从网站中提取数据。
df_html = pd.read_html(
"https://www.pharmaceutical-technology.com/covid-19-vaccination-tracker/"
)[0]
df_html.head()
我们的初始输出是列表,若要将列表转换为数据框,我们在末尾使用了**[0]**。这只会显示列表中的第一个值。
注意: 你需要对初始结果进行实验,以获得最终的结果。
CSV
CSV 是数据科学中最常见的文件格式。它简单易用,可被多个 Python 包访问。你在数据科学课程中学到的第一件事就是导入 CSV 文件。在我们的案例中,我们使用的是 Kaggle 的 共享单车数据集,其遵循 CC0: 公共领域 许可证。CSV 中的值由逗号分隔,如下所示。
作者提供的图片
我们将使用**read_csv()**函数将数据集导入 Pandas 数据框。这个函数非常强大,因为我们可以解析日期、删除缺失值,并且只用一行代码就能进行大量数据清理。
data_csv = pd.read_csv("day.csv")
data_csv.head()
我们成功加载了 CSV 文件并显示了前五行。
Excel
Excel 表格在数据和业务分析专业人员中仍然很受欢迎。在我们的案例中,我们将使用 Microsoft Excel 将 美国总统与债务 数据集(由 kevinnayar 提供,遵循 CC BY 2.0 许可证)转换为**.xlsx格式。我们的 Excel 文件包含两个工作表,但 Pandas 数据框是一个平面表,我们将使用sheet_name**将选定的工作表导入 Pandas 数据框。
作者提供的图片
我们将使用**read_excel()**导入数据集:
-
第一个参数是文件路径。
-
第二是 sheet_name:在我们的案例中,我们正在导入第二个工作表。工作表编号从 0 开始。
-
第三是 index_col:由于我们的数据集包含索引列,为了避免重复,我们将提供index_col=<column_name>。
data_excel = pd.read_excel("US_Presidents.xlsx",sheet_name = 1, index_col = "index")
data_excel.head()
JSON
读取 JSON 文件相当棘手,因为有多种格式需要理解。有时,Pandas 无法导入嵌套 JSON 文件,因此我们需要执行手动步骤以完美导入文件。JSON 是科技行业最常见的文件格式。它受到网页开发者和数据工程师的青睐。在我们的案例中,我们将下载Spotify 推荐数据集,许可证为CC0: 公共领域。该数据集包含好歌曲和坏歌曲的 JSON 文件。对于这个例子,我们将只使用good.json 文件。正如我们所见,我们正在处理一个嵌套的数据集。
作者提供的图片
在进行任何数据处理之前,让我们使用**read_json()**函数在不带参数的情况下导入数据集。
df_json = pd.read_json("good.json")
df_json.head()
如我们所见,数据框只包含一列,而且数据杂乱无章。要调试此问题,我们需要导入原始数据集,然后进行解析。
首先,我们将使用json包导入原始 JSON 文件,并仅选择audio_features子集。最后,我们将通过使用**json_normalize()**函数将 JSON 转换为 Pandas 数据框。
这是成功的,我们终于将 JSON 解析为数据框。如果你处理的是多层嵌套 JSON 文件,尝试先导入原始数据,然后处理数据,以便最终输出为平面表格。
import json
with open('good.json') as data_file:
data = json.load(data_file)
df = pd.json_normalize(data["audio_features"])
df.head()
代码和所有数据集可以在 Deepnote.
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,喜欢构建机器学习模型。目前,他专注于内容创作,并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个 AI 产品,帮助那些在精神健康方面遇到困难的学生。
更多相关话题
如何组织机器学习的数据标签化:方法和工具
原文:
www.kdnuggets.com/2018/05/data-labeling-machine-learning.html
评论
由 AltexSoft.
如果有数据科学名人堂,它一定会有一个专门的标签化部分。标签员的纪念碑可能是持着象征其艰巨和细致责任的大石头的阿特拉斯。ImageNet — 一个图像数据库 — 可能会有自己的纪念碑。九年来,它的贡献者手动注释了超过 1400 万张图像。仅仅想到这些就让人感到疲惫。
我们的前三个课程推荐
1. Google 网络安全证书 - 快速开启网络安全职业生涯。
2. Google 数据分析专业证书 - 提升您的数据分析技能
3. Google IT 支持专业证书 - 支持您的组织的 IT
虽然标签化不像发射火箭那样复杂,但它仍然是一项严肃的工作。标签化是监督学习数据预处理的不可或缺的阶段。这种模型训练方式使用了具有预定义目标属性(值)的历史数据。算法只能在有人进行映射的情况下找到目标属性。
标签员必须非常专注,因为每一个错误或不准确都会对数据集的质量和预测模型的整体性能产生负面影响。
如何获得高质量的标注数据集而不至于让自己变白头发?主要挑战在于决定谁负责标签化,估计需要多少时间,以及使用什么工具更好。
我们在关于机器学习项目的一般结构的文章中简要描述了标签化。在这里,我们将更详细地讨论标签化方法、技术和工具。
标签化方法
方法的选择取决于问题和训练数据的复杂性、数据科学团队的规模,以及公司可以分配用于实施项目的财务和时间资源。
内部标签
那句老话如果你想做得对,就自己动手做表达了选择内部标注方法的关键原因之一。这就是为什么当你需要确保尽可能高的标注准确性并且能够跟踪过程时,将这项任务分配给你的团队。尽管内部标注比下面描述的方法要慢得多,但如果你的公司拥有足够的人力、时间和财务资源,这是最好的选择。
假设你的团队需要进行情感分析。对公司在社交媒体和技术网站讨论区的评论进行情感分析,可以让企业评估其声誉和专业水平,并与竞争对手进行比较。这也提供了研究行业趋势的机会,以定义发展战略。
你需要收集和标注至少 90,000 条评论,以建立一个表现良好的模型。假设标注单条评论可能需要工人 30 秒,他或她需要花费 750 小时或几乎 94 个 8 小时的工作班次来完成任务。换句话说,大约需要三个月。考虑到美国数据科学家的中位小时工资为 36.27 美元,标注费用将为 27,202.5 美元。
你可以通过自动化数据标注来简化这个过程。这种训练方式涉及使用标注数据和未标注数据。数据集的一部分(例如 2,000 条评论)可以被标注以训练分类模型。然后,这个多类模型在剩余的未标注数据上进行训练,以找到目标值——正面、负面和中性情感。
针对金融、航天、医疗保健或能源等各个行业的项目实施通常需要专家对数据进行评估。团队会咨询领域专家关于标注原则。在某些情况下,专家会自己标注数据集。
Altexsoft 开发了 DoIGrind 应用程序旨在为荷兰初创公司Sleep.ai诊断和监测磨牙症。磨牙症是在清醒或睡眠状态下的过度磨牙或咬紧下颚。该应用程序基于噪声分类算法,该算法通过包含超过 6,000 个音频样本的数据集进行训练。为了定义与磨牙声音相关的录音,客户听取了样本并将其映射到属性上。这些特定声音的识别对于属性提取是必要的。
优势
可预测的良好结果和对过程的控制。 如果你依靠你的人,你就不会买到一只瞎猫。数据科学家或其他内部专家有兴趣做得很好,因为他们将与标注数据集一起工作。你还可以检查你的团队的进展,以确保它遵循项目的时间表。
缺点
这是一个缓慢的过程。 标注质量越高,所需时间就越长。你的数据科学团队将需要额外的时间来准确标注数据,而时间通常是有限资源。
众包
如果你可以通过众包平台直接开始工作,为什么还要花额外的时间来招募人员呢?
亚马逊机械土耳其 (MTurk) 是提供按需劳动力的领先平台之一。客户在此注册为请求者,创建和管理包含一个或多个 HIT(人工智能任务)的项目,在 机械土耳其请求者网站 上。该网站为用户提供了一个易于使用的界面来创建标注任务。MTurk 代表声称,借助其广泛的工人社区,标注数千张图像可能只需几小时而不是几天或几周。
另一个全球在线市场,Clickworker 拥有超过 100 万名承包商,准备承担图像或视频标注和情感分析任务。工作流程的初始阶段与 MTurk 类似。任务处理和分配阶段有所不同。注册雇主根据预定义的规格和要求下订单,平台团队制定解决方案并将所需的工作集发布在订单平台上,工作即开始。
优点
快速结果。 众包是一种合理的选择,适用于时间紧迫且数据集庞大、基本的项目,这些项目需要使用强大的标注工具。例如,计算机视觉项目中的汽车图像分类等任务不会耗费太多时间,可以由具备普通知识的员工完成。通过将项目分解为微任务来实现速度,这样自由职业者可以同时进行这些任务。这就是 Clickworker 组织工作流程的方式。MTurk 客户应该自己将项目分解为步骤。
经济实惠。 在这些平台上分配标注任务不会花费你很多钱。例如,亚马逊机械土耳其允许为每个任务设置奖励,这为雇主提供了选择的自由。例如,设置每个 HIT 的奖励为$0.05,每个项目一个提交,你可以用$100 标注 2,000 张图像。考虑到 HITs 的 20%费用(包括最多九个任务),最终费用为$120,适用于一个小数据集。
缺点
邀请他人为你的数据进行标注可能节省时间和金钱,但众包也有其陷阱,获取低质量数据集的风险是主要问题。
标注数据质量不一致。 日常收入依赖于完成任务数量的人可能会为了完成更多工作而忽略任务推荐。有时,由于语言障碍或工作分配,标注中的错误也会发生。
众包平台使用质量管理措施来应对这一问题,确保工人提供尽可能最好的服务。在线市场通过技能验证测试和培训、声誉评分监控、统计数据、同行评审、审计以及事先讨论结果要求等方式做到这一点。客户还可以要求多个工人完成特定任务,并在支付之前批准任务。
作为雇主,你必须确保你的方面一切正常。平台代表建议提供明确和简单的任务说明,使用简短的问题和要点,并给出标注任务的优秀和差劲的示例。如果你的标注任务涉及绘制边界框,你可以阐明你设定的每一条规则。
清晰展示图像标注的注意事项和禁忌
你必须指定格式要求,并告知自由职业者是否需要使用特定的标注工具或方法。要求工人通过资格测试是提高标注准确度的另一种策略。
外包给个人
加速标注的一个方法是通过多个招聘、自由职业和社交网络网站寻找自由职业者。
在UpWork平台上注册了不同学术背景的自由职业者。你可以通过技能、位置、小时费率、工作成功率、总收入、英语水平等筛选条件发布职位或寻找专业人才。
当涉及在社交媒体上发布招聘广告时,LinkedIn 拥有 5 亿用户,是首选网站。招聘广告可以在公司页面上发布或在相关小组中宣传。分享、点赞或评论将确保更多感兴趣的用户看到你的招聘信息。
在 Facebook、Instagram 和 Twitter 上发布帖子也有助于更快找到专业人才。
优点
你知道你雇佣的是谁。 你可以通过测试检查申请人的技能,以确保他们能够正确完成工作。由于外包涉及雇佣小型或中型团队,你将有机会控制他们的工作。
缺点
你需要建立工作流程。 你需要创建一个任务模板并确保其直观。如果你有图像数据,例如,你可以使用Supervising-UI, 该工具提供了一个标注任务的网络接口。此服务允许在需要多个标签时创建任务。开发者建议在本地网络中使用 Supervising-UI,以确保数据的安全性。
如果你不想创建自己的任务界面,可以为外包专家提供你偏好的标注工具。我们将在工具部分详细介绍。
你还需要编写详细且清晰的说明,以便外包工作人员能够理解并正确地进行标注。此外,你还需要额外的时间来提交和检查已完成的任务。
外包给公司
不需要雇佣临时员工或依赖于人群,你可以联系专门从事训练数据准备的外包公司。这些组织将自己定位为众包平台的替代选择。公司强调,他们的专业团队将提供高质量的训练数据。这样,客户的团队可以专注于更高级的任务。因此,与外包公司的合作就像是拥有一个外部团队一段时间。
外包公司,如CloudFactory、Mighty AI、LQA 和DataPure,主要为计算机视觉模型标注数据集。CrowdFlower 和CapeStart 也进行情感分析。前者不仅可以分析文本,还可以分析图像和视频文件。此外,CrowdFlower 的客户可以请求更复杂的情感分析方法。用户可以提出引导性问题,以了解人们为何以某种方式对产品或服务作出反应。
公司提供各种服务包或计划,但大多数不提供定价信息,直到收到请求。计划的价格通常取决于服务数量或工作小时数、任务复杂性或数据集的大小。
CloudFactory 允许根据服务价格计算工作小时数
优势
高质量的结果。 公司宣称他们的客户将获得无误差的标注数据。
劣势
这比众包更贵。 尽管大多数公司未具体说明工作成本,但 CloudFactory 的 定价 示例帮助我们理解,他们的服务价格略高于众包平台。例如,在众包平台上标记 90,000 条评论(每项任务价格为 $0.05)将花费 $4500。聘请一个 7 到 17 人的专业团队(不包括团队负责人)可能需要 $5,165–5200。
了解公司员工是否执行特定的标记任务。如果你的项目需要领域专家,确保公司招聘能够定义标记原则并及时纠正错误的人。
更多相关内容
数据湖与 SQL:数据天堂中的绝配
原文:
www.kdnuggets.com/2023/01/data-lakes-sql-match-made-data-heaven.html
图片来自作者
数据湖和 SQL 介绍
我们的三大课程推荐
1. 谷歌网络安全证书 - 加入网络安全职业的快速通道
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
大数据是个大问题,而数据湖是存储和分析大型数据集的关键工具。但你如何处理所有这些信息?SQL 是解决方案。
数据湖是一个集中式的存储库,允许在任何规模下存储结构化和非结构化数据。SQL(结构化查询语言)是一种用于与数据库通信和操作的编程语言。它可以通过查询存储在数据湖中的关系数据库中的结构化数据,或者通过对数据湖中存储的非结构化数据应用模式并使用“按需模式”进行查询来管理数据湖中的数据。
使用 SQL 与数据湖结合,可以通过各种分析方式(如实时分析、批处理和机器学习)对结构化和非结构化数据进行组合和分析。
建立数据湖基础设施
建立数据湖基础设施涉及几个关键步骤:
确定数据湖的架构
在建立数据湖之前,了解你需要存储的数据类型以及原因非常重要,这包括数据量、安全要求和预算。这将帮助你确定数据湖的最佳设计和架构。
选择数据湖平台
亚马逊网络服务(AWS)湖泊构建、Azure 数据湖和谷歌云大数据查询是可用的数据湖平台之一。每个平台都有其独特的功能和能力,因此你必须决定哪个最适合你的需求。
定义数据治理和安全政策
任何数据湖都需要一个强大的数据治理和安全策略。这应包括数据访问、分类、保留和加密政策,以及监控和审计数据活动的程序。
建立数据摄取管道
数据摄取管道是将数据从源头传输到数据湖的过程。数据摄取管道可以通过多种方式设置,包括批处理、实时流处理和混合方法。
定义数据模式
数据模式是一种逻辑和有意义的数据组织方法。它有助于确保数据的一致存储,并且可以轻松查询和分析。
测试和优化数据湖
一旦你的数据湖正常运行,定期监控和维护它以确保其表现符合预期非常重要。这包括数据备份、安全和合规检查,以及性能优化等任务。
使用 SQL 将数据摄取到数据湖中
一旦你设置了数据湖基础设施,你可以开始将数据加载到其中。有几种方法可以使用 SQL 将数据摄取到数据湖中,例如使用 SQL INSERT 语句或使用基于 SQL 的 ETL(提取、转换、加载)工具。你也可以使用 SQL 查询外部数据源并将结果加载到数据湖中。
下面是一个如何使用 SQL 查询外部数据源并将结果加载到数据湖中的示例:
INSERT INTO data_lake (column1, column2, column3)
SELECT column1, column2, column3
FROM external_data_source
WHERE condition;
使用 SQL 转换数据湖中的数据
一旦你将数据摄取到数据湖中,你可能需要对其进行转换以使其更适合分析。你可以使用 SQL 对数据执行各种转换,例如过滤、聚合和连接来自不同来源的数据。
过滤数据: 你可以使用 WHERE 子句根据某些条件过滤行。
SELECT *
FROM data_lake
WHERE column1 = 'value' AND column2 > 10;
聚合数据: 你可以使用聚合函数,如 SUM、AVG 和 COUNT,来计算行组的汇总统计信息。
SELECT column1, SUM(column2) AS total_column2
FROM data_lake
GROUP BY column1;
连接数据: 你可以使用 JOIN 子句根据公共列将来自两个或多个表的行组合在一起。
SELECT t1.column1, t2.column2
FROM table1 t1
JOIN table2 t2 ON t1.common_column = t2.common_column;
使用 SQL 查询数据湖中的数据
要使用 SQL 查询数据湖中的数据,你可以使用 SELECT 语句来检索你想查看的数据。
下面是一个如何使用 SQL 查询数据湖中的数据的示例:
SELECT *
FROM data_lake
WHERE column1 = 'value' AND column2 > 10
ORDER BY column ASC;
你还可以使用各种 SQL 子句和函数来根据需要过滤、聚合和操作数据。例如,你可以使用 GROUP BY 子句按一个或多个列对行进行分组,并使用聚合函数,如 SUM、AVG 和 COUNT,来计算组的汇总统计信息。
SELECT column1, SUM(column2) AS total_column2
FROM data_lake
GROUP BY column1
HAVING total_column2 > 100;
处理数据湖和 SQL 的最佳实践
在处理数据湖和 SQL 时,有几项最佳实践需要记住:
-
使用基于 SQL 的 ETL 工具简化摄取和转换过程。
-
使用混合数据湖架构以支持批处理和实时处理。
-
使用 SQL 视图简化数据访问并提高性能。
-
使用数据分区来提高查询性能。
-
实施安全措施以保护你的数据。
结论
总之,数据湖与 SQL 是管理和分析大数据量的最佳组合。使用 SQL 将数据导入数据湖,在湖中转换数据,并查询以获取所需结果。
熟悉你使用的文件系统和数据格式,练习编写 SQL 查询,并探索基于 SQL 的 ETL 工具,以充分利用这一组合。掌握数据湖和 SQL 将帮助你有效地处理和理解你的数据。
感谢你抽出时间阅读我的文章。希望你觉得这篇文章信息丰富且引人入胜。
Sonia Jamil 目前在巴基斯坦最大的电信公司之一担任数据库分析师。除了全职工作外,她还从事自由职业。她的背景包括数据库管理方面的专业知识,以及在本地和基于云的 SQL Server 环境中的经验。她精通最新的 SQL Server 技术,对数据管理和数据分析有着强烈的兴趣。
更多相关内容
数据素养:使用苏格拉底方法
原文:
www.kdnuggets.com/2019/06/data-literacy-socratic-method.html
评论
由 Aarzoo Sidhu,The Data Thinker
我们的前三大课程推荐
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织的 IT
数据作为商业资产的增长价值是不容置疑的。它被描述为“新黄金”和“新石油”。全球范围内的组织,无论行业和规模,都在大量投资数据基础设施,以获取这一商品。
与黄金和石油因稀缺而珍贵不同,数据是无处不在的。因此,数据本身并不珍贵——它无处不在。价值在于组织能够有意义地与数据互动并从中提取商业洞察。而这其中正是存在着差距。
大多数非数据科学专家(或相关领域的专家)并不知道在面对数据时如何进行批判性思考。
数字中蕴含恐怖。亨普提·邓普蒂对爱丽丝说他掌控了自己使用的词语的信心,很多人不会将其扩展到数字上。
- Darrel Huff, 如何用统计数据说谎
Gartner 支持这种观点,并描绘了一个相当暗淡的未来:
到2020年,50%的组织将缺乏足够的人工智能和数据素养技能来实现业务价值。
如果数据没有提供商业价值,那么它就是无用的。它从新黄金变成了新垃圾(非常昂贵的垃圾)。因此,除了投资数据基础设施外,组织还需要优先考虑数据素养。
数据素养
在文献中,关于什么构成数据素养以及它如何与信息素养不同存在许多不同的观点。为了简化当前讨论,我喜欢麻省理工学院的定义:
数据素养包括读取、处理、分析和用数据进行论证的能力*。* - R. Bhargava 和 C. D’Ignazio,设计数据素养学习者的工具和活动
与其采用基于课程或主题的方法来定义数据素养,这种基于技能的定义更具适应性和可扩展性。
现在我们有了定义,接下来我们来谈谈如何操作。
组织如何促进数据素养?在不同教育背景和经历的员工中,培养这些技能的最佳方法是什么?如何在职业发展中融入数据素养,而不仅仅是在正式教育系统中?
我不能教任何人任何东西。我只能让他们思考。
- 苏格拉底
苏格拉底式提问
关键是认识到,数据素养技能的核心是批判性思维技能。而且,好问题是发展批判性思维的关键。没有人比苏格拉底更了解这一点。他相信:
有纪律的提问练习使学者/学生能够审视观点并确定这些观点的有效性。
这种刺激高层次思维的方法被称为苏格拉底式提问(或苏格拉底研讨会)。
关键词“有纪律的”和“深思熟虑的”使苏格拉底式提问区别于一般的提问行为。组织和有目的的提问不仅有助于检查面前的信息,还能帮助反思对这些信息的思考(元认知)。这种反思性思维有助于追踪从信息到结论的路径,并揭示过程中做出的任何假设。
在他们的论文《苏格拉底式提问》中,Paul 和 Binker 这样描绘了苏格拉底式提问与批判性思维之间的联系:
使用苏格拉底式提问需要以下几点前提:所有的思考都有假设;做出主张或创造意义;有影响和后果;关注某些事物而忽略其他事物;使用某些概念或思想而非其他;由目的、问题或难题定义;使用或解释某些事实而非其他;相对清晰或模糊;相对深刻或肤浅;相对独白或多元对话。批判性思维是在有效、自我监控的意识下进行的思考。
- Richard Paul & A. J.A. Binker,批判性思维手册系列
此外,批判性思维基金会的 Linda Elder 和 Richard Paul 确定了以下六种刺激高层次思维的苏格拉底式问题。
-
澄清问题。
-
挑战假设的问题。
-
检查证据或理由的问题。
-
关于观点和视角的问题。
-
探索影响和后果的问题。
-
关于问题的问题。
苏格拉底式提问在数据素养中的应用
这种方法在全国的法学院中被用来教导如何揭露论证中的逻辑谬误。这个框架的美妙之处在于它可以适应任何感兴趣的主题。在我们的案例中,就是数据!
当个人用这种方法自己探讨信息时,它可以增强他们对数据的理解,揭示逻辑陷阱,并提供洞察。
苏格拉底式提问的一个更有效的应用是激发数据项目利益相关者之间的指导性讨论。通过一起检查数据并一起推理,团队可以为数据提供更多的背景,并构建更强的统计叙事,同时提高他们的数据素养技能。既然苏格拉底研讨会的目标是更好地思考,还有谁比数据思考者更适合领导讨论呢?
苏格拉底研讨会还可以帮助识别个人知识中的空白,促进好奇心,并培养智力谦逊。在讨论中发现的知识空白和数据素养主题,可以通过更传统的讲座和教程来加以补充。
示例问题
以下是每个类别的示例问题。并非每个示例问题都适用于所有情况,有些问题可能属于多个类别。主要目标应该是从所有六个类别中提问。
1. 澄清问题的问题。
-
我想用这个统计数据回答什么问题?
-
这个统计数据意味着什么?
-
单位是什么?
-
这个统计数据的基础数据是什么?
-
典型的数据点是什么样的?极端值是什么样的?
-
时间范围是什么?
-
图表显示了什么?x 轴和 y 轴是如何标记的?标题/图例是否合适?
2. 挑战假设的问题。
-
更高还是更低的值更好?
-
这是否符合我的预期?
-
我正在做哪些假设?
-
分析师做了什么假设?这些假设是否经过测试?
-
是否存在抽样偏差?期望偏差?选择偏差?幸存者偏差?确认偏差?预测偏差?轶事偏差?
3. 检查证据或理由的问题。
-
证据有多强?
-
统计显著性与商业相关性有何区别?
-
有什么缺失的?有缺失的数据吗?缺失的变异度测量吗?缺失的不确定性测量吗?
-
相关性有多强?如何探索因果关系?
-
什么会让我对这项分析更有/更少的信心?
4. 关于观点和视角的问题。
-
还有哪些额外的统计数据会有帮助?
-
如果统计数据支持对立观点,那它会是什么样的?
-
哪些冲突的观点有更多的证据?
-
如果这些数据都不可用,我会做出什么决定?
-
这个统计数据在我的竞争对手那里是什么样的?
-
我希望这个统计数据是什么?
5. 探索影响和后果的问题。
-
这一统计发现的意义是什么?对业务的影响?
-
其他统计数据是否支持这一发现?相反的统计数据会是什么样的?
-
我可以对这一发现采取行动吗?
-
它是否影响了当前的任何行动?
-
它是否影响了过去做出的任何决策?
-
如果存在不确定性,我应该如何在这种不确定性下行动?
-
这是否支持/反驳了我对这个问题已有的认识?
-
它如何与其他数据项目的相关发现联系起来?
6. 关于问题的问题。
-
最难回答的问题是什么?
-
是什么让这个问题变得难以回答?
-
是否有一个问题多次出现?
-
这个对话如何总结?
简介:Aarzoo Sidhu,具有生物统计学的正式教育背景和 8 年的数据管理与分析经验,《数据思考者》的作者,现在致力于超越数据科学,探索从数据到洞察的多条路径。
相关:
更多相关话题
为什么数据管理对数据科学如此重要?
原文:
www.kdnuggets.com/2022/08/data-management-important-data-science.html
介绍
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT
数据是所有分析工具和机器学习算法的核心。它使领导者能够深入了解推动关键指标和客户满意度的因素。简单来说,数据在有效和智能使用时对任何组织都是一种资产。过去组织数据匮乏,缺乏利用数据力量的意识的时代已经过去。近年来,许多组织已经超越了数据限制,拥有了充足的数据来开始数据分析。
然而,数据的可用性单独并不能解决组织在数字化转型过程中面临的众多问题之一。他们需要数据管理系统,这些系统是 IT 和业务团队的结合体。
来源:性能图标矢量图由 rawpixel.com 创建
那么,让我们首先了解什么是数据管理。
数据管理
数据管理,顾名思义,涵盖了所有关于数据的内容——从数据的摄取、存储、组织到在组织内的维护。数据管理传统上由 IT 团队负责,但有效的数据管理只能通过 IT 团队与业务用户之间的跨部门协作来实现。业务需要向 IT 提供数据需求,因为他们对组织所希望实现的最终目标有更好的了解。
除了制定政策和最佳实践外,数据管理团队还负责一系列活动,如 这里 所述。让我们了解数据管理涵盖的范围:
-
数据存储和更新——谁将有权编辑数据,并假定数据所有权
-
高可用性和灾难恢复
-
数据归档和保留政策,以了解数据库存及其用途
-
本地和多云数据存储
-
最后也是最重要的,数据安全和隐私必须遵守监管要求。
自助分析 - 业务价值生成的加速器
便捷的数据访问和自助分析——数据民主化的核心支柱,显著提高了生成可操作见解和业务影响的速度。
让我再详细说明一下。想象一下,一个业务分析师向业务领导者提交了一份报告,重点解决一个特定目标,比如客户细分。如果业务需要知道一些在分析初稿中未捕获的额外细节,他们需要将这一请求通过整个数据周期反馈给分析师,并等待更新结果,然后才能采取行动。
如今显而易见的是,这会导致在获得足够的信息以赋能所有领导者和高管信任数据和分析、制定业务战略时的延误。这种延误不仅导致在竞争优势方面丧失商业机会,而且报告及数据也会在满足业务需求之前变得过时。
很好,我们现在已经理解了问题。让我们转到如何填补业务需求与所呈现分析之间的差距。现在,前述场景中有一个问题很明确——当前的情况是数据主要由分析师,即技术用户处理和使用。良好管理的数据系统使得非技术业务用户(通常的数据消费者)能够轻松获取他们需求的分析,并做出及时决策。
数据科学中的数据管理
到目前为止,我们已经理解了数据管理及其重要性,这一等式同样适用于数据科学项目和团队。
数据是所有机器学习算法的核心。数据科学是最普遍的组织数据消费者。我们需要更加重视上述强调的词汇——数据科学不拥有数据,它是潜在的(且希望如此!!!)良好管理和组织的数据的消费者。
为什么说数据可能需要管理——那是因为数据往往并不以正确的形式和状态存在。呼应数据科学社区的声音和关注,数据问题是让数据科学家时刻保持警惕的主要原因。
数据管理团队及整个组织需要采纳数据优先文化,并促进数据素养,以确保业务的关键战略资产,即数据,得到妥善管理和使用。
何时宣称一个组织拥有良好管理的数据系统?
这确实不是一个容易回答的问题。不能等待数据管理团队给出绿色信号,让数据科学团队开始将数据投入到他们的机器学习流程中。务实的做法是为强大且有效管理的数据团队奠定坚实的基础,并考虑到这是一个迭代过程。是的,就像机器学习算法的迭代性质一样,数据管理也是一个生命周期的方法。它随着数据科学团队与数据管理团队的合作,不断改进和完善最佳实践和指导方针而持续演变。
话虽如此,数据管理团队是数据相关政策、实践和数据访问协议的唯一负责人,拥有强大的数据治理框架。
随着疫情时代数据生成的增加,许多组织积极寻求通过各种方式来货币化数据,包括但不限于更好地了解最终用户、通过理解内部流程提升操作效率,或提供更好的最终用户体验。因此,近年来对数据及数据治理框架的关注急剧增加。
业务、数据管理和数据科学团队的结合
实现这种对齐的一个词是有效的数据治理政策。所有三个团队需要有强有力的沟通和反馈渠道。此外,团队对迭代和改进当前数据流程的接受度是组织强大数字化转型的关键加速器。
实际上,数据文化本身反映出数据责任不仅限于任何特定的团队或个人。这是组织中每个员工的共同责任,他们需要贡献力量,并建立最高标准的数据流程。
摘要
这篇文章专注于数据相关的所有内容。文章首先介绍了数据管理团队的一般角色和职责。在后半部分,文章重点讨论了数据管理在数据科学团队中的重要性,以及跨团队对齐如何在组织中建立有效的数据流程。
Vidhi Chugh 是一位获奖的 AI/ML 创新领袖和 AI 伦理学家。她在数据科学、产品和研究交汇处工作,致力于提供业务价值和洞察。她倡导以数据为中心的科学,是数据治理的领先专家,致力于构建可信赖的 AI 解决方案。
更多相关话题
数据科学的数据管理原则
原文:
www.kdnuggets.com/data-management-principles-for-data-science
作者提供的图片
在你作为数据科学家的旅程中,你会遇到挫折,并且克服它们。你将学习到一个过程如何优于另一个过程,以及如何根据手头的任务使用不同的过程。
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织在 IT 方面
这些过程将协同工作,以确保你的数据科学项目尽可能高效,并在决策过程中发挥关键作用。
什么是数据管理?
其中一个过程是数据管理。在一个数据驱动的世界中,数据管理是组织利用数据资产并确保其有效性的一个重要元素。
数据管理是收集、存储、组织和维护数据的过程,以确保数据准确、可供需要的人访问,并在数据科学项目生命周期中保持可靠。就像任何管理过程一样,它需要由政策和技术支持的程序。
数据科学项目中的数据管理关键组件包括:
-
数据收集与获取
-
数据清理与预处理
-
数据存储
-
数据安全与隐私
-
数据治理与文档管理
-
协作与共享
如你所见,有一些关键组件。目前可能看起来有些令人生畏,但我将逐一讲解,以给你一个作为数据科学家需要预期的概述。
数据收集与获取
尽管现在有大量的数据存在,数据收集仍将是你作为数据科学家的职责之一。数据收集与获取是从各种来源(如网站、调查、数据库等)收集原始数据的过程。这个阶段非常重要,因为数据的质量直接影响到你的结果。
你需要识别不同的数据来源,并找到符合你要求的来源。确保你有适当的权限访问这些数据源,数据源的可靠性,以及格式是否与你的范围一致。你可以通过不同的方法收集数据,如手动数据输入、数据提取等。
在这些步骤中,你要确保数据的完整性和准确性。
数据清理与预处理
一旦你获得数据,下一步就是清理它 - 这可能会占用你大量时间。你需要仔细检查数据集,找出任何问题并加以修正。你在这一阶段的最终目标是标准化和转换数据,以便它准备好进行分析。
数据清理可以帮助处理缺失值、重复数据、错误的数据类型、异常值、数据格式、转换等问题。
数据存储
一旦你清理完数据,它的质量良好且准备好进行分析 - 就存储它吧!你不想丢失你刚刚花费的所有小时来清理数据并达到黄金标准。
你需要为你的项目和组织选择最佳的数据存储解决方案,例如数据库或云存储。同样,这将基于数据的体积和复杂性。你还可以设计架构,以便高效的数据检索和可扩展性。
另一个你可以实施的工具是数据版本控制和归档,它允许你维护所有历史数据及其任何更改,帮助保存数据资产并实现长期访问。
数据安全与隐私
我们都知道在当今时代数据的重要性,因此要不惜一切代价保护它!数据泄露和隐私侵犯可能会产生严重后果,你不想面临这个问题。
你可以采取一些步骤来确保数据安全和隐私,例如访问控制、加密、定期审计、数据生命周期管理等。你要确保你采取的任何保护数据的措施都符合数据隐私法规,例如 GDPR。
数据治理与文档管理
如果你想在数据生命周期中确保数据质量和问责制,数据治理和文档管理对于你的数据管理过程至关重要。这个过程包括制定政策、流程和最佳实践,以确保你的数据得到良好管理,并保护所有资产。其主要目的是提供透明度和合规性。
所有这些政策和流程应全面记录,以提供对数据如何结构化、存储和使用的洞察。这在组织内部建立信任,以及他们如何利用数据驱动决策过程,从而避免风险并发现新机会。
过程的示例包括创建全面的文档、元数据、维护审计跟踪和提供数据血缘。
协作与共享
数据科学项目涉及协作工作流程,因此你可以想象这会有多么混乱。你有一个数据科学家在处理同一个数据集,而另一个数据科学家则在进一步清理。
为了确保团队内的数据管理,始终沟通你的任务,以避免重叠,或某人拥有比其他人更好的数据集版本。
数据科学团队中的协作确保了数据对不同利益相关者的可访问性和价值。为了提高团队内部的协作和共享,你可以使用数据共享平台,使用诸如 Tableau 等协作工具,设置访问控制,并允许反馈。
数据管理工具和技术
好的,现在我们已经深入探讨了数据管理的关键组件,我将创建一个数据管理工具和技术的列表,以帮助你在数据科学项目生命周期中。
关系型数据库管理系统(RDBMS):
-
MySQL
-
PostgreSQL
-
Microsoft SQL Server
NoSQL 数据库:
-
MongoDB
-
Cassandra
数据仓库
-
Amazon Redshift
-
Google BigQuery
-
Snowflake
ETL(提取、转换、加载)工具:
-
Apache NiFi
-
Talend
-
Apache Spark
数据可视化和商业智能:
-
Tableau
-
Power BI
版本控制与协作:
-
Git
-
GitHub
数据安全和隐私:
-
Varonis
-
Privitar
总结
数据管理是数据科学项目的重要元素。把它看作支撑你城堡的基础。数据管理过程越好,结果就越好。我提供了一些文章,你可以阅读以了解更多关于数据管理的内容。
资源与进一步学习
-
5 个数据管理挑战及解决方案
-
前 5 大数据管理平台
-
免费数据管理与数据科学学习 CS639
-
为什么数据管理对数据科学如此重要?
尼莎·阿亚 是一位数据科学家、自由技术写作员以及 KDnuggets 的社区经理。她特别感兴趣于提供数据科学职业建议或教程,以及围绕数据科学的理论知识。她还希望探索人工智能如何能够有益于人类生命的延续。作为一个热衷学习者,她寻求拓宽自己的技术知识和写作技能,同时帮助指导他人。
更多相关主题
数据管理:如何保持在客户心中的领先地位?
原文:
www.kdnuggets.com/2022/04/data-management-stay-top-customer-mind.html
如果你拥有或计划创业,你可能已经多次收到诸如“有效管理数据”和“更多关注客户”的建议。然而,如果你认为围绕数据管理和客户关系的炒作过多,那么是时候了解数据管理和客户满意度之间的关系,以及你如何利用这些知识帮助你的业务成功了。
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT 工作
无论是通过市场营销活动还是客户服务电话,赢得客户的心都是必要的。然而,打动客户并不容易!在这个数字化商业世界中,产生了大量的客户数据。你必须了解客户的每一个细节,包括他们的兴趣和痛点,以便即时分析并向他们提供相关解决方案。
为了实现这一点,你组织中的每一个团队都必须有效地合作。通过实施以客户为中心的商业战略和有效的数据管理解决方案,你可以在业务中取得成功。
为什么你需要以客户为中心的方法?
在今天的数字商业世界中,客户有很多选择来比较和购买产品。要成为客户的首选,你必须首先了解他们,知道他们对你的产品或服务有什么期望,并迅速解决他们的问题。如果客户认为你不听取他们的需求,即使你拥有卓越的品牌价值,他们也会瞬间切换品牌。
根据 德勤 的研究,采取以客户为中心的方法的组织比那些不专注于客户的公司要有 60%的回报率。因此,什么是以客户为中心的战略?它就是将客户放在首位,了解他们的需求,并提供最佳解决方案。虽然采用以客户为中心的文化具有挑战性,但绝对值得付出努力。
如果你有一个以客户为中心的商业文化,问问自己这些问题,以查看你是否在正确的轨道上。
数据管理在以客户为中心的战略中的作用?
你可能会想,如果以客户为中心能够增加利润和声誉,为什么公司不去实施它。简短的答案是,大多数企业尝试以客户为中心但未能实现。然而,挑战在于几乎所有的客户数据来自多个接触点,并且在部门之间缺乏一致性和治理。
根据 哈佛商业评论 的一篇文章,组织中的数据中仅有 3%是高质量数据。差的数据和过时的数据不过是一些数字。为了有效地提供以客户为中心的体验,组织应当从收集相关客户数据开始,接着丰富、标准化,并使其能够立即提供给组织中的所有人。
在组织中手动完成所有这些工作需要时间和金钱,同时也容易出错。通过自动化的 数据管理解决方案
通过 utm_source=data_management_blog_Mar22&utm_medium=web&utm_campaign=blog,你可以在专注于提升客户生命周期价值和减少流失的同时,强化你的端到端客户数据管理。
数据管理解决方案如何有利于以客户为中心的战略
数据管理已经从简单的数据收集发展到分析和存储数据,以便于跟踪和访问。以下是数据管理解决方案的一些功能。
跟踪和访问你的数据
客户数据是跨多个部门收集并存储在不同的数据库中的。实现以客户为中心的文化的第一步是了解你提取的客户数据,数据存储的位置,信息属于哪个类别,谁收集了数据等等。如果你打算手动完成这些工作,你将陷入困境!
自动识别和分类带有元数据标签的数据可以让你快速确定谁、何时、何地、关于数据的内容以及客户数据的关联。当你的经理要求你检索关于客户的多个数据集时,你不必担心接下来的艰巨任务。借助正确的解决方案,你可以在几分钟内获得数据。实施有效的元数据管理解决方案不再是一个选择,而是一个必须的条件,以节省今天数字商业世界中的时间和人工劳动力。
检查并丰富数据质量
以下步骤确保数据是干净且最新的。数据质量和丰富性确保信息干净、去重、无错误且经过增强。"数据质量"这个词已经成为一个流行词。每个人都在谈论数据质量,每个人都希望实现 100%的数据质量。数据质量对于实现和维持以客户为中心的目标是否必要?是的,它至关重要!
正确的客户方法始于准确的数据。凭借精确的客户数据,你可以快速识别市场趋势、客户模式,并将正确的信息发送给正确的人,从而减少不必要的营销活动费用并提高客户终生价值。根据哈佛商业评论,将客户保留率提高 5%可以将利润提高 25%至 95%。一个由 AI 驱动的数据质量解决方案可以实时自动化数据分析、清理和丰富的过程,使你能够获得数据驱动的洞察,并有效地提高客户保留率。
无缝集成和存储数据
一旦你拥有了干净且丰富的数据,下一步是确保组织内的每个人、各个部门通过多种渠道访问这些数据。定义、管理和整合所有可用的客户数据对于创建黄金记录或关于客户的单一真实版本至关重要。数据集成解决方案是收集客户数据、将其转换为标准格式并存储在数据仓库或数据湖等集中位置的最佳选择。
数据集成为你提供了客户数据的完整视图。例如,如果销售部门清楚地了解所有关于客户的数据,他们将能够迅速做出明智的产品推荐。一个稳固的数据集成解决方案允许你随时无缝集成所有数据,为你提供统一的客户数据视图。
探索数据管理解决方案以实现以客户为中心的目标
在组织中创建以客户为中心的战略是困难的,但它是值得的。了解你的客户并快速响应他们的需求对于保留他们并最大化你的市场价值至关重要。
如果你在寻找和管理客户数据以实现以客户为中心的目标方面遇到困难,是时候开始使用数据管理解决方案了。智能且强大的数据管理解决方案如Xtract.io、Informatica、Talend等将通过几次点击处理所有客户数据,保护你的隐私,并帮助你获得创新的业务洞察。
请在评论区分享你的想法,以便我们开始一些有趣的讨论!
Abinaya Sundarraj 在数据解决方案公司 Xtract.io 担任市场营销顾问。她是一位热衷于阅读的人,喜欢撰写有关数据在各个行业中作用的文章。她相信宇宙为那些真正渴望的人提供一切。
更多相关主题
使用机器学习进行数据映射
原文:
www.kdnuggets.com/2019/09/data-mapping-using-machine-learning.html
评论
使用机器学习进行数据映射
从小型到大型企业,几乎每家公司都在争夺获得受众注意的机会。20 年前的常规营销活动现在已经不再奏效。为了走在前沿并超越竞争对手,你通常需要直接面向源头进行市场营销,尤其是当你的目标群体是千禧一代时。
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 需求
收集数据是许多企业学习如何定位其受众的一种方式。要直接向潜在买家进行市场营销,你需要了解他们的兴趣、需求、所在位置以及他们最有可能回应你的广告的地方。
虽然数据无法过于详细地描述个人,但它在了解群体方面非常有效。如果你能有效地利用数据,了解目标受众的行为不必困难。实现这一点的一种方式是通过数据映射。
什么是数据映射?
数据映射是一种将各种数据片段组织成一个可管理且易于理解的系统的方法。这个系统在存储时将数据字段与目标字段进行匹配。
简而言之,并非所有数据都遵循相同的组织标准。它们可能以你能想到的多种不同方式来表示电话号码。数据映射会识别电话号码的本质,并将它们都放在同一个字段中,而不是让它们以其他名称漂移。
通过这种技术,我们能够将组织的数据汇总成一个更大的图景。你可以发现你的目标受众主要生活在哪里,了解他们有什么共同点,甚至找出一些你不应触及的争议话题。
拥有这些信息后,你的企业可以做出更明智的决策,花费更少的资金,同时将产品和服务推向你的受众。
数据映射和机器学习
前面提到的识别电话号码的例子与一种叫做统一和数据清理的东西有很大关系。这些过程通常由机器学习驱动,而机器学习与人工智能不同。
机器学习使用模式和推断来提供预测,而不是执行单一任务,这比人工智能技术更多的是其一个子集。在前面的例子中,机器学习用于识别电话号码并将其分配到适当的类别以便于组织。
但机器学习不仅仅是识别电话号码。这项技术可以识别诸如缺失值或拼写错误等错误,并将来自同一来源的信息进行分组。
这就是数据清理和统一的真正含义——在没有任何人工输入的情况下清理所有数据,并以最完美和精确的形式呈现信息。这个过程节省时间,并且在信息的准确性方面更有效。
数据可以以几乎任何一个人或公司需要的方式显示。例如,地理空间数据是机器学习可以自动处理并创建的一种方式,而无需输入。地理空间数据基本上是将数据转换为地图并绘制出目标受众每天经过的物理位置和路线。这种技术可以为你的下一个广告活动提供独特的帮助。
为什么机器学习对数据映射很重要
机器学习使数据映射变得更加精确。如果没有这种技术,数据映射要么非常基础,要么完全手动完成。
假设我们采用基础的方法,一个简单的电子表格能够将信息输入并猜测其适当的类别。拼写错误不会被修正,缺失的值将保持缺失,某些信息可能会散落在随机的位置。
尝试手动完成数据映射将更糟。首先,一个人永远无法跟上信息的流动,更不用说已经隐藏在物联网中的信息积压。如果有人能够跟上流动,仍然会出现错误,因为大量数据会导致人类无法像机器一样发现连接。
为什么数据映射对你很重要
数据的使用是现代营销中极其重要的一部分。了解最佳的时间和地点来接触客户将使你能更高效地定位目标受众。
即使是那些可以在所有可能的媒体渠道上展示自己名字的大型行业,也会使用数据映射来节省成本,并对客户群体表现出更大的忠诚。
无论大或小,你都可以利用这些信息超越其他争夺客户注意力的竞争者。如今竞争激烈,因此走在前面并保持领先是一门每个人都在努力完善的艺术。数据映射可以帮助你尽早实现这一目标。
简介:凯拉·马修斯 在《The Week》、《数据中心杂志》和《VentureBeat》等刊物上讨论技术和大数据,并从事写作工作超过五年。要阅读凯拉的更多文章,订阅她的博客 Productivity Bytes。
相关:
-
6 个逐渐重视预测分析和预测的行业
-
如何说服你的老板数据分析的必要性
-
如何展示你的数据科学工作的影响
相关阅读
数据掩码:确保 GDPR 和其他合规策略的核心
原文:
www.kdnuggets.com/2023/05/data-masking-core-ensuring-gdpr-regulatory-compliance-strategies.html
图片由 Bing Image Creator 提供
隐私不是可以出售的产品,而是维护每个人完整性的宝贵资产。这只是促使 GDPR 和其他全球法规制定的众多因素之一。随着对数据隐私重要性的日益增加,数据掩码已成为各类组织维护个人信息安全和机密性的必要措施。
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT 工作
数据掩码有一个使命——保护个人身份信息(PII)并尽可能限制访问。它匿名化并保护个人和敏感信息。因此,它适用于银行账户、信用卡、电话号码以及健康和社会安全细节。在数据泄露期间,没有个人身份信息(PII)会被暴露。您还可以在组织内设置额外的安全访问规则。
什么是数据掩码?
数据掩码,顾名思义,是一种通过用虚拟但现实的数据替代敏感数据来保护数据的技术。它在符合《通用数据保护条例》(GDPR)的情况下保护个人数据,确保数据泄露不会暴露个人的敏感信息。
由于数据掩码是数据保护策略的核心组成部分,它适用于各种数据类型,如文件、备份和数据库。它与加密、访问控制、监控等紧密配合,以确保端到端符合 GDPR 和其他规定。
我们为什么需要这项技术来符合 GDPR 和其他规定?
尽管数据脱敏在消除敏感数据暴露方面已被证明有效,但许多企业仍未遵循相关指南,面临违规风险。最受关注的案例是服装零售商 H&M,因为违反 GDPR 规范,被罚款 3500 万欧元。调查发现,管理层可以访问敏感数据,如个人的宗教信仰、个人问题等。这正是 GDPR 试图避免的情况,因此数据脱敏至关重要。
然而,像 BFSI(银行、金融服务和保险)和医疗保健等高度受监管的行业已经开始实施数据脱敏,以遵守隐私法规。这些法规包括支付卡行业数据安全标准(PCI DSS)和健康保险流通与问责法案(HIPAA)。
2018 年欧洲 GDPR 的实施引发了全球隐私法律的趋势,加利福尼亚州、巴西和东南亚等司法管辖区分别推出了 CCPA、CCPR、LGPD 和 PDPA 等法律,以保护个人数据。
数据脱敏可以为法规遵从提供多个好处,包括
-
保护敏感数据:数据脱敏可以通过用虚构但现实的数据替换敏感数据来保护敏感数据,如个人信息。这可以防止未经授权的访问或敏感数据的意外暴露。
-
遵守法规:数据脱敏可以用于匿名化个人数据,这有助于组织遵守如《通用数据保护条例》(GDPR)及其他数据隐私法律等法规。
-
审计和合规:数据脱敏可以提供敏感数据访问的可审计记录,这有助于组织展示其遵守监管要求的情况。
-
数据治理:数据脱敏可以作为数据治理工具;组织可以确保敏感数据仅用于预定目的,并由授权人员使用。
GDPR 的关键数据脱敏实践
数据最小化
数据脱敏中的数据最小化指的是只对保护敏感信息所需的最小量数据进行脱敏,同时仍允许数据用于其预期目的。这有助于组织在保护敏感数据的同时,平衡业务用途的需求。
例如,一个组织可能只需要对信用卡号码的最后四位数字进行脱敏,以保护敏感信息,同时允许数据用于金融交易。类似地,在个人数据中,仅对姓名和地址等特定字段进行脱敏,而保留性别和出生日期等其他字段,对于特定使用场景可能已足够。
假名化
假名化使用假名替代用户的识别信息,从而保护其隐私。这在确保符合通用数据保护条例(GDPR)方面非常有用,确保数据泄露不会揭示有关个人的敏感信息。
这种数据掩码技术用唯一的假名替代个人标识符,如姓名、地址和社会保险号码,同时保持性别和出生日期等非敏感属性不变。假名可以使用加密技术生成,如哈希或加密,以确保原始个人数据无法恢复。
它还符合对科学、历史和统计目的(分析)数据处理的安全和安全要求。这是确保符合 GDPR 数据保护设计原则的重要工具。
你可以优化你的 DevOps 功能。对于 DevOps,数据掩码提供了真实但安全的虚拟数据用于测试。这对依赖内部或第三方开发人员的组织尤其有益,因为它确保了安全性并减少了 DevOps 过程中的延迟。数据掩码使你能够在维护客户隐私的同时测试他们的数据。
针对 GDPR 及其他法规的数据掩码
将数据视为产品并使用掩码技术具有很多好处。2022 年,许多数据架构和产品平台因其创新方法而受到关注。例如,K2view 在业务实体级别执行数据掩码,确保一致性和完整性,同时保持引用完整性。
为确保最大安全性,每个业务实体的数据在其 Micro-Database 中进行管理,并由 256 位加密密钥保护。此外,Micro-Database 中的个人身份信息(PII)会实时掩码,遵循预定义的业务规则,提供额外的保护层。
参考资料
实施数据掩码技术可以帮助组织避免巨额罚款和声誉损害。然而,需要注意的是,数据掩码本身不足以实现 GDPR 合规,应与其他安全措施结合使用。
Yash Mehta 是国际公认的物联网(IoT)、机器对机器(M2M)及大数据技术专家。他撰写了多篇广受认可的数据科学、物联网、商业创新和认知智能方面的文章。他是名为 Expersight 的数据洞察平台的创始人。他的文章曾被最权威的出版物刊登,并被 IBM 和思科物联网部门评为最具创新性和影响力的连通技术行业作品之一。
更多相关话题
数据成熟度:AI 驱动创新的基石
原文:
www.kdnuggets.com/data-maturity-the-cornerstone-of-ai-enabled-innovation
图片来源于 Google DeepMind
在追求创新和确保竞争优势的过程中,企业正逐渐利用人工智能(AI)的力量作为一种变革性工具。人工智能承诺简化操作、提升决策过程,并揭示数据中隐藏的模式,这促使它在各行业迅速应用,尤其是在零售、制造和分销领域。
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
然而,尽管有令人信服的可能性,实现人工智能的最大收益依赖于扎实的数据成熟度基础。不幸的是,许多企业由于各种因素面临实现这种成熟度的挑战。这些挑战通常包括:
-
数据孤岛现象
-
数据质量差
-
对数据资产和技能的透明度有限
-
组织惯性在重新建立技术作为业务数据需求的推动者与提供者之间的平衡
在这篇文章中,我将重点介绍克服这些挑战的建议策略,以建立一个强大的数据基础,进而扩展差异化的人工智能能力。
当前人工智能的状态及行业领袖如何引领前进
零售、制造和分销领域的领导者利用 AI 的强大功能取得了显著成果,从优化供应链到预测客户行为。生成式 AI 正在获得主流关注。最近的《财富》/德勤首席执行官调查发现,首席执行官们对生成式 AI 的潜力表现出广泛兴趣。在最近的一项调查中,79%的首席执行官对技术提升运营效率的潜力表示乐观,超过一半的首席执行官预期会出现新的增长途径。一部分人透露正在评估和实验生成式 AI,强调了积极利用尖端技术的主动态度。
在 AI 成熟度最高的行业领导者中,他们展示了差异化的能力来推动销售和优化运营。例如,亚马逊的 AI 推荐引擎根据客户的历史购买和浏览记录建议产品,这在推动销售方面发挥了重要作用。同样,沃尔玛成功地使用 AI 算法进行库存管理和需求预测,这意味着这家零售巨头正在利用 AI 确保产品在客户需要时随时可用。
然而,根据 Gartner 的 AI 成熟度模型,52%的中大型美国组织仍在实验 AI。
根据最近对 300 多位首席数据官的 AWS 调查,首席数据官在采纳 AI 和支持数字化转型方面扮演着至关重要的角色,并负责组织内的数据战略和治理,他们认为数据质量是充分发挥 AI 能力的最大障碍之一。
让我们深入探讨影响 AI 采纳的数据成熟度挑战以及如何克服这些挑战。
数据成熟度:AI 可扩展性的缺失环节
尽管 AI 的潜力不可否认,但许多企业由于数据相关的障碍而在扩展 AI 应用时遇到困难。随着组织开展雄心勃勃的 AI 计划,它们常常遇到阻碍及时实施和广泛采纳的重要障碍。组织必须优先考虑数据成熟度,以应对这些挑战,并充分实现 AI 的潜力。
数据成熟度指的是组织有效管理、治理和利用其数据资产的能力。它涵盖数据质量、治理、集成和分析能力。缺乏数据成熟度可能导致阻碍 AI 采纳和扩展的若干挑战,例如:
-
数据孤岛和碎片化: 分散在不同系统和格式中的数据会造成数据孤岛,可能阻碍公司范围内的整体利用。
-
数据质量问题: 不准确、不完整或不一致的数据可能导致缺陷的人工智能模型和不可靠的见解。
-
数据治理缺口: 如果没有适当的数据治理实践,企业可能会面临与数据安全、隐私和合规性相关的问题。
-
有限的数据分析能力: 无法从数据中提取有意义的见解可能会阻碍人工智能的开发和应用。
这些挑战凸显了数据成熟度在实现人工智能扩展性方面的关键作用。为了克服这些困难,企业必须采用全面的数据管理和治理方法。
解决关键挑战的规范性策略
DataArt 为企业提供了全面的战略和解决方案,以提升数据成熟度。我们推动合作伙伴走向一个数据民主化、灵活且目标驱动的软件生态系统,克服阻碍人工智能采纳的障碍。通过培养数据拥有、赋能和创新的文化,企业可以更好地利用人工智能的变革潜力,推动可扩展的、人工智能驱动的应用场景,将自己置于由数据驱动的卓越和持续增长所定义的未来前沿。
数据网格与数据产品的融合
数据网格和数据产品策略的出现预示着全球经济中的一种变革性范式转变。数据网格是一种新型架构方法,主张去中心化的数据拥有和管理,在单一企业中推动基于领域的数据架构。这一策略旨在通过将数据拥有权分配给领域特定团队,从而缓解集中数据湖或数据仓库的瓶颈。通过这种数据分发工作,数据网格使团队能够策划、拥有和发展他们的数据产品,促进灵活性和扩展性,同时保持数据治理和质量。
图 1:数据网格框架,通过业务领域驱动的数据产品实现快速价值实现。
同时,数据产品战略进一步巩固了人工智能扩展性的基础。该战略倡导将数据视为产品进行概念化、创建和管理,以满足组织内部特定用户的需求。每个数据产品都封装了有价值的见解、准备好的数据集或分析工具,旨在供各类利益相关者使用。这种方法培养了数据拥有的文化,赋予团队创新、协作的能力,并从精心策划的数据产品中提取可操作的见解,加速人工智能的采用。
例如,客户细分分析数据产品可以进一步用于创建流失数据产品,两者都可以用于营销目的,为客户生成超个性化的内容。如果没有数据产品或数据产品市场,团队将不得不从头开始构建这些分析能力。相反,每个新的用例可以重用和重新利用现有的数据产品,从而缩短开发时间,并产生更一致的输出。
数据民主化与有效的数据治理
随着各行各业的公司寻求更有效的数据管理方式,必须仔细考虑几个因素。数据民主化涉及使数据对数据科学家、商业分析师、领域专家、管理层和高管等利益相关者可访问和易于理解。此外,公司必须确保数据不仅可以随时获取、易于阅读,而且还要安全、合规,并具备透明的标准和控制措施。实施正确的安全性和合规性措施将帮助企业保护数据的完整性、隐私和合规性。
这种演变标志着组织如何利用数据的根本变化。历史上,IT 部门负责建立公司数据相关模块,如数据仓库和分析数据产品。通过实施 AI 驱动的数据民主化方法,IT 可以成为技术促进者,而不仅仅是控制数据访问和提供服务的角色。通过部署 AI 驱动的系统,IT 可以将资源集中在赋能用户独立浏览和获取公司数据的洞察上。这一过渡需要 IT 角色的根本转变,从守门人变成促进协作和创新的合作伙伴。
数据策划在确保组织内数据资产的质量、相关性和可用性方面发挥着关键作用。然而,由于数据来源的数量和多样性、功能孤岛以及人工努力的挑战,维护数据策划通常很困难。这是 AI 可以改善的领域之一。 AI 驱动的工具和算法可以自动化数据处理任务,从而实现更快的数据策划、数据清理和标准化,减少人工工作。 AI 算法可以识别数据中的模式并进行信息的上下文化,从而促进更准确的数据策划和分类。
通过采纳和实施这些策略,企业可以建立一个强大的数据成熟度基础,使其能够有效利用 AI 的力量,并在业务中扩展 AI 驱动的用例。此外,DataArt 可以帮助公司建立或改善连接技术、人员和流程的核心基础能力,如:
-
打破数据孤岛: 将来自不同来源的数据整合到一个集中存储库中,确保数据的一致性和可访问性。
-
建立数据治理: 实施一个定义数据所有权、访问控制、数据质量标准和数据使用政策的框架。
-
提升数据质量: 实施数据质量检查、清理过程和丰富技术,以提高数据的准确性和完整性。
-
培养数据素养: 对员工进行数据管理原则、数据分析技术和数据驱动决策的培训,以提升组织的数据利用能力。
-
投资于数据基础设施: 升级数据基础设施以处理日益增长的数据量、速度和种类,确保高效的数据存储、处理和分析。
-
拥抱 DataOps: 实施 DataOps 实践以自动化数据管理过程,实现快速数据交付和持续改进。
-
利用基于云的数据解决方案: 使用基于云的数据平台以在数据管理中获得可扩展性、灵活性和成本效益。
-
持续监控和改进: 监控数据质量、治理合规性和使用模式,以识别并解决新出现的挑战。
结论
数据成熟度不仅仅是技术要求;它是寻求释放 AI 变革潜力的企业的战略性必要条件。通过应对与数据成熟度相关的关键挑战,企业可以为由数据驱动的洞察和 AI 驱动的创新塑造未来铺平道路。
Oleg Royz 是 DataArt 的零售与分销副总裁。
更多相关主题
数据网格架构:重新定义数据管理
原文:
www.kdnuggets.com/2022/05/data-mesh-architecture-reimagining-data-management.html
由 GarryKillian 创建的连接点矢量 - www.freepik.com
介绍
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 工作
数据被视为推动业务创新的驱动力。因此,企业不断探索数据的潜力,以使业务流程更直观,并为客户提供超个性化的体验。随着驱动型企业在当今数字世界中取得成功,对数据分析市场的投资预计到 2023 年将达到 1030 亿美元。随着企业急于从数据中获取更有价值和可操作的洞察,数据量和数据来源的增加也在快速增长和扩展。继续将来自不同来源的数据整合到一个集中位置(即数据湖或数据仓库)的数据管理策略变得越来越复杂,因为集中在数据仓库或数据湖中的数据需要由专业团队进行分析。
数据网格是一种新的 去中心化数据策略,将所有权归于每个业务领域,例如销售或客户支持。
数据网格的目标是建立来自不同领域的数据之间的一致性。这些领域被自主处理,以消除跨职能团队面临的数据可用性和访问性挑战。
数据网格将解决的问题
数据网格解决了传统大数据管理方法中显著存在的以下问题:
支持可扩展性
市场专家指出,传统的数据管理方法,包括数据仓库或数据 湖泊模型(data lake models) 扩展性差。随着数据量的增加,数据管理的复杂性也随之增加。在传统的数据湖架构中,来自不同来源的数据使得数据消费者难以解读。消费者必须回到数据生产者那里尝试理解数据。随着多个平台的集成增加,以及数据缺乏结构和所有权,时间的推移使得数据湖架构面临重大障碍。
数据网格架构倡导每个团队负责创建、处理和存储数据。这有助于其他领域避免单一中央企业级 数据仓库或数据湖 的瓶颈。集中数据的解耦使企业级扩展成为可能,当团队以速度和规模满足自身的数据需求时,迅速带来跨领域的创新。
数据质量的提升
集中式的数据管道使得团队对不断增长的数据量的质量控制减少,但数据网格架构允许每个团队使用自己的仓库和湖泊,创建和管理他们的领域数据,从而团队有更多的激励和所有权来确保数据产品的质量,确保在进一步分发前达到高标准。这种架构在企业内部带来了更多的问责制和团队间的协作。
更加关注组织变革
集中的整体数据储备还提供了一种跨多个技术和平台访问数据的架构,但它更多地集中于技术,而数据网格则专注于组织变革。数据网格生态系统将知识注入领域团队,鼓励领域团队在其专业领域内提供最佳业务价值。这种生态系统打破了一个常见的误解,即需要集中数据才能使其有用。由于数据来自不同来源的集中,数据的含义有时会被修改。数据网格可以解决这个问题,因为领域 团队将数据视为产品 并处理自己的数据管道。他们还能够提供数据产品,并集中提供。
让我们看一下企业在采纳数据网格架构之前需要考虑的几个关键因素
尺寸和业务需求
随着数据量和类型的增长,数据团队会感到不堪重负,企业从数据投资中获得的价值也会越来越少。因此,数据网格架构非常适合数据流来自多个来源、且这些来源各异且可变的大型企业。业务举措应与领域团队紧密对齐,以从领域特定的数据中获取有价值的见解。这种对齐有助于领域团队创造能够带来实际业务价值的高质量成果。
数据管理与所需专业知识
各领域处理数据的策略还需要企业范围内的协调和治理。现代工具可以帮助企业入门数据管理策略,但工具的选择仍需要专家的全面监督。
像 Cuelogic、Data Product Platform、IBM 等平台提供实施数据网格架构的服务。这些平台像传统的数据管理架构一样,整合来自所有来源的数据,将其制作成任意数量的数据产品,并创建数据网格。数据管理平台提供在任意数量领域间安全分发数据,并在任何层级提供数据质量控制、隐私和访问权限。
此类平台还对引导企业过渡到处理数据的新方式非常有用,并帮助它们避免在底层系统中发现的数据复杂性。
结论
数据网格架构为现有的数据管理架构带来了范式转变。它能够处理多样化和庞大的数据量,相比其他数据架构,它是一种更好的方法。数据网格中的领域特定结构有助于从不断增长的数据块中生成有价值的见解。团队对数据的拥有权转化为更大的数据实验和创新空间。Netflix 采用了数据网格架构,以整合和管理来自数百个不同数据存储的数据。参见这个YouTube 视频来了解 Netflix 数据网格。这种创建一个由领域团队组成的网络的新方式,能够帮助这些团队拥有自己的数据并将其视为产品,从而从数据操作中获得更多价值。
Yash Mehta 是一位物联网和大数据爱好者,他在 IDG、IEEE、Entrepreneur 等出版物上贡献了许多文章。他共同开发了像 Getlua 这样的平台,允许用户轻松地 合并多个文件。他还创立了一个研究平台,从专家那里生成可操作的见解。
更多相关话题
数据网格及其分布式数据架构
原文:
www.kdnuggets.com/2022/02/data-mesh-distributed-data-architecture.html
图片由 Ricardo Gomez Angel 提供,发布在 Unsplash
企业希望更快响应并提供卓越的客户体验,这需要对数据管理进行全面的重塑。迄今为止,技术已经解决了存储和处理大数据的问题。它还具备了将大数据进行深度分析的能力。与此同时,预计到 2025 年,先进数据管理解决方案的全球市场规模将达到 1229 亿美元。
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业道路
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您的组织进行 IT 管理
然而,数据来源类型和数量的日益多样化继续阻碍无缝的数据生命周期。迄今为止,数据管理领域主要是将数据捕获和流式传输到一个中心化的数据湖中。数据湖会进一步处理和清洗数据集。展望未来,数据专业人士找到了一种通过数据网格来解决数据来源扩展性的全新方法。
什么是数据网格?
数据网格是一种分布式架构解决方案,用于分析数据的生命周期管理。基于去中心化,数据网格消除了数据可用性和访问性的障碍。它使用户能够从多个来源捕捉和操作洞察,无论这些来源的地点和类型如何。随后,它执行自动化查询,而无需将数据传输到中心化的数据湖中。
数据网格的分布式架构去中心化了每个业务领域的所有权。这意味着每个领域都掌控着分析和运营用例的数据质量、隐私、新鲜度、准确性和合规性。
从中心化数据湖迁移到分布式网格
随着数据源数量的不断增加,数据湖无法进行按需集成。使用数据网格,将大量数据倾倒入数据湖的做法正处于过时的边缘。
新的数据管理框架确保了所有节点的协作参与,每个节点控制一个特定的业务单元。它通过遵循数据即产品的原则来实现这一点。这意味着每个数据集都被视为一个数字产品,包含干净、完整和有结论的数据集。这些数据集可以随时随地按需交付。对于一个快速增长的数据管理生态系统来说,数据网格是提供组织数据洞察的重要方法。
所有权的去中心化减少了对工程师和科学家的依赖。每个业务单元控制其自身的特定领域数据。然而,每个领域仍然依赖于中心化的标准化数据建模、安保协议和治理合规政策。
使用数据网格和数据结构
任何关于数据管理的讨论如果遗漏了数据结构架构,那将是不完整和无关的。关于数据结构和数据网格相互竞争的说法是一个误解。这是不正确的。Gartner 已经对这两个标题进行了并排讨论,并澄清了这一点。
数据结构是一种经典而相关的架构,推动了不同工业中的结构使用。它自动发现并提出管理架构,从而简化整个数据生命周期。它还支持验证数据对象和上下文引用,以便重新使用这些对象。数据网格通过利用当前的主题领域专长并为数据对象准备解决方案来实现这一点。
关于数据结构和数据网格相互竞争的说法是一个误解。这是不正确的。实际上,数据结构可能在从数据网格架构中提取最佳价值方面发挥重要作用。
使用基于实体的数据结构实施数据网格
以 K2View 的基于实体的数据结构架构为例。它为每个业务实体保存数据到一个独立的微型数据库,从而支持成千上万个这些数据库。此外,通过将‘业务实体’和‘数据作为产品’的概念融合,他们的结构支持数据网格设计模式的实施。在这里,数据结构创建了一个连接来自多个来源的数据集的集成层。这为操作和分析工作负载提供了全景视图。
实体基础结构标准化了所有数据产品的语义定义。根据规定,它建立了数据摄取方法和治理政策,以确保数据集的安全性。由于基础结构的支持,网格模式在实体级存储方面表现更好。
因此,对于网格分布式网络中的每个业务领域,都会部署一个专属的基础结构节点。这些特定于特定业务实体的领域拥有对服务和管道的本地控制,以便为消费者访问产品。
去中心化数据所有权模型
企业必须将来自多个来源的多种数据类型导入集中式存储库,如数据湖。在这里,数据处理通常消耗大量精力,并且容易出错。查询这种异构数据集进行分析会直接增加成本。因此,数据专业人士一直在寻找这种集中式方法的替代方案。凭借 Mesh 的分布式架构,他们能够实现每个业务实体的所有权去中心化。现在,这种模式减少了生成定性见解的时间,从而增加了核心目标的价值——快速访问数据并影响关键业务决策。
去中心化方法解决了更多问题。例如,传统数据管理中的查询方法可能会因数据量无法控制的增长而失去效率。这必然会迫使整个流程发生变化,并最终无法响应。因此,随着数据源数量的增加,响应时间急剧下降。这一直影响着提取数据价值和扩大业务成果的过程敏捷性。
通过去中心化,Mesh 将所有权分配给不同的领域,以应对数据量的挑战,并最终在其层面上、为其相关的数据集执行查询。因此,该架构使企业流程能够缩短事件与其消费分析之间的差距。企业能够在关键决策制定方面进行改进。
通过提供数据即服务架构,Mesh 带来了业务运营的敏捷性。它不仅减少了 IT 积压,还使数据团队只处理精简和相关的数据流。
因此,授权的消费者可以轻松访问他们各自的数据集,而无需了解其底层复杂性。
结论
从数字数据开始,Web 3.0 致力于去中心化企业流程。数据管理是这一方向上的一个重要用例。显然,集中式权威在处理爆炸性增长的数据方面已经超出了某个极限。期待 2022 年,它将把 Data Mesh 架构推向前沿。
Yash Mehta 是一位物联网和大数据爱好者,他在 IDG、IEEE、Entrepreneur 等刊物上发表了许多文章。他共同开发了像Getlua这样的平台,允许用户轻松地合并多个文件。他还创办了一个研究平台,从专家那里生成可操作的见解。