KDNuggets 博客中文翻译（四）

最新推荐文章于 2025-05-07 02:40:54 发布

绝不原创的飞龙

最新推荐文章于 2025-05-07 02:40:54 发布

阅读量1.2k

点赞数 11

分类专栏：默认分类文章标签：默认分类

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/143459706

版权

默认分类专栏收录该内容

3621 篇文章

订阅专栏

原文：KDNuggets

协议：CC BY-NC-SA 4.0

10 个学习 LLM 的免费资源

原文：www.kdnuggets.com/10-free-resources-to-learn-llms

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

在上一篇文章中，我解释了如何人工智能是未来的技能，这些职位的年薪高达 $375,000。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业的捷径。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织在 IT 方面

大语言模型（LLMs）已成为人工智能的核心关注点，现在几乎每个数据驱动的角色都需要对这些算法有一些基础了解。

无论你是希望扩展技能的开发者、数据从业者，还是想转行进入人工智能领域的专业人士，了解 LLM 在当前就业市场中都能为你带来巨大的收益。

在这篇文章中，我将为你提供 10 个帮助你了解大语言模型的免费资源。

1. 大语言模型简介由 Andrej Karpathy

如果你是人工智能领域的完全初学者，我建议你从这个一小时的 YouTube 教程开始，讲解了 LLM 的工作原理。

到视频结束时，你将理解 LLM 的工作原理、LLM 扩展法则、模型微调、多模态性和 LLM 定制化。

2. 微软初学者的生成式 AI

生成式 AI 初学者是一门 18 课的课程，将教你关于构建生成式 AI 应用程序的一切。

从最基本的开始——你将首先了解生成式 AI 和 LLM 的概念，然后进展到诸如提示工程和 LLM 选择等主题。

接着，你将学习如何使用低代码工具、RAGs 和 AI 代理来构建 LLM 驱动的应用程序。

课程还将教你如何微调 LLM 和保护你的 LLM 应用程序。

你可以跳过模块，选择对你的学习目标最相关的课程。

3. 利用 LLM 的生成式 AI 由 Deeplearning.AI

利用 LLM 的生成式 AI 是一门关于语言模型的课程，需要大约 3 周的全日制学习。

这个学习资源涵盖了 LLM 的基础知识、变换器架构和提示工程。

你还将学习如何在 AWS 上微调、优化和部署语言模型。

4. Hugging Face NLP 课程

Hugging Face 是一家领先的 NLP 公司，提供库和模型，允许你构建机器学习应用程序。他们让普通用户也能轻松构建 AI 应用程序。

Hugging Face 的 NLP 学习轨迹涵盖了变换器架构、LLM 的工作原理以及他们生态系统中可用的数据集和分词器库。

你将学习如何微调数据集，并使用 Transformers 库和 Hugging Face 的管道执行文本总结、问答和翻译等任务。

5. Cohere 的 LLM 大学

LLM 大学是一个涵盖 NLP 和 LLM 相关概念的学习平台。

与之前的课程类似，你将从学习 LLM 的基础和架构开始，逐渐深入到更高级的概念，如提示工程、微调和 RAGs。

如果你已经有一些 NLP 的知识，你可以直接跳过基础模块，跟随更高级的教程。

6. iNeuron 的基础生成性 AI

基础生成性 AI是一个免费的两周课程，涵盖生成性 AI、Langchain、向量数据库、开源语言模型和 LLM 部署的基础知识。

每个模块大约需要两小时完成，建议每个模块在一天内完成。

在课程结束时，你将学会使用语言模型实现一个端到端的医疗聊天机器人。

7. Krish Naik 的自然语言处理

这个 YouTube 上的 NLP 播放列表涵盖了诸如分词、文本预处理、RNN 和 LSTM 等概念。

这些主题是理解现代大型语言模型如何工作的先决条件。

完成这门课程后，你将了解构成 NLP 基础的不同文本处理技术。

你还将理解顺序 NLP 模型的工作原理和实施过程中遇到的挑战，这最终导致了更高级的 LLM 的发展，如 GPT 系列。

额外的 LLM 学习资源

一些额外的学习 LLM 资源包括：

1. 带代码的论文

带代码的论文是一个将机器学习研究论文与代码结合的平台，使你更容易跟上该领域的最新发展以及实际应用。

2. 注意力机制即一切

为了更好地理解变换器架构（如 BERT 和 GPT 等最先进语言模型的基础），我推荐阅读研究论文《注意力机制即一切》。

这将帮助你更好地理解 LLM 的工作原理以及为什么基于变换器的模型比之前的最先进模型表现更好。

3. LLM-PowerHouse

这是一个 GitHub 仓库，它整理了 LLM 教程、最佳实践和代码。

这是一个关于语言模型的全面指南 —— 包括 LLM 架构的详细解释、模型微调和部署的教程，以及可以直接用于你自己 LLM 应用程序的代码片段。

10 个学习 LLM 的免费资源 — 关键要点

目前有大量的资源可以用来学习 LLM，我已将最有用的资源整理到本文中。

本文中引用的大多数学习材料需要一些编程和机器学习的知识。如果你没有这些领域的背景，我建议查看以下资源：

&nbsp

Natassha Selvaraj 是一位自学成才的数据科学家，对写作充满热情。Natassha 撰写有关数据科学的所有内容，是数据主题的真正大师。你可以在 LinkedIn 上与她联系或查看她的 YouTube 频道。

10 个免费的顶级机器学习课程

原文：www.kdnuggets.com/2019/12/10-free-top-notch-courses-machine-learning.html

假期将至，如果你在家人、朋友和同事之间的活动中找不到消遣时间，何不利用这些优质的免费在线课程呢？

这是一个包含免费优质在线机器学习课程的集合，来自一些受尊敬的大学以及其他在线平台。无论你是寻找入门课程还是更高级的主题，理论课程还是实践课程，或者是一般性主题还是特定主题，这里的课程都应该能够满足你年末学习的需求。查看下面的课程，今天就开始学习新的知识吧。

别忘了查看底部的相关帖子，获取更多免费的机器学习课程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: 机器学习简介（布法罗大学）

1. Python 中的机器学习

Springboard

机器学习是过去十年中最热门的新技术之一，正在改变从消费电子到医疗保健，再到零售等领域。这导致许多学生和在职专业人士对这一行业产生了强烈的好奇。

如果你是一名技术专业人士，比如软件开发者、业务分析师，甚至是产品经理，你可能会对机器学习如何改变你的工作方式和推动你的职业发展感到好奇。然而，作为一名忙碌的专业人士，你可能也在寻找一种既严格又实用，同时又简洁快速的机器学习理解方式。本教程将帮助你实现这些目标。

2. 机器学习简介

布法罗大学

机器学习是一个关于设计可以从示例中学习的机器的激动人心的话题。课程涵盖了机器学习所需的理论、原则和算法。这些方法基于统计学和概率学——这些已经成为设计展现人工智能的系统的核心。

参考教材包括 Chris Bishop 的《模式识别与机器学习》（Springer 2006）、Daphne Koller 和 Nir Friedman 的《概率图模型》（MIT Press 2009）以及 Goodfellow、Bengio 和 Courville 的《深度学习》（MIT Press 2016）。

3. 实用 AI: 机器学习的实用方法

practicalAI

4. 一个 Python 的机器学习课程

机器学习思维模式

机器学习作为人工智能的工具，是最广泛采用的科学领域之一。大量文献已经发布关于机器学习的内容。该项目的目的是通过使用 Python 提供机器学习的最重要方面，呈现一系列简单而全面的教程。在这个项目中，我们使用了许多不同的知名机器学习框架，如 Scikit-learn，来构建我们的教程。

5. 智能系统的机器学习

康奈尔大学

机器学习领域关注的问题是如何构建能够随着经验自动改进的计算机程序。近年来，许多成功的机器学习应用已经开发出来，从学习检测欺诈信用卡交易的数据挖掘程序，到学习用户阅读偏好的信息过滤系统，再到学习驾驶的自主车辆。此外，该领域的理论和算法也取得了重要进展。本课程将提供对机器学习领域的广泛介绍。先决条件：CSE 241 及足够的数学基础（矩阵代数、概率论/统计学、多变量微积分）。讲师将举行一场家庭考试（关于基本数学知识），考试截止日期为 1 月 30 日。

6. 深度学习

布法罗大学

深度学习算法学习数据的多层次表示，每一层以层级方式解释数据。这些算法在揭示数据中潜在结构方面非常有效，例如区分类别的特征。它们在许多人工智能问题中取得了成功，包括图像分类、语音识别和自然语言处理。该课程将通过讲座和项目进行教学，内容将涵盖基本理论、应用范围及从非常大的数据集中学习。课程将涉及与深度学习相关的连接主义架构，例如基础神经网络、卷积神经网络和递归神经网络。主要重点将是训练和优化这些架构的方法，以及如何有效地进行推理。学生将被鼓励使用开源软件库，如 Tensorflow。

7. 计算机视觉中的深度学习

赖尔森大学

计算机视觉被广泛定义为从一张或多张图像中恢复世界的有用属性。近年来，深度学习作为解决计算机视觉任务的强大工具逐渐显现。本课程将涵盖深度学习和计算机视觉交叉领域的一系列基础主题。

8. 机器学习中的可解释性与解释性

哈佛大学

随着机器学习模型越来越多地被用于帮助决策者在高风险环境中，如医疗保健和刑事司法，确保决策者（最终用户）正确理解并信任这些模型的功能变得尤为重要。该研究生课程旨在使学生熟悉解释性和可解释性机器学习的新进展。在本课程中，我们将回顾该领域的重要论文，理解模型解释性和可解释性的概念，详细讨论不同类型的可解释模型（例如，基于原型的方法、稀疏线性模型、基于规则的技术、广义加性模型）、后置解释（黑箱解释，包括反事实解释和显著性图），并探索解释性与因果关系、调试和公平性的关系。课程还将强调各种可以从模型解释性中获得巨大收益的应用，包括刑事司法和医疗保健。

编辑注：课程在撰写时正在进行中，并非所有资源都已在线提供。

9. 自然语言处理中的主题

内盖夫本-古里安大学

这门课程是自然语言处理的入门课程。课程的主要目标是学习如何开发能够在自然语言上执行智能任务的实用计算机系统：分析、理解和生成书面文本。这个任务需要从多个领域学习材料：语言学、机器学习和统计分析，以及核心的自然语言技术。

10. 概率图模型课程

布法罗大学

概率图模型是概率分布的图形表示。这些模型在表示许多科学和工程应用中遇到的复杂概率分布方面非常灵活。它们现在已成为设计展现高级人工智能的系统（如深度学习的生成模型）的关键。

课程涵盖了与概率图模型相关的理论、原理和算法。讨论了有向图模型（贝叶斯网络）和无向图模型（马尔可夫网络），包括表示、推理和学习。

掌握计算机科学的 10 个 GitHub 资源库

原文：www.kdnuggets.com/10-github-repositories-to-master-computer-science

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 DALLE-3 生成

从零开始学习计算机科学可能相当困难，你可能会在开始之前感到气馁。然而，GitHub 上的开源社区创建了大量资源，可以指导你完成这段旅程。在这篇博客文章中，我们将探讨 10 个重要的 GitHub 资源库，帮助你学习必要的概念和工具，以掌握计算机科学并在顶级科技公司获得职位。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织 IT

1. 开发者路线图

链接： kamranahmedse/developer-roadmap

该资源库包含社区驱动的路线图，已在开发者中越来越受欢迎，提供了交互式和全面的学习各种技术和编程语言的指南。

这些路线图涵盖了广泛的主题，包括前端、后端、DevOps、全栈、计算机科学、数据结构、人工智能、数据科学、MLOps、质量保证、Python、软件架构、游戏开发、软件设计、JavaScript、TypeScript、C++等。

2. 计算机科学学位课程

链接： ossu/computer-science

开源社会大学（OSSU）提供了一个免费的、全面的、社区驱动的计算机科学课程，提供了对计算机科学基本概念的完整教育。该课程根据领先大学本科计算机科学专业的学位要求设计，由麻省理工学院、哈佛大学和普林斯顿大学等著名学府的教授授课。

课程涵盖了编程语言、算法、数据结构、操作系统、计算机架构和软件工程等基本主题，并提供了高级选修课程以供专业化。

3. freeCodeCamp

链接： freeCodeCamp/freeCodeCamp

freeCodeCamp 是一个提供各种计算机技术免费课程和教程的平台。它还为想要学习编码技能的个人提供了友好和支持的社区。freeCodeCamp 由一家慈善组织运营，旨在帮助数百万成年人转型进入技术职业。

该资源提供了一个全面且自定进度的全栈网页开发和机器学习课程，包含数千个互动编码挑战，以提高编码能力。

4. 系统设计基础

链接： donnemartin/system-design-primer

该资源库作为学习系统设计原则和准备系统设计面试的全面资源。它由 Donne Martin 维护，他是一名曾在 Amazon 和 Google 等公司工作的软件工程师。

它涵盖了设计大型系统相关的广泛主题，包括：系统设计基础、分布式系统的关键特征、系统设计问题、Anki 闪卡，以及系统设计面试问题及其解决方案。

5. 免费编程书籍

链接： EbookFoundation/free-programming-books

这是一个由社区驱动的项目，旨在提供一份精选的高质量编程书籍列表，这些书籍可以免费访问和下载，涵盖了广泛的编程语言、框架和相关主题。

该资源库提供英语和其他语言（如阿拉伯语、韩语、意大利语、泰米尔语等）的免费书籍。还提供额外资源，如各种编程语言的多语言课程、互动编程资源、播客和编程练习场。

6. 令人惊叹的计算机科学机会

链接： anu0012/awesome-computer-science-opportunities

这是一个为学生和专业人士提供的令人惊叹的计算机科学机会和资源列表。

它涵盖了广泛的主题，包括竞争编程平台、网页开发教程、移动开发课程、DevOps 训练营、数据科学竞赛、人工智能资源、计算机科学基础、开源项目、网络安全博客、在线课程（MOOCs）、奖学金和助学金、编程事件和黑客马拉松、学生包等一般机会，以及由社区驱动的演示项目。

该列表旨在提供一个全面的有价值资源集合，以帮助个人学习、练习并在计算机科学的各个领域中脱颖而出。

7. 编码面试大学

链接： jwasham/coding-interview-university

这个库包含了一个成为大型公司软件工程师的学习计划，由 jwasham 编写。它是为那些没有正规计算机科学教育或学位的个人准备的，就像作者一样。

学习计划内容全面，旨在覆盖大学计算机科学课程中通常教授的大部分重要主题，重点关注数据结构、算法和编码面试准备。

它提供了一种结构化的方法，包括目录、每日计划、编码实践和学习主题列表。

8. 自建 X

链接： codecrafters-io/build-your-own-x

这是一个包含详细步骤指南的库，用于从头开始重建各种技术。它旨在通过从基础构建技术来提供学习和理解不同技术的好方法。

这个库被分为不同的类别，每个类别关注特定类型的技术，如 3D 渲染器、增强现实、命令行工具、数据库、Docker、游戏、Git 等。每个类别包含指向教程、文章和资源的链接，这些资源指导用户从头开始构建各种技术。

9. 公共 API

链接： public-apis/public-apis

公共 API 是一个策划的免费 API 列表，开发者可以轻松地探索并将其集成到自己的项目中。这些 API 涵盖了从动物和娱乐到金融和健康等各种类别，提供了数据和服务，这些数据和服务否则会耗费时间并且成本高昂。

使用公共 API 的一个关键优势是能够快速增强产品功能并快速构建 MVP。例如，如果你正在构建一个与汽车相关的应用程序，你可以无缝集成提供不同类型汽车信息的公共 API。这不仅节省了开发时间，还确保用户可以访问准确和最新的数据。

10. 精选列表

链接： sindresorhus/awesome

这是一个在 GitHub 上策划的精彩列表，涵盖了各种有趣的主题。这些列表包含了按平台、编程语言、开发工具等类别组织的资源。

精选列表是一个巨大的社区项目，社区成员创建拉取请求并更新现有列表。它是你学习计算机科学各种工具和概念时唯一需要的资源。精选列表对于希望构建耐用且安全应用程序的专业人士也非常有用。

最终想法

无论你是新手还是领域专家，这些资源都旨在满足不同的技能水平和兴趣。它们不仅在基本计算机科学概念上建立了坚实的基础，还提供了专业化和探索前沿技术的路线图。

这些 GitHub 仓库的真正力量在于其协作性质。它们由全球热情的开发者和教育者维护和贡献，确保内容保持最新、相关且不断发展。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热爱构建机器学习模型。目前，他专注于内容创作，并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理疾病困扰的学生构建 AI 产品。

了解更多相关信息

10 个 GitHub 仓库来掌握数据科学

原文：www.kdnuggets.com/10-github-repositories-to-master-data-science

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像由 ChatGPT 生成

通过课程或 YouTube 视频学习数据科学可能会变得单调，因为这通常涉及被动地接受信息。你没有动手操作、进行实验或实际构建任何东西。你只是从屏幕上吸收内容。但是，如果我告诉你有一种更具互动性和有效的方法来掌握数据科学工具和概念，你会不会感兴趣？没错。今天，我们将探索 10 个 GitHub 仓库，它们将通过互动课程、书籍、指南、代码示例、项目、基于顶级大学课程的免费课程、面试问题和最佳实践，帮助你掌握数据科学概念。

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作

1. Virgilio：你的数据科学导师

仓库： virgili0/Virgilio

Virgilio 是一个全面的数据科学电子学习指南和导师。它提供了结构化的内容、教程和资源，帮助你在数据科学的广阔领域中导航，是初学者的绝佳起点。

它提供了一个互动网站，将教授你统计学和 Python 的基础知识。它将帮助你学习数据科学项目中的各个步骤。你将学习机器学习模型、数据处理和可视化技术、自动化等。

2. Python 数据科学手册

仓库： jakevdp/PythonDataScienceHandbook

这个仓库包含了《Python 数据科学手册》的完整文本，以 Jupyter Notebooks 的形式提供。你可以免费阅读这本书，甚至可以在 Google Colab 上运行笔记本，实时体验各种数据科学任务。它涵盖了 Python 中的重要数据科学库，如 NumPy、pandas、Matplotlib、Scikit-Learn 等。它是一个很好的起点。

3. 数据科学入门

仓库： microsoft/Data-Science-For-Beginners

这个微软的仓库提供了一个为期 10 周、包含 20 节课的课程，专为初学者设计。它提供了全面的课程和动手项目，以建立扎实的数据科学概念和技术基础。

每一节课包括一个草图笔记、补充视频、课前热身测验、书面课程、指南、知识检查、挑战、补充阅读、作业和课后测验。

4. 数据科学 IPython 笔记本

仓库： donnemartin/data-science-ipython-notebooks

这个仓库包括一系列 Jupyter 笔记本，涵盖了各种数据科学主题，包括深度学习、机器学习、数据分析和 Python 基础知识。它是一个宝贵的实践学习资源。内容根据工具如 scikit-learn、scipy、pandas、matplotlib、numpy、python-data、spark 等进行分类。

5. 应用机器学习

仓库： eugeneyan/applied-ml

这个仓库专注于应用机器学习，提供公司分享的真实数据科学和机器学习工作的论文和技术博客。它是学习如何在生产环境中实现机器学习的优秀资源。

课程列表根据主题进行分类，如数据质量、数据工程、特征存储、分类、回归、预测、推荐、搜索与排序等。它主要关注机器学习以及如何实施机器学习项目。

6. 免费自学数据科学的路径

仓库： ossu/data-science

这个仓库提供了一个全面的自学数据科学课程。它包括免费的课程、教科书和资源的链接，涵盖了从基础数学到高级机器学习的所有内容。

你应该阅读我的博客，免费报名数据科学本科课程，该博客涵盖了课程的各个方面，并解释了如何报名并开始学习。

7. 开源数据科学硕士

仓库： datasciencemasters/go

这个仓库提供了一个全面的开源课程，旨在为学生准备入门级的数据科学家角色。其目标是提供高质量的、免费的教育资源，与最著名的付费课程的材料相媲美。通过利用开源材料，这个课程确保初学者可以在没有经济障碍的情况下获得最好的学习资源。

8. 极好的数据科学

仓库： academic/awesome-datascience

该仓库是一个精心策划的优秀数据科学资源列表，包括教程、书籍、软件和工具。它是任何希望学习并将数据科学应用于实际问题的人的首选参考。除了资源列表外，它还解释了如何开始数据科学职业生涯。我建议你将其收藏，以便在发现新工具或学习新概念时使用。它由开源社区维护，确保你获取最新的、最前沿的信息。

9. 数据科学面试问题与答案

Repository: alexeygrigorev/data-science-interviews

准备数据科学职位面试吗？该仓库提供了一系列数据科学面试问题及其答案。这是了解可能遇到的问答类型并准备回答的绝佳资源。

该仓库分为两个部分：理论和技术问题。总体而言，它涵盖了关于 SQL、Python、分类、正则化、特征选择、决策树等的问答。

10. Cookiecutter 数据科学

Repository: drivendataorg/cookiecutter-data-science

该仓库提供了一个标准化的数据科学项目结构。它有助于确保你的项目有条理、可重复和可共享，并遵循数据科学工作的最佳实践。

拥有一个结构良好的数据科学项目模板可以显著减轻与协作和可重复性相关的许多挑战。它不仅通过提供一致的框架来简化团队合作，还增强了你修复错误和解决问题的能力。

最终想法

无论你是希望打下坚实基础的初学者，还是寻求扩展知识的经验丰富的从业者，这些 10 个仓库都提供了有价值的内容，以提升你在数据科学领域的技能和专业知识。它们包括教程、互动书籍、课程、项目代码示例、免费资源、研究论文、项目模板、大学课程等。只需将其收藏，以便在学习新工具或概念时使用。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品，帮助那些在精神健康方面挣扎的学生。

掌握机器学习

原文：www.kdnuggets.com/10-github-repositories-to-master-machine-learning

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像由 DALLE-3 生成

掌握机器学习 (ML) 可能会让人感到压倒性，但有了合适的资源，这会变得更加可管理。GitHub，这个平台广泛用于代码托管，拥有许多对学习者和从业者都有价值的仓库。在这篇文章中，我们回顾了 10 个必备的 GitHub 仓库，它们提供了从初学者友好的教程到高级机器学习工具的各种资源。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持组织的 IT 部门

1. Microsoft 的 ML-For-Beginners

Repository: microsoft/ML-For-Beginners

这个为期 12 周的全面课程提供了 26 节课和 52 次测验，是新手的理想起点。它为没有机器学习经验的初学者提供了一个起点，旨在使用 Scikit-learn 和 Python 建立核心能力。

每节课都包括补充材料，包括前测和后测、书面说明、解决方案、作业和其他资源，以补充实践活动。

2. ML-YouTube-Courses

Repository: dair-ai/ML-YouTube-Courses

这个 GitHub 仓库作为优质机器学习课程的策划索引，汇集了来自 Clatech、斯坦福大学和 MIT 等提供者的 ML 教程、讲座和教育系列的链接，集中在一个位置，方便感兴趣的学习者找到符合他们需求的视频 ML 内容。

如果你想免费并按自己的时间学习，这是你唯一需要的仓库。

3. 机器学习的数学

Repository: mml-book/mml-book.github.io

数学是机器学习的核心，而这个仓库作为书籍《机器学习中的数学》的配套网页。该书激励读者学习机器学习所需的数学概念。作者的目标是提供理解先进机器学习技术所需的数学技能，而不是涵盖这些技术本身。

它涵盖了线性代数、解析几何、矩阵分解、向量分析、概率、分布、连续优化、线性回归、PCA、高斯混合模型和 SVM。

4. MIT 深度学习书籍

仓库： janishar/mit-deep-learning-book-pdf

深度学习教材是一个全面的资源，旨在帮助学生和从业者进入机器学习领域，特别是深度学习。该书于 2016 年出版，提供了在驱动人工智能最近进展的机器学习技术方面的理论和实践基础。

MIT 深度学习书籍的在线版本现在已经完成，并将继续免费在线提供，为人工智能教育的普及做出宝贵贡献。

这本书深入涵盖了广泛的主题，包括深度前馈网络、正则化、优化算法、卷积网络、序列建模和实际方法论。

5. 机器学习 ZoomCamp

仓库： DataTalksClub/machine-learning-zoomcamp

机器学习 ZoomCamp 是一个免费的四个月在线训练营，提供机器学习工程的全面介绍。对于那些认真想要提升自己职业生涯的人来说，这个项目指导学生完成实际的机器学习项目，涵盖了回归、分类、评估指标、模型部署、决策树、神经网络、Kubernetes 和 TensorFlow Serving 等基本概念。

在课程期间，参与者将获得实际经验，涉及深度学习、无服务器模型部署和集成技术。课程以两个顶点项目作为结束，让学生展示他们新获得的技能。

6. 机器学习教程

仓库： ujjwalkarn/Machine-Learning-Tutorials

这个仓库是关于机器学习和深度学习的教程、文章和其他资源的集合。它涵盖了广泛的主题，如 Quora、博客、访谈、Kaggle 比赛、备忘单、深度学习框架、自然语言处理、计算机视觉、各种机器学习算法和集成技术。

该资源旨在提供理论和实践知识，包含代码示例和使用案例描述。它是一个综合性的学习工具，提供了多方面的方法来接触机器学习领域。

7. 极好的机器学习资源

仓库： josephmisiti/awesome-machine-learning

极好的机器学习资源是一个精心策划的机器学习框架、库和软件的列表，适合那些希望探索该领域各种工具和技术的人。它涵盖了从 C++到 Go 等多种编程语言的工具，并进一步划分为包括计算机视觉、强化学习、神经网络和通用机器学习在内的不同机器学习类别。

极好的机器学习资源是一个全面的资源，面向机器学习从业者和爱好者，涵盖了从数据处理和建模到模型部署和生产化的所有内容。该平台便于比较不同选项，帮助用户找到最适合其特定项目和目标的方案。此外，得益于社区的贡献，仓库始终保持最新，涵盖了各种编程语言中的最新机器学习软件。

8. 斯坦福 CS 229 机器学习 VIP 备忘单

仓库： afshinea/stanford-cs-229-machine-learning

这个仓库提供了斯坦福 CS 229 课程中涵盖的机器学习概念的简明参考和复习资料。它旨在将所有重要概念整合成 VIP 备忘单，涵盖监督学习、无监督学习和深度学习等主要主题。该仓库还包含 VIP 复习资料，突出概率、统计学、代数和微积分的先决条件。此外，还有一个超级 VIP 备忘单，将所有这些概念汇总成一个终极参考，以供学习者随时查阅。

通过将这些关键点、定义和技术概念结合在一起，目标是帮助学习者全面掌握 CS 229 中的机器学习主题。这些备忘单能将讲座和教科书材料中的重要概念总结成简明的参考，以备技术面试之用。

9. 机器学习面试

仓库： khangich/machine-learning-interview

它提供了一个全面的学习指南和资源，以帮助准备在 Facebook、Amazon、Apple、Google、Microsoft 等大型科技公司进行的机器学习工程和数据科学面试。

涵盖的关键主题：

LeetCode 问题按类型分类（SQL、编程、统计学）。
机器学习基础，如逻辑回归、KMeans、神经网络。
深度学习概念，从激活函数到递归神经网络（RNNs）。
机器学习系统设计，包括技术债务和机器学习规则的论文
经典机器学习论文阅读。
机器学习生产挑战，如 Uber 的扩展和生产中的深度学习
常见的机器学习系统设计面试问题，例如视频/推荐、欺诈检测。
YouTube、Instagram 推荐的示例解决方案和架构。

本指南整合了顶级专家如 Andrew Ng 的资料，并包括了在顶尖公司面试中真实的面试问题。它旨在提供一份学习计划，以便在各大科技公司中赢得机器学习面试。

10. 了不起的生产机器学习

仓库： EthicalML/awesome-production-machine-learning

本仓库提供了一个经过整理的开源库列表，以帮助在生产环境中部署、监控、版本控制、扩展和保护机器学习模型。它涵盖了生产机器学习的各个方面，包括：

解释预测与模型
隐私保护机器学习
模型与数据版本控制
模型训练编排
模型服务与监控
自动化机器学习
数据管道
数据标注
元数据管理
计算分发
模型序列化
优化计算
数据流处理
异常值与异常检测
特征存储
对抗性鲁棒性
数据存储优化
数据科学笔记本
神经搜索
以及更多。

结论

无论你是初学者还是经验丰富的机器学习从业者，这些 GitHub 仓库提供了大量的知识和资源，以加深你对机器学习的理解和技能。从基础数学到高级技术和实际应用，这些仓库是任何认真对待掌握机器学习的人的必备工具。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，喜欢构建机器学习模型。目前，他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品，帮助那些面临心理健康问题的学生。

十个 GitHub 仓库，助你掌握 MLOps

原文：www.kdnuggets.com/10-github-repositories-to-master-mlops

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

对于那些希望有效地部署、监控和维护其生产环境中的 ML 模型的人来说，掌握 MLOps（机器学习运维）变得越来越重要。MLOps 是一套旨在融合 ML 系统开发（Dev）和 ML 系统运维（Ops）的实践。幸运的是，开源社区创建了大量资源来帮助初学者掌握这些概念和工具。

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速入门网络安全职业

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织进行 IT 服务

以下是十个对掌握 MLOps 至关重要的 GitHub 仓库：

1. MLOps-Basics

GitHub 链接： graviraja/MLOps-Basics

这是一个为期 9 周的学习计划，旨在帮助你掌握与模型监控、配置、数据版本控制、模型打包、Docker、GitHub Actions 和 AWS 云相关的各种概念和工具。你将学习如何构建一个端到端的 MLOps 项目，每周将专注于一个特定主题，以帮助你实现这个目标。

2. MLOps 示例由 Microsoft 提供

GitHub 链接： microsoft/MLOps

这个仓库提供了 MLOps 的端到端示例和解决方案。它展示了使用 Azure 机器学习实施 ML 工作流的不同端到端场景，并且集成了 GitHub 和其他 Azure 服务，如数据工厂和 DevOps。

3. Made-With-ML

GitHub 链接： GokuMohandas/Made-With-ML

如果你在寻找 MLOps 的端到端示例和解决方案，这个仓库可以满足你的需求。它包含了多种场景，展示了如何使用 Azure 机器学习来实现 ML 工作流的运维。此外，它还集成了其他 Azure 服务，如数据工厂和 DevOps，以及 GitHub。

4. Awesome MLOPs

GitHub 链接： Pythondeveloper6/Awesome-MLOPS

该仓库包含各种在线免费资源的链接，这些资源包括 YouTube 视频、职业路线图、需要关注的 LinkedIn 账户、书籍、博客、免费和付费课程、社区、项目和工具。你几乎可以在一个地方找到与 MLOps 相关的所有内容，因此你无需在网上搜索各种信息，只需访问该仓库即可学习。

5. MLOps 指南

GitHub 链接： mlops-guide/mlops-guide.github.io

该仓库将带你到一个托管在 GitHub 上的静态网站，帮助项目和公司构建更可靠的 MLOps 环境。它涵盖了 MLOps 的原则、实施指南和项目工作流程。

6. 极好的 MLOps 工具

GitHub 链接： kelvins/awesome-mlops

该仓库包含了一系列 MLOps 工具，可用于 AutoML、机器学习的 CI/CD、Cron 任务监控、数据目录、数据丰富、数据探索、数据管理、数据处理、数据验证、数据可视化、漂移检测、特征工程、特征存储、超参数调整、知识共享、机器学习平台、模型公平性与隐私、模型解释性、模型生命周期、模型服务、模型测试与验证、优化工具、简化工具以及可视分析和调试。

7. DTU 的 MLOps

GitHub 链接： SkafteNicki/dtu_mlops

这是 DTU 课程 02476 的一个仓库，其中包括机器学习操作课程的练习和附加材料。课程持续三周，涵盖开发实践、可重复性、自动化、云服务、部署以及监控和扩展等高级主题。

8. Goku Mohandas 的 MLOps 课程

GitHub 链接： GokuMohandas/mlops-course

该课程专注于教授学生如何设计、开发、部署和迭代生产级 ML 应用，使用最佳实践，扩展 ML 工作负载，集成 MLOps 组件，并创建 CI/CD 工作流以实现持续改进和无缝部署。

9. MLOps ZoomCamp

GitHub 链接： DataTalksClub/mlops-zoomcamp

这是我最喜欢的通过构建项目来学习新概念的课程之一。DataTalks.Club 的 MLOps 课程教授了将机器学习服务投入生产的实际方面，从训练和实验到模型部署和监控。课程旨在帮助数据科学家、ML 工程师、软件工程师和数据工程师学习如何实现机器学习工作流程。

10. 无服务器 ML 课程

GitHub 链接： featurestoreorg/serverless-ml-course

这门课程专注于开发具有无服务器能力的完整机器学习系统。它允许开发者创建预测服务，而不需要在 Kubernetes 或云计算方面的专业知识。他们可以通过编写 Python 程序和使用无服务器功能、推理管道、特征存储和模型注册表来实现。

结论

掌握 MLOps 对确保机器学习项目在生产中的可靠性、可扩展性和效率至关重要。上述存储库提供了丰富的知识、实用的示例和关键工具，帮助你有效理解和应用 MLOps 原则。无论你是希望入门的新手，还是寻求深化知识的经验丰富的从业者，这些资源都能为你提供宝贵的见解和指导，助你在掌握 MLOps 的旅程中取得成功。

请查看名为 Travis 的 AI 学习平台，它可以帮助你更快地掌握 MLOps 及其概念。Travis 生成关于主题的解释，你可以提出后续问题。此外，它提供了指向 Medium、Substacks、独立博客、官方文档和书籍的顶级出版物上发布的博客和教程的链接，方便你进行自己的研究。

Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士，他热衷于构建机器学习模型。目前，他专注于内容创作，并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理健康问题的学生开发 AI 产品。

精通 Python 的 10 个 GitHub 库

原文：www.kdnuggets.com/10-github-repositories-to-master-python

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

我们都知道免费的 Python 课程是学习这门语言的最佳方式，但你是否曾经查看过 GitHub 平台上的学习资源和项目？从课程中学习很棒，但通过实际项目和开源库进行实践可以将你的 Python 技能提升到一个新的水平。

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求

在这篇博客中，我们将介绍 10 个重要的 GitHub 库，帮助你精通 Python，并为你的职业生涯提供必备经验。这些库提供了丰富的知识，从适合初学者的教程到高级编码挑战，涵盖了广泛的主题，如网页开发、数据分析、机器学习等。

1. Asabeneh/30-Days-Of-Python

Asabeneh/30-Days-Of-Python 通过为期一个月的挑战来开启你的 Python 学习之旅。该库为初学者设计，介绍了 Python 基础知识，并逐步深入到更复杂的主题，如统计学、数据分析、网页开发和数据库管理。每天花费几个小时，你将获得扎实的 Python 基础，为你转入任何技术岗位铺平道路。

2. trekhleb/learn-python

trekhleb/learn-python 是一个全面的资源，强调通过破解学习 Python。它涵盖了广泛的 Python 函数和最佳实践，适合不同水平的学习者。你可以修改或添加代码来查看其工作原理，并使用断言进行测试。这种互动式学习方法允许你添加和删除代码，以测试其是否正常工作，帮助你提升学习体验。

3. Avik-Jain/100-Days-Of-ML-Code

对于那些希望深入了解 Python 机器学习的用户，Avik-Jain/100-Days-Of-ML-Code 提供了一种结构化的方法来掌握机器学习的基础。在 100 天内，它介绍了机器学习中的关键概念和算法，并利用 Python 进行实际实现。这个仓库非常适合希望转型为机器学习工程师的程序员。

4. realpython/python-guide

realpython/python-guide 是一本免费提供在 GitHub 上的《Python 路书》。该指南包含了最佳实践和 Python 在各种场景中的应用。它提供了从设置和安装到高级主题如网页开发和机器学习的指导。《Python 路书》是开发者提升 Python 技能的宝贵资源。

5. zhiwehu/Python-programming-exercises

zhiwehu/Python-programming-exercises 挑战你的是一个包含 100 多个 Python 练习的集合，从简单到困难不等。它旨在测试和提高你的 Python 问题解决能力。这个仓库非常适合那些希望练习编码并为编码面试做准备的学习者。

6. geekcomputers/Python

geekcomputers/Python 是一个包含各种 Python 脚本的代码库，展示了使用 Python 编程可以构建的不同内容。从简单的脚本到复杂的项目，它提供了一个实际的视角，说明了 Python 如何用于自动化任务，并作为初学者入门 Python 的教育示例。

7. practical-tutorials/project-based-learning

practical-tutorials/project-based-learning 仓库是一个宝贵的资源，提供了各种编程语言的基于项目的教程链接，特别关注 Python。

通过基于项目的方法学习是一种有效的方式，可以将 Python 概念应用到现实世界的场景中。此外，它还可以帮助你建立开发者作品集，并获得经验，从而确保你的第一份工作。

8. avinashkranjan/Amazing-Python-Scripts

avinashkranjan/Amazing-Python-Scripts 仓库是一个汇集了各种 Python 脚本的集合，这些脚本可以帮助自动化任务、执行网页抓取等。这个资源对那些想要独立完成小项目的学生特别有用，因为有很多选择。此外，这些脚本也可以帮助构建更复杂的项目。

9. TheAlgorithms/Python

如果你对算法感兴趣，TheAlgorithms/Python是一个很好的仓库。它提供了各种算法和数据结构的 Python 实现，提供了全面的算法学习体验。这个仓库非常适合那些希望探索计算机科学基础和竞争编程的人。然而，请注意，这些实现仅用于学习目的，可能不如 Python 标准库中的实现高效。

10. vinta/awesome-python

最后，vinta/awesome-python仓库是一个收集了卓越 Python 框架、库、软件和资源的集合。它是探索 Python 工具和库的绝佳来源，能够帮助你完成项目和学习之旅。无论你寻找的是 Web 框架、数据分析工具，还是与 Python 相关的任何东西，你都可能在这里找到。

结论

这 10 个 GitHub 仓库向你介绍了 Python 编程的世界，涵盖了从基础到高级的主题，包括互动学习、基于项目的学习和基于练习的学习。通过探索这些仓库，你可以建立 Python 的坚实基础，发展解决问题的技能，并参与实际项目以积累经验。记住，学习 Python 的旅程是持续不断且不断发展的，这些仓库只是开始！

Abid Ali Awan (@1abidaliawan)是一位认证的数据科学专业人士，喜欢构建机器学习模型。目前，他专注于内容创作并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络为那些与心理疾病斗争的学生构建 AI 产品。

十大 GitHub 库掌握 SQL

原文：www.kdnuggets.com/10-github-repositories-to-master-sql

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供 | ChatGPT & Canva

掌握 SQL 是任何追求 IT 职业的人的基本技能，无论你是希望成为开发者、数据科学家、IT 经理还是机器学习工程师。在当今数据驱动的世界中，能够有效使用 SQL 访问和管理数据库是一个基本要求。

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在组织的 IT

在这篇博客文章中，我们将深入探讨十大 GitHub 库，这些库可以帮助你入门 SQL 和数据库管理，并将你的技能提升到更高水平。这个列表适合寻求提升数据处理技能的初学者和专业人士。

1. SQL 101 由 s-shemmee 提供

SQL 101库提供了逐步教程、实际示例和练习。这个指南是你掌握基础知识并释放 SQL 数据力量的入口。

你将学习关于查询数据、修改数据、数据类型和约束、连接和关系、聚合和分组、子查询和视图、索引和性能优化、事务和并发控制以及高级主题。

2. 由 WebDevSimplified 提供的 Learn SQL

学习 SQL库提供了一系列针对初学者的练习题和解决方案。12 个练习将帮助巩固学习并增强有效处理 SQL 查询的信心。

3. SQL 大师课程由 datawithdanny 提供

SQL 大师课程是一个全面的在线课程，旨在将学习者从 SQL 技能的初学者提升到高级水平。这个库提供了结构化的学习路径，包括实践练习、真实世界的例子和测验，帮助学生掌握 SQL 查询和数据分析的艺术。

4. SQL Map 由 sqlmapproject 提供

sqlmap 是一个自动化 SQL 注入和数据库接管工具，提供了关于数据库系统漏洞的见解。通过学习这个工具，你可以简化测试数据库服务器的过程，获得关于数据库系统漏洞的宝贵见解，并保护你的服务器免受未知的恶意攻击。

5. SQL Server Samples by Microsoft

SQL Server Samples 仓库包含了 SQL Server、Azure SQL 数据库和其他微软数据库技术的代码示例，提供了丰富的学习资源和实际例子。

6. SQL Music Store Analysis Project by rishabhnmishra

SQL Music Store Analysis 是一个初学者项目，教你如何分析音乐播放列表的 PostgresQL 数据库。它包括一个关于使用该项目和执行各种数据分析的 YouTube 教程。

7. Data Engineering Zoomcamp by DataTalksClub

Data Engineering Zoomcamp 提供了一个动手学习数据工程的体验，通过视频教程、测验、项目和同行评估来装备学生实际技能。

该仓库涵盖了诸如容器化和基础设施即代码、工作流编排、数据摄取、数据仓库、分析工程、批处理和流处理等重要主题。

8. SQL Server Kit by ktaranov

SQL Server Kit 仓库包含了许多有用的链接、博客、视频、播客、课程、脚本、工具和微软 SQL Server 数据库的最佳实践。它是一个开发人员和工程师寻找优化 SQL Server 和学习新 SQL 概念的宝贵资源。

9. Awesome DB Tools by mgramin

Awesome DB Tools 是一个集合了实用和前沿工具的资源库，简化了 DBAs、DevOps、开发人员和日常用户与数据库的互动。

该列表包括 IDE、GUI、CLI、模式、API、应用平台、备份、克隆、监控、测试、HA/故障转移/分片、Kubernetes、配置调整、DevOps、报告、分发、安全、SQL 和数据管理工具。

10. SQL for Wary Data Scientists by gvwilson

SQL for Wary Data Scientists 这本书提供了一个针对数据科学家的互动式 SQL 入门教程。它涵盖了诸如管理命令、聚合、聚合函数、交叉连接、异或、过滤、完全外连接、分组、内存数据库、包含或、连接、连接条件、左外连接、空值、查询、右外连接、三值逻辑和墓碑等主题。

结论

这 10 个 GitHub 仓库提供了从初学者教程到高级练习和全面课程的广泛材料。学习 SQL 变得简单而免费。你只需要努力工作并保持坚持，便能迅速成为数据专业人士。博客中提到的资源将帮助你了解新工具、构建数据库、访问数据、管理数据库系统以及进行数据分析。内容不仅限于文本，你还可以通过互动网站、书籍、视频教程和练习进行学习。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作，并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一款 AI 产品，帮助那些遭受心理健康问题的学生。

10 个 GitHub 仓库来掌握统计学

原文：www.kdnuggets.com/10-github-repositories-to-master-statistics

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 ChatGPT 生成

学习统计学是成为数据科学家、数据分析师或甚至 AI 工程师的核心部分。现代技术中使用的大多数机器学习模型都是统计模型。因此，对统计学有深入的理解将使你更容易学习和构建先进的 AI 技术。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT

在这篇博客中，我们将探索 10 个 GitHub 仓库，帮助你掌握统计学。这些仓库包括代码示例、书籍、Python 库、指南、文档和视觉学习材料。

1. 《数据科学家实用统计学》

仓库： gedeck/practical-statistics-for-data-scientists

这个仓库提供了来自《数据科学家实用统计学》一书的实际示例和代码片段，涵盖了基本的统计技术和概念。对于希望将统计方法应用于实际场景的数据科学家来说，这是一个很好的起点。

书中的代码仓库包含了适当的 R 和 Python 代码示例。如果你习惯了 Jupyter Notebook 风格的编码，它还提供了类似的 Python 和 R 的 Jupyter Notebook 示例。

2. 《黑客的概率编程和贝叶斯方法》

仓库： CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

这个仓库提供了使用 Python 的贝叶斯方法的互动式实践介绍。内容以 Jupyter 笔记本形式呈现，通过 nbviewer 展示，使得跟随关于贝叶斯模型和概率编程的理论及 Python 代码变得更加容易。

这本互动书籍包括对贝叶斯方法的介绍，Python 的 PyMC 库入门，马尔科夫链蒙特卡罗，大数法则，损失函数等内容。

3. Statsmodels：Python 中的统计建模和计量经济学

仓库： statsmodels/statsmodels

Statsmodels 是一个强大的 Python 统计建模和计量经济学库。该仓库包括了执行各种统计测试、线性模型、时间序列分析等的全面文档和示例。我们可以使用这些文档中的示例来学习如何执行各种统计分析，包括时间序列分析、生存分析、多元分析、线性回归等。

4. 《TensorFlow 概率》

仓库： tensorflow/probability

TensorFlow Probability 是一个用于 TensorFlow 中的概率推理和统计分析的库。它扩展了 TensorFlow 核心库，提供了构建和训练概率模型的工具，是那些希望将深度学习与统计建模结合的人的极佳资源。

文档包含了线性混合效应模型、分层线性模型、概率主成分分析、贝叶斯神经网络等示例。

5. 《概率与统计烹饪书》

仓库： mavam/stat-cookbook

该仓库是一个解决常见统计问题的食谱集合，为各种统计任务提供快速解决方案和示例，作为一个有用的参考。它提供了有关概率和统计的简明指导，包括连续分布、概率理论、随机变量、期望、方差和不等式等概念。你可以使用 make 命令本地访问食谱或下载 PDF 文件。该仓库还包括各种统计概念的 LaTeX 文件。

6. 《看到理论》

仓库： seeingtheory/Seeing-Theory

《看到理论》是一个概率和统计的视觉介绍。该仓库包括互动可视化和解释，使复杂的统计概念变得更易于理解，尤其适合视觉学习者。

这是一本高度互动的初学者书籍，涵盖了各种主题，如基础概率、复合概率、概率分布、频率推断、贝叶斯推断和回归分析。

7. 《Python 统计数学》

仓库： tirthajyoti/Stats-Maths-with-Python

该仓库包含了涵盖一般统计学、数学编程和使用 Python 的科学计算的脚本和 Jupyter 笔记本。对于那些希望提升统计和数学编程技能的人来说，这是一个宝贵的资源。

它包括贝叶斯规则、布朗运动、假设检验、线性回归等示例。

8. 《概率、统计与机器学习的 Python》

代码库： unpingco/Python-for-Probability-Statistics-and-Machine-Learning

该代码库包含了《Python for Probability, Statistics, and Machine Learning》一书中的代码示例和 Jupyter 笔记本，涵盖了从基本概率和统计到高级机器学习技术的广泛主题。

在“chapters”文件夹内，有三个子文件夹，包含了关于统计学、概率论和机器学习的 Jupyter 笔记本。每个笔记本都包括代码、输出和描述，解释了方法论、代码和结果。

9. 概率与统计 VIP 备忘单

代码库： shervinea/stanford-cme-106-probability-and-statistics

该代码库包含斯坦福大学工程师概率与统计课程的 VIP 备忘单。这些备忘单提供了关键概念和公式的简明总结，是学生和专业人士的实用参考。

这是一个流行的备忘单，涵盖了条件概率、随机变量、参数估计、假设检验等主题。

10. 机器学习基础数学

代码库： hrnbot/Basic-Mathematics-for-Machine-Learning

理解数学基础对掌握机器学习和统计学至关重要。该代码库旨在揭示数学的奥秘，并通过 Python Jupyter 笔记本帮助你学习代数、微积分、统计学、概率论、向量和矩阵的基础知识。

终极思考

在 GitHub 上分享的学习资源由专家和开源社区创建，旨在分享知识，为数据科学和统计领域的初学者铺平更容易的学习道路。你将通过阅读理论、解决代码示例、理解数学概念、构建项目、进行各种分析和探索流行的统计工具来学习统计学。所有这些内容都在上述 GitHub 代码库中涵盖。这些资源是免费的，任何人都可以参与改进它们。所以，继续学习并构建惊人的事物。

Abid Ali Awan (@1abidaliawan) 是一位认证数据科学专家，热衷于构建机器学习模型。目前，他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理健康问题的学生打造一个 AI 产品。

了解更多

10 个适合有志数据科学家的优秀 Python 资源

原文：www.kdnuggets.com/2019/09/10-great-python-resources-aspiring-data-scientists.html

评论外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Python 是数据科学中使用最广泛的语言之一，还是一个极受欢迎的通用编程语言。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织 IT

许多潜在的数据科学家首先面临的问题是，当开始涉足数据科学时，哪种编程语言可能是他们的选择。如果你没有现成的编程技能，这个问题会更加复杂。如果你能对 Python 有一个深入的理解（如果你的数据科学编程工具是其他语言，则替换为该语言），那将更好，但许多新手发现自己在编程一般或 Python 更具体的领域，几乎是从零开始。

这是一个包含 10 个有趣资源的集合，以文章和教程的形式，旨在为新手数据科学家提供洞察和实用指导。请注意，这些资源不是数据科学教程，而是涵盖边缘相关的主题和一般 Python 编程知识。

所以在此不再赘述，按无特定顺序，以下是 10 个旨在帮助你更好地学习 Python 的资源。

1. 有用的 Python 技巧 A-Z

我每天都使用 Python，它是我作为数据科学家工作的重要组成部分。在这个过程中，我掌握了一些有用的技巧和窍门。

在这里，我以 A-Z 格式分享了一些技巧。

这些“技巧”大多是我在日常工作中使用或偶然发现的。一些是我在浏览 Python 标准库文档时发现的，还有一些是在搜索 PyPi 时发现的。

2. 愉快地迁移到 Python 3

Python 成为了机器学习和其他以数据为主的科学领域的主流语言；它拥有各种深度学习框架和成熟的数据处理与可视化工具。

然而，Python 生态系统在 Python 2 和 Python 3 中共存，Python 2 在数据科学家中仍被使用。到 2019 年底，科学堆栈将停止支持 Python2. 至于 numpy，2018 年后，任何新的功能发布将仅支持 Python3. 更新（2018 年 9 月）：pandas、matplotlib、ipython、jupyter notebook 和 jupyter lab 现在也同样适用。

为了使过渡不那么令人沮丧，我收集了一些你可能会觉得有用的 Python 3 特性。

3. 10 分钟掌握函数式 Python

在本文中，你将学习什么是函数式范式以及如何在 Python 中使用函数式编程。你还将了解列表推导式和其他形式的推导式。

4. Python 异步编程：一个全面指南

在 asyncio（有时写作 async IO）之前，Python 使用了基于生成器的协程；Python 3.10 移除了这些协程。asyncio 模块在 Python 3.4 中引入，async/await 则在 3.5 中加入。

这里有几个你应该了解的异步概念：协程和任务。我们先来看一下协程。

5. 有问题的 Python 代码：Python 开发者最常犯的 10 个错误

Python 简单易学的语法可能会误导 Python 开发者——特别是那些对语言较新的开发者——忽视其一些细微之处，并低估了 Python 语言的多样性和强大功能。

鉴于这一点，本文呈现了一个“前 10”列表，列出了即使是一些更高级的 Python 开发者也可能会犯的一些微妙且难以发现的错误。

6. Python 装饰器入门

在本教程中，我们将了解装饰器是什么，以及如何创建和使用它们。装饰器提供了一种简单的语法来调用高阶函数。

根据定义，装饰器是一个函数，它接受另一个函数，并在不显式修改后者函数的情况下扩展其行为。

7. Python 入门 - 数据结构

数据结构基本上就是这些 - 它们是可以将一些数据放在一起的结构。换句话说，它们用于存储相关数据的集合。

Python 有四种内置数据结构——列表、元组、字典 和集合。我们将看看如何使用它们，以及它们如何使我们的生活更轻松。

8. Django 入门教程第一部分：构建一个作品集应用

Django 是一个功能齐全的 Python 网络框架，可以用来构建复杂的网络应用程序。在本教程中，你将通过示例学习 Django。你将按照步骤创建一个功能完整的网络应用程序，同时了解框架的一些重要特性及其如何协同工作。

在本系列的后续文章中，你将看到如何利用 Django 的更多功能构建更复杂的网站，这些内容会超出本教程的范围。

9. 数据科学初学者的 Python 指南

一些编程语言在数据科学的核心中占据重要位置。Python 就是其中之一。它是数据科学的一个重要组成部分，反之亦然。实际上，要详细解释这一点将会非常漫长。

首先，Python 提供了强大的功能来处理数学、统计和科学函数。在数据科学应用中，它提供了广泛的库来处理这些问题。更不用说它是开源的、解释型的、高级工具了！

10. 为什么 Python 对数据分析至关重要

Python 是一种通用编程语言，这意味着它可以用于开发网络和桌面应用程序。它在复杂的数值和科学应用开发中也很有用。由于这种多样性，Python 成为世界上增长最快的编程语言之一也就不足为奇了。

那么 Python 如何与数据分析相结合呢？我们将详细探讨为什么这门多功能编程语言对任何希望从事数据分析工作的人来说都是必不可少的，或者对那些寻找提升技能途径的人来说很重要。了解这些之后，你将更清楚为什么应该选择 Python 进行数据分析。

相关内容：

10 个更多必看免费课程，适用于机器学习和数据科学
10 本机器学习和数据科学必读的免费书籍
另外 10 本机器学习和数据科学必读的免费书籍

10 个在 ChatGPT 时代建立深科技初创公司的障碍

原文：www.kdnuggets.com/2023/04/10-hurdles-building-deep-tech-startup-age-chatgpt.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由编辑提供

深科技初创公司面临着与其他科技公司不同的一系列挑战，这使得创始人和投资者必须做好更加复杂和苛刻的旅程的准备。

我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织在 IT 领域

AI 和 ML 在这些公司中发挥了关键作用，使它们能够分析大量数据、识别模式并开发先进的解决方案，同时市场营销却退居一旁。

大型语言模型（LLMs），如 GPT-4，正在革新自然语言处理、药物发现和个性化医学。LLMs 还可以促进与用户的对话，使医疗提供者能够开发提供心理健康支持、回答患者问题甚至提供治疗干预的聊天机器人。通过利用 AI 的力量，这些前沿技术有可能改变心理健康护理的未来，并改善全球数百万人的生活。

在创建了之前的科技公司 Bright Box 并在 2017 年以 7500 万美元出售后，我发现自己在新的公司 Brainify.ai 中面临不同的环境，该公司旨在通过利用 AI/ML 驱动的 EEG 生物标志物预测，将新药批准的可能性提高 80% 并减少研发成本。

技术复杂性

深科技初创公司通常致力于前沿技术，这些技术在科学上非常复杂，需要对基础原理有深入的理解。这需要领域内具有专业知识的专家参与，这可能难以找到和留住。

长期开发周期

开发和验证新技术可能需要相当长的时间。这可能导致较长的开发周期和市场进入延迟，这对资源有限的初创公司尤其具有财务挑战。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Unsplash

高风险性质

由于科学研究和开发中固有的不确定性，深科技初创企业往往面临更高的失败风险。投资者可能对资助这些企业持更谨慎的态度，这使得深科技初创企业更难获得资金。

监管障碍

深科技初创企业可能会在高度监管的行业中运营，例如医疗保健、生物技术或能源。应对复杂的监管要求和获得必要的批准可能耗时且资源密集。

知识产权（IP）保护

深科技初创企业通常依赖于有价值的知识产权（IP）来维持其竞争优势。通过专利和其他法律机制保护这些知识产权可能具有挑战性、昂贵，并且对初创企业的成功至关重要。

深科技初创企业的市场营销策略

作为一名经验丰富的企业家，在深科技初创企业中，最具挑战性的方面之一就是市场营销方式的差异。在深科技领域，大量时间花费在隐秘阶段，专注于研发，然后才会推广任何产品或服务。与其他行业不同，在其他行业中，市场营销可以在产品开发过程中早早开始，而深科技初创企业必须谨慎行事，确保任何提出的主张都经过科学验证和证明。

这意味着我不得不采取更为保守的营销策略，仅在我们达到特定里程碑或对我们的技术有了特定信心的阈值后才推广我们的产品。维护我们在科学界以及潜在投资者和客户中的声誉至关重要，因为在这一领域，可信度是关键。任何过早或未经证实的主张都可能迅速损害我们的声誉，并阻碍我们在长期内取得成功的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Unsplash

准确沟通

在围绕我们的技术建立兴奋感与确保我们仅传达准确和可验证的信息之间找到微妙的平衡，一直是经营深科技初创企业的特别具有挑战性的方面。

广泛的研究

深科技初创企业的主要区分因素在于广泛的研究活动、高风险和初期开发阶段的不确定性。最初，通常无法知道初创企业的科学基础是否可能。

科学失败的高风险

这与典型的科技初创企业形成对比，后者的重点更多在于产品市场契合度和执行策略。换句话说，对于科技初创企业而言，重点在于业务如何开展，而不是是否可行。而深科技初创企业由于研究活动的固有性质和涉及的不确定性，面临着更高的科学失败风险。

验证后的资金筹集

为我们的初创公司获得资金始于 Mariam Khayaredinova（首席执行官兼联合创始人）和我个人的 25 万美元投资。我们希望首先验证解决方案的需求并评估实现目标的可能性。一旦我们对创意的潜力有信心，我们决定从天使投资者那里筹集更多资本。凭借我之前的退出经验和我们强大的业绩记录，我们成功从天使投资者那里获得了约 100 万美元，并从创始团队获得了额外的 35 万美元。

目前，我们正在证明市场适配性，展示我们技术的可扩展性，并向投资者展示潜在的丰厚回报。保持对最新进展和新兴机会的关注至关重要。深度技术领域不断发展，因此了解挑战和可能性对成功至关重要。

Ivan Mishanin 是 Brainify.ai 的联合创始人兼首席运营官，该平台致力于用于精神病学的新治疗开发的 AI/ML 生物标志物。他之前的科技公司 Bright Box 被苏黎世保险集团以 7500 万美元收购。

了解更多此话题

10 个 Jupyter Notebook 小技巧和窍门

原文：www.kdnuggets.com/2023/06/10-jupyter-notebook-tips-tricks-data-scientists.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

无论你是初学者还是数据专业人士，你一定使用过 Jupyter Notebook，并发现运行 Python 代码并以报告格式可视化输出是多么简单。

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT

但是，如果我告诉你可以提升你的 Jupyter 开发体验呢？在这篇文章中，我们将学习 10 个 Jupyter Notebook 小技巧，以提升数据专业人员的生产力和性能。

1. 键盘快捷键

键盘快捷键对于执行重复任务和节省时间非常重要。你可以通过帮助 > 键盘快捷键或按H键了解所有默认的键盘快捷键。

访问命令的最简单和最流行的方法是类似于 VSCode 的命令面板。你可以按Ctrl + Shift + P 调出命令面板。它允许你搜索和执行命令，或滚动浏览所有命令以发现你想运行的命令。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

动图由作者提供

2. IPython 魔法命令

你可以在 Jupyter Notebook 中访问所有 IPython 魔法命令。这些命令为你执行代码提供了额外的功能。

例如，你可以使用%%time 魔法命令来显示单元格的执行时间。在我们的例子中，代码运行了 1000 次需要 1.09 秒。

%%time

import time
for i in range(1_000):
    time.sleep(0.001)

CPU times: user 10.2 ms, sys: 1.68 ms, total: 11.9 ms
Wall time: 1.09 s

你可以通过运行%lsmagic命令或查看内置魔法命令来了解所有可用的魔法命令。

常用命令列表：

%env 用于设置环境变量。
%run 用于执行 Python 代码。
%store 用于在多个笔记本之间访问变量。
%%time 显示单元格的执行时间。
%%writefile 将单元格的内容保存到一个文件中。
%pycat 显示外部文件的内容。
%pdb 用于调试。
%matplotlib inline 用于抑制函数在最后一行的输出。

3. 执行 Shell 命令

你可以在 Jupyter Notebook 单元格中使用 ! 运行 Shell 和 Bash 命令，如下所示。这为你提供了额外的能力来运行 Unix 或 Linux 基于的命令和工具。

!git push origin

此命令最常见的用途是即时安装 Python 包。

!pip install numpy

你还可以使用 Magic 命令 %pip 安装 Python 包

%pip install numpy

4. 使用 LaTeX 公式

在创建数据分析报告时，你需要提供统计或数学方程式，Jupyter Notebook 允许你使用 Latex 公式呈现复杂的方程。

只需创建一个 Markdown 单元格，并用美元符号 $ 包围你的 Latex 公式，如下所示。

$\int \frac{1}{x} dx = \ln \left| x \right| + C$

输出：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5. 为 Jupyter Notebook 安装其他内核

我们都知道 Python 内核，但你也可以安装其他内核，并用任何语言运行代码。

例如，如果你想在 Jupyter Notebook 中运行 R 编程语言，你需要安装 R 并在 R 环境中安装 IRkernel。

install.packages('IRkernel')
IRkernel::installspec()

或者，如果你已经安装了 Anaconda，你可以在终端中运行下面的命令来为 Jupyter Notebook 设置 R。

conda install -c r r-essentials

对于 Julia 语言爱好者，我创建了一个简单的指南如何在 Jupyter Notebook 中设置 Julia。

6. 从不同内核运行代码

你还可以通过使用 Magic 命令在 Python Jupyter Notebook 中从多个内核运行代码，例如：

%%bash
%%html
%%javascript
%%perl
%%python3
%%ruby

在这个例子中，我们将尝试使用 %%HTML Magic 命令在 Python 内核中运行 HTML 代码。

%%HTML

<html>

<body>

<h1>Hello World</h1>

<p>Welcome to my website</p>

</body>

</html>

输出：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

类似于 !，你可以使用 %%script 运行 Shell 脚本，这允许你运行安装在机器上的所有内核。例如，你可以运行 R 脚本。

%%script R --no-save
print("KDnuggets")

输出：

> print("KDnuggets")
[1] "KDnuggets"
>

7. 多光标支持

你可以使用多个光标来编辑多个变量和语法或添加多行代码。要创建多个光标，你需要在按住 Alt 键的同时点击并拖动鼠标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的 GIF

8. 输出图像、视频和音频

你可以在不安装额外的 Python 包的情况下显示图像、视频和音频。

你只需导入 IPython.display 即可获取图像、视频和音频功能。这在处理非结构化数据集和机器学习应用时非常有用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

9. 处理大型数据

你可以通过使用 IPython Parallel 库处理和查询大型数据集。它是用于控制 IPython 进程集群的 CLI 脚本集合，基于 Jupyter 协议构建。

此外，你还可以使用 sparkmagic 命令来使用 PySpark 会话。

查看 sparkmagic 仓库中的示例。

%%spark -c sql -o df_employee--maxrows 5
SELECT * FROM employee

输出：

 age	name
0	40.0	abid
1	20.0	Matt
2	36.0	Chris

10. 分享笔记本

分享报告或代码源及其输出非常重要，你可以通过多种方式实现：

使用 文件 > 另存为 > HTML 将笔记本转换为 HTML 文件。
使用 文件 > 另存为 > PDF 将笔记本保存为 PDF 文件。
将笔记本保存为 Markdown 文件 > 另存为 > Markdown。
使用 Pelican 创建博客。
将 .ipynb 文件上传到 Google Colab 并在同事之间分享。
使用 GitHub Gits 与公众分享笔记本文件。
将你的文件托管在云端或外部服务器上，并使用 nbviewer 渲染笔记本。

希望你觉得我列出的 10 个 Jupyter Notebook 技巧对你有帮助。如果你有任何额外的建议或技巧想要分享，请在下方评论中告诉我。感谢阅读。

Abid Ali Awan (@1abidaliawan) 是一位认证数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作，并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品，帮助面临心理健康问题的学生。

2022 年及以后 10 个关键 AI 与数据分析趋势

原文：www.kdnuggets.com/2021/12/10-key-ai-trends-for-2022.html

作者：David Pool，Smarter.ai 的联合创始人及 CAIO

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速开启网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你所在组织的 IT

全球大流行改变了我们的交易方式。随着世界大部分地区转向在线，电子商务、云计算和增强的网络安全措施只是评估当前数据分析趋势的冰山一角。

管理风险和控制成本一直是企业的重要考虑因素。然而，能够有效分析数据的正确机器学习技术正在成为任何希望获得竞争优势的公司至关重要的条件。

为什么趋势对模型创作者重要？

我们对 2022 年及以后数据分析趋势的总结应该能给创作者一个关于行业发展方向的良好概念。

通过保持对数据科学趋势的关注，并调整他们的模型以符合当前标准，创作者可以使他们的工作真正变得不可或缺。无论这些数据分析趋势是否激励你构思新的模型，还是更新你工具箱中的现有模型，完全取决于你自己。

创作者经济进入 AI 领域：想象一下类似于 Airbnb 的 AI 工具市场

随着计算机游戏领域的趋势，用户生成内容（UGC）作为游戏平台的重要组成部分实现了货币化，我们也看到了类似的货币化发生在数据科学领域。这从简单的模型开始，如分类、回归和聚类模型，这些模型都被重新利用并上传到专门的平台。这些模型随后会提供给希望自动化日常业务数据和流程的全球商业用户市场。

这将很快被深度模型工件所取代，如卷积网络、GAN 和自编码器，这些模型经过调整并应用于解决商业问题。这些模型旨在由商业分析师而非数据科学家团队安全使用。

数据科学家以咨询工作形式出售他们的技能和经验，或将模型上传到代码库，这并不新鲜。然而，2022 年将通过双面市场实现这些技能的货币化，使得单个模型可以进入全球市场。

想象一下 AI 版的 Airbnb。

环境 AI 成为关注焦点

尽管大多数研究无可厚非地集中在推动复杂性边界上，但现实是，训练和运行复杂模型对环境的影响可能很大。

预测到 2040 年，数据中心将占全球 CO2 排放量的 15%，而 2019 年的一项研究论文《深度学习的能源考虑》发现，训练一个自然语言翻译模型的 CO2 排放量相当于四辆家庭轿车在其生命周期内的排放量。显然，训练越多，CO2 释放越多。

随着对环境影响理解的加深，组织们正在探索减少碳足迹的方法。虽然我们现在可以利用 AI 提高数据中心的效率，但世界应当期待看到更多对简单模型的关注，这些简单模型在解决特定问题时能与复杂模型一样表现出色。

实际上，当一个简单的贝叶斯模型使用的数据、训练和计算能力远远少于 10 层卷积神经网络却表现同样良好时，我们为何还要使用复杂的 10 层卷积神经网络？“模型效率”将成为环境 AI 的代名词，因为创作者们专注于构建简单、高效且易用的模型，而这些模型不会对地球造成巨大负担。

超参数化模型成为大型科技公司的超级游艇

不同于穆斯克和贝索斯的太空科技竞赛，大型科技公司也有他们自己令人兴奋的竞赛：谁拥有最大的深度学习模型？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在过去 3 年中，最大模型的参数数量从 2018 年的 9400 万增长到了 2021 年的惊人 1.6 万亿，谷歌、Facebook、微软、OpenAI 等公司不断推升复杂性边界。

如今，这些数万亿的参数是基于语言的，允许数据科学家构建能够详细理解语言的模型，使模型能够撰写人类水平的文章、报告和翻译。它们甚至能编写代码、开发食谱，并理解上下文中的讽刺和讽刺。

从 2021 年开始，我们可以期待视觉模型在无需庞大数据集的情况下实现类似的人类水平表现。例如，你可以只给幼儿展示一次巧克力，他们每次看到巧克力时都会认识它，而无需重新训练！

创作者们已经开始将这些模型应用于具体的机会。其中一个最为显著的例子来自游戏开发者 Dungeon.AI，他们基于 1970 年代的风靡游戏《龙与地下城》开发了一系列幻想游戏。这些逼真的世界基于 1750 亿参数的模型 GPT-3。我们预计创作者们会在特定领域看到更多这种活动，比如理解法律文本、撰写广告文案或将图像或视频分类到特定组中。

数字协作工人的增强型工作队伍

随着认知技术和机器学习模型在全球范围内被企业越来越多地采用，机械化的行政工作和将琐碎任务分配给人工劳动力的时代正逐渐消失。

取而代之的是，企业选择了一种增强型劳动力模型，使人类和机器人并肩工作。这一技术进步使工作具有可扩展性和优先级，赋予人类以消费者为首要任务的能力。

尽管创建增强型劳动力无疑是创作者需要关注的数据分析趋势之一，但部署正确的人工智能并解决自动化带来的任何初期问题是一个重大挑战。此外，面对统计数据称到 2025 年每三份工作中就有一份将被机器人取代，员工们自然对这一趋势不太热衷。[1]

这些担忧在某种程度上是有效的，但也有一种有根据的信念认为，机器学习和自动化将仅仅提升员工的生活，使他们能够更快、更无不确定性地做出关键决策。尽管存在潜在缺点，增强型劳动力使个人可以花更多时间进行质量保证和客户服务，同时在复杂的业务问题出现时解决它们。[2]

随着众多公司热衷于将机器人流程自动化（RPA）、机器学习和认知增强作为未来建模的一部分，这也是所有有志数据分析师应了解的人工智能趋势之一。

改善网络安全

随着大多数企业在疫情期间被迫投资于增加在线存在感，提高网络安全已成为 2021 年最重要的数据分析趋势之一。

单次网络攻击可以完全扰乱一个企业，但企业如何在没有巨大的成本和时间投入的情况下追踪潜在的失败点？这个燃眉之急的答案在于优秀的建模和对风险的理解。人工智能快速且准确的数据分析能力意味着可以进行更深入的风险建模和威胁感知。

与人类不同，机器学习模型能够以快速的速度处理数据，提供保持威胁控制的洞察而无需太多外部输入。根据 IBM 对网络安全的人工智能分析，这项技术可以收集从恶意文件到不利 IP 地址的所有信息，使企业能够比以前快多达 60 倍地应对威胁。[3] 由于遏制一次数据泄露的平均成本为 11.2 亿美元，投资优秀的网络安全建模是企业不应忽视的事情。[4]

总之，通过保持网络安全以应对这一数据分析趋势，企业可以更好地保护其底线。

低代码和无代码人工智能

由于全球范围内可用的数据科学家如此稀缺，使非专家能够从预定义的组件中创建可操作的应用程序，使低代码和无代码人工智能成为近年来在行业中出现的最具民主性的趋势之一。

实质上，这种人工智能方法几乎不需要编程，允许任何人“使用简单的构建块来根据需求定制应用程序。”[5]

最近的趋势表明，数据科学家和工程师的就业市场极为积极，LinkedIn 的就业报告称，在未来 5 年内，大约全球将创造 1.5 亿个技术职位。考虑到超过 83%的企业现在将人工智能视为保持相关性的关键因素，这也就不足为奇了。

然而，在当前的环境下，对人工智能相关服务的强烈需求根本无法得到满足。更重要的是，超过 60%的人工智能顶尖人才被科技和金融行业抢走，导致其他行业几乎没有潜在的员工可供使用。[6]

因此，创建低代码和无代码人工智能解决方案，使企业能够在没有数据专家的情况下进行竞争，是保持行业开放和具有竞争力的关键。

云计算的崛起

疫情使得云计算的转型成为近年来出现的最不可避免的数据分析趋势之一。面对比以往更多的数据，通过云端共享和管理数字服务已经被全球的企业迅速采纳。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器学习平台将数据带宽需求提升到一个新水平，但云计算的崛起使得完成工作更快，并具有公司级别的可见性。鉴于 94%的企业已经使用云服务，并且公共云基础设施预计到 2021 年底将增长 35%，未能利用云计算的公司将会被甩在后面。[7]

云计算能够保持数据安全、保护企业免受网络攻击并提升可扩展性，其好处多于坏处，使其成为创作者在未来几年需要关注的关键数据分析趋势之一。

小数据与可扩展人工智能

随着全球越来越多地转向线上，能够创建响应更广泛数据集的可扩展人工智能比以往任何时候都更为重要。虽然快速到达的大数据仍然对创建有效的人工智能模型至关重要，但真正为客户分析增值的是小数据。这并不是说大数据没有价值，而是从如此庞大的数据集中提取有意义的趋势几乎是不可能的。

如你所料，小数据由少量数据类型组成，这些数据类型包含足够的信息来测量模式，但不会让公司感到 overwhelmed。通过从具体案例中提取见解，营销人员可以更有效地建模消费者行为，并通过个性化将其发现转化为销售增长。[8]

改进的数据来源

由 Boris Glavic 定义为“关于数据的来源和创建过程的信息，”[9] 数据来源是保持工业生产数据可靠的数据科学趋势之一。

为了保持盈利，企业需要能够信任用于营销和广告目的的数据。虽然有大量数据是好的，但只有在正确分析的情况下才有用。不准确的预测和糟糕的数据管理会严重影响企业，但随着时间的推移，机器学习模型的改进已使这一问题减少。

现在能够使用针对性的算法，这些模型可以确定哪些数据集应被使用，哪些应被丢弃。对于数据分析师来说，跟踪智能特性并保持所有文件的最新状态应该使相关数据更容易被筛选出来。

迁移到 Python 和工具

Python 通过其简单的语言和语法提供更用户友好的编码方式，是一种引领科技行业的高级编程语言。

尽管 R 不太可能在数据科学领域消失，Python 被全球企业视为更易获取的工具，因为它优先考虑逻辑代码和可读性。与主要用于统计计算和图形的 R 不同，Python 可以轻松用于机器学习，因为它比其前身更深入地收集和分析数据。

使用 Python 在可扩展的生产环境中，能给数据分析师带来优势，这是数据科学中的一种趋势，新兴创作者不应忽视。

深度学习和自动化

深度学习与机器学习相关，但其算法受人脑神经通路的启发。对于企业而言，使用这种技术确保了准确的预测和易于理解的有用模型。[10]

虽然深度学习并不适用于每个行业，但该机器学习子领域中使用的神经网络改进了自动化，使企业能够在较少人工干预的情况下进行高度分析。

从数字助手到壳牌在墨西哥湾现代化的智能传感器，深度学习和自动化的应用是将高质量数据转化为保证的顶线增长的 AI 趋势之一。

实时数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

能够实时评估数据是近年来最令人兴奋的数据分析趋势之一。情感分析和实时自动化测试在 2021 年变得越来越受企业欢迎，公司利用数据进展实时评估消费者行为。实时分析允许在问题出现时立即进行调整和更改，使企业更加主动。

根据研究和咨询公司 Gartner 的数据，到 2022 年，将有超过 50% 的新业务系统使用实时数据来改善决策。[11] 这不仅会改善客户体验，提高企业利润率，而且实时数据还是消除与历史、本地数据报告相关成本的数据分析趋势之一。

从 DataOps 转向 XOps

在现代世界中，企业拥有如此多的数据，手动处理显然是不切实际的。

尽管 DataOps 在数据收集和评估方面效率很高，但向更复杂的 XOps 转变被证明是明年的顶级数据分析趋势之一。为了进一步支持这一观点，Gartner 确认了 XOps 的重要性，称其是将数据处理过程结合起来以获得更前沿的数据科学方法的有效方式。

你可能已经熟悉 DataOps，但如果你对一个新术语感到困惑，让我们来为你解答。

根据 Salt Project 的数据管理专家，XOps 是一个“涵盖所有 IT 学科和责任的总称，描述了所有 IT 操作的通用术语。”[12] 它包括 DataOps、MLOps、ModelOps、AIOps 和 PlatformOps，采用多方面的方法来提高效率，实现自动化，并缩短多个行业的开发周期。

通过整合这些程序，企业可以利用最新的 IT 软件，使数据调查变得无缝，从而节省时间、精力和金钱。

未来的数据分析趋势：关键要点是什么？

2021 年的数据科学趋势极为进步，证明准确且易于消化的数据对企业来说比以往任何时候都更有价值。

然而，数据分析趋势永远不会静止，因为可供企业使用的数据量不断增长。这使得找到对所有企业都有效的数据处理方法成为一个持续的挑战。

随着可访问性、民主化和自动化成为数据行业未来的关键优先事项，创作者应当致力于保持其模型易于理解，并且在可能的情况下做到未来-proof。

[1] Joshua Barajas，《Gartner 称智能机器人将在 2025 年前占据三分之一的工作岗位》，PBS，最后修改于 2014 年 10 月 7 日，https://www.pbs.org/newshour/economy/smart-robots-will-take-third-jobs-2025-gartner-says

[2] Bill Cline, Maureen Brady, David Montes, Chris Foster, Catia Davim, KPMG，《增强型劳动力》，https://home.kpmg/xx/en/home/insights/2018/06/augmented-workforce-fs.html

[3] IBM，《更智能的网络安全中的人工智能》，最后修改于 2021 年 10 月 4 日，https://www.ibm.com/uk-en/security/artificial-intelligence

[4] IBM 公司，《超越炒作：你 SOC 中的人工智能》，2020 年 7 月，https://www.ibm.com/downloads/cas/9EDONM6M

[5] Anton Vaisbud，《企业中的低代码人工智能》，最后修改于 2021 年 2 月 26 日，https://towardsdatascience.com/low-code-ai-in-enterprise-benefits-and-use-cases-b9692ee13168

[6] David Kelnar，《人工智能现状：2019 年的分歧》，MMC Ventures，最后修改于 2019 年 3 月 5 日， www.stateofai2019.com/introduction

[7] Nick Galov，《2021 年云计算采纳统计数据》，最后修改于 2021 年 8 月 1 日，https://hostingtribunal.com/blog/cloud-adoption-statistics/

[8] Shane Hill，《忘记“大数据”吧：真正创造价值的是小数据》，最后修改于 2020 年 10 月 13 日，https://techmonitor.ai/ai/small-data-not-big-data

[9] Boris Glavic，《大数据溯源：挑战与基准测试的影响》，《指定大数据基准》，2014 年，第 8163 卷，摘要

[10] IBM 云教育，《深度学习》，最后修改于 2020 年 5 月 1 日，https://www.ibm.com/cloud/learn/deep-learning

[11] Susan Moore，《2019 年 Gartner 十大数据与分析趋势》，最后修改于 2019 年 11 月 5 日，https://www.gartner.com/smarterwithgartner/gartner-top-10-data-analytics-trends

[12] Rhett Glauser，《什么是 XOps？》，最后修改于 2020 年 5 月 6 日，https://saltproject.io/what-is-xops/

原文。经许可转载。

个人简介： David Pool 是一位商业导向的经验丰富的企业家，专注于人工智能、机器学习、数据分析和商业智能。

相关：

成为数据科学家你需要了解的十种机器学习算法

原文：www.kdnuggets.com/2018/04/10-machine-learning-algorithms-data-scientist.html/2

6. 前馈神经网络

这些基本上是多层逻辑回归分类器。多个由非线性激活函数（sigmoid、tanh、relu + softmax 和新的 selu）分隔的权重层。它们的另一个常见名称是多层感知机。FFNN 可以用于分类和作为自编码器进行无监督特征学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

多层感知机

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

FFNN 作为自编码器

FFNN 可以用于训练分类器或作为自编码器提取特征

库：

scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier

scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html

github.com/keras-team/keras/blob/master/examples/reuters_mlp_relu_vs_selu.py

入门教程：

www.deeplearningbook.org/contents/mlp.html

www.deeplearningbook.org/contents/autoencoders.html

www.deeplearningbook.org/contents/representation.html

7. 卷积神经网络（Convnets）

几乎所有世界上最先进的基于视觉的机器学习结果都是通过卷积神经网络实现的。它们可以用于图像分类、目标检测或图像分割。由 Yann Lecun 在 80 年代末 90 年代初发明，卷积神经网络具有作为层级特征提取器的卷积层。你也可以在文本中使用它们（甚至在图形中）。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用卷积神经网络进行最先进的图像和文本分类、目标检测、图像分割。

库：

developer.nvidia.com/digits

github.com/kuangliu/torchcv

github.com/chainer/chainercv

keras.io/applications/

入门教程：

cs231n.github.io/

8. 循环神经网络（RNNs）：

RNN 通过在时间 t 应用相同的权重集合到汇聚状态和输入上来对序列建模（给定一个序列在时间 0…t…T 有输入，并且在每个时间 t 都有一个隐藏状态，该状态是 RNN 的 t-1 步骤的输出）。纯 RNN 现在很少使用，但像 LSTM 和 GRU 这样的对比模型在大多数序列建模任务中处于最前沿。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

RNN（如果这里有一个密集连接单元和非线性，现代的 f 通常是 LSTM 或 GRU）。LSTM 单元用来代替纯 RNN 中的普通密集层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 RNN 进行任何序列建模任务，特别是文本分类、机器翻译、语言建模

库：

github.com/tensorflow/models（这里有很多来自 Google 的酷炫 NLP 研究论文）

github.com/wabyking/TextClassificationBenchmark

opennmt.net/

入门教程：

cs224d.stanford.edu/

www.wildml.com/category/neural-networks/recurrent-neural-networks/

colah.github.io/posts/2015-08-Understanding-LSTMs/

9. 条件随机场（CRFs）

CRF 可能是概率图模型（PGMs）家族中最常用的模型。它们用于像 RNN 这样的序列建模，也可以与 RNN 结合使用。在神经机器翻译系统出现之前，CRF 是最先进的技术，在许多小数据集的序列标记任务中，它们仍然比 RNN 表现更好，因为 RNN 需要更多的数据来进行泛化。CRF 也可以用于其他结构化预测任务，如图像分割等。CRF 对序列中的每个元素（比如一个句子）进行建模，使得邻近元素影响序列中某个组件的标签，而不是所有标签彼此独立。

使用 CRF 对序列进行标记（在文本、图像、时间序列、DNA 等中）

库：

sklearn-crfsuite.readthedocs.io/en/latest/

入门教程：

blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/

Hugo Larochelle 在 YouTube 上的 7 部分讲座系列：www.youtube.com/watch?v=GF3iSJkgPbA

10. 决策树

假设我拿到一个包含各种水果数据的 Excel 表格，我需要判断哪些看起来像苹果。我会问一个问题：“哪些水果是红色且圆形的？”然后将所有水果根据是否回答“是”或“否”来分类。现在，所有红色且圆形的水果可能不是苹果，而所有苹果也不一定是红色和圆形的。所以，我会对红色和圆形的水果问一个问题：“哪些水果有红色或黄色的色调？”对非红色和圆形的水果问：“哪些水果是绿色且圆形的？”根据这些问题，我可以较为准确地判断哪些是苹果。这种问题级联就是决策树。然而，这只是基于我的直觉的决策树。直觉无法处理高维和复杂的数据。我们必须通过查看标记的数据自动生成问题级联。这就是基于机器学习的决策树所做的。早期版本如 CART 树曾用于简单数据，但随着数据集的增大和复杂化，需要用更好的算法来解决偏差-方差权衡。现在常用的两种决策树算法是随机森林（在属性的随机子集上构建不同的分类器并将它们结合输出）和提升树（训练一系列级联的树，每棵树都纠正其下方树的错误）。

决策树可用于分类数据点（甚至回归）

库

scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html

xgboost.readthedocs.io/en/latest/

catboost.yandex/

入门教程

xgboost.readthedocs.io/en/latest/model.html

arxiv.org/abs/1511.05741

arxiv.org/abs/1407.7502

education.parrotprediction.teachable.com/p/practical-xgboost-in-python

TD 算法（推荐使用）

如果你仍在疑惑这些方法如何解决像 DeepMind 那样击败围棋世界冠军的任务，其实它们不能。我们之前讨论的 10 种算法都是模式识别算法，而不是策略学习算法。要学习解决多步骤问题的策略，比如赢得棋局或玩 Atari 游戏，我们需要让一个智能体在世界中自由探索，并从它所面临的奖励/惩罚中学习。这种机器学习方法被称为强化学习。最近很多（但不是全部）领域的成功都是将卷积神经网络（Convnet）或长短期记忆网络（LSTM）的感知能力与一种称为时间差分学习（Temporal Difference Learning）的算法集合结合的结果。这些算法包括 Q-Learning、SARSA 及其他变种。这些算法聪明地运用了 Bellman 方程，以获得一个可以通过智能体从环境中获得的奖励进行训练的损失函数。

这些算法主要用于自动玩游戏 😄，也用于语言生成和目标检测的其他应用。

库：

github.com/keras-rl/keras-rl

github.com/tensorflow/minigo

入门教程：

获取免费的 Sutton 和 Barto 书籍： web2.qatar.cmu.edu/~gdicaro/15381/additional/SuttonBarto-RL-5Nov17.pdf

观看 David Silver 的课程： www.youtube.com/watch?v=2pWv7GOvuf0

这些是你可以学习的 10 种机器学习算法，以成为数据科学家。

你还可以在这里阅读有关机器学习库的文章。

我们希望你喜欢这篇文章。请注册一个免费的 ParallelDots 账户，开始你的 AI 之旅。你还可以在这里查看 ParallelDots AI API 的演示。

原文。经授权转载。

相关：

我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全认证 - 快速开启网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织在 IT 领域

10 个机器学习模型训练中的错误

原文：www.kdnuggets.com/2021/07/10-machine-learning-model-training-mistakes.html

作者：Sandeep Uttamchandani, Ph.D.，既是产品/软件开发者（工程副总裁），也是企业范围内数据/AI 项目的领导者（首席数据官）

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自Tumisu的Pixabay

机器学习模型训练是整个模型构建过程中最耗时和资源的部分。训练本质上是迭代的，但在某些迭代过程中，错误可能会渗入。在这篇文章中，我分享了机器学习模型训练中的十个致命错误——这些错误是最常见的，也是最容易被忽视的。

机器学习模型训练的十个致命错误

1. 在模型未收敛时盲目增加轮次

在模型训练过程中，有时损失-轮次图表会反复波动，不论轮次多少都似乎无法收敛。没有万能的解决方案，因为需要调查多个根本原因——不良训练样本、缺失的真值、变化的数据分布、过高的学习率。我见过的最常见原因是不良训练样本，涉及异常数据与不正确标签的组合。

2. 未对训练数据集进行随机打乱

有时，模型似乎正在收敛，但突然损失值显著增加，即损失值在减少后突然显著增加。这种损失爆炸有多种原因。我见过的最常见原因是数据中的离群值没有均匀分布/打乱。打乱一般来说是一个重要步骤，包括在损失表现出重复步进函数行为的模式中。

3. 在多类别分类中，不优先考虑特定类别的度量准确性

对于多类别预测问题，除了跟踪总体分类准确性外，通常还需优先考虑特定类别的准确性，并逐步改进模型。例如，在对不同类型的欺诈交易进行分类时，根据业务需求，专注于提高特定类别（如外国交易）的召回率。

4. 假设特异性会导致模型准确性降低

与其构建一个通用模型，不如想象为特定地理区域或特定用户画像构建模型。特定性会使数据更加稀疏，但可能会提高对这些特定问题的准确性。在调优过程中，探索特定性和稀疏性的权衡是很重要的。

5. 忽视预测偏差

预测偏差是预测平均值和数据集中标签平均值之间的差异。预测偏差是模型问题的早期指标。较大的非零预测偏差表明模型中存在某个地方的错误。关于广告点击率的一个有趣的 Facebook 论文。通常，偏差在预测桶之间的测量是有用的。

6. 仅仅依靠模型准确率就称之为成功

95% 的准确率意味着 100 次预测中有 95 次是正确的。在数据集中存在类别不平衡的情况下，准确率是一个有缺陷的指标。应该深入调查诸如精准度/召回率等指标，以及它们如何与整体用户指标（如垃圾邮件检测、肿瘤分类等）相关联。

7. 不了解正则化 λ 的影响

λ 是在简单性和训练数据拟合之间取得平衡的关键参数。高 λ → 简单模型 → 可能欠拟合。低 λ → 复杂模型 → 可能对数据过拟合（无法推广到新数据）。理想的 λ 值是能够很好地推广到以前未见过的数据的值：依赖数据并需要分析。

8. 重复使用相同的测试集

使用相同数据进行参数和超参数设置的次数越多，对结果实际推广能力的信心就越小。重要的是收集更多的数据，并不断增加测试和验证集。

9. 未关注神经网络中的初始化值

鉴于神经网络中的非凸优化，初始化很重要。

10. 假设错误标签总是需要修复

当发现错误标签时，可能会很想立即修复它们。首先分析误分类示例的根本原因是很重要的。通常，由于标签错误引起的错误可能只占很小的比例。可能存在更大的机会来更好地训练针对特定数据片段的模型，这些数据片段可能是主要的根本原因。

总结来说，避免这些错误可以让你在大多数其他团队中脱颖而出。将这些作为你的流程检查清单。

简介: Sandeep Uttamchandani, Ph.D.: 数据 + 人工智能/机器学习 – 既是产品/软件构建者（工程副总裁）也是企业范围内数据/人工智能项目的领导者（首席数据官） | O’Reilly 图书作者 | DataForHumanity 创始人（非营利组织）

原文。经授权转载。

相关：

如何判断你的机器学习模型是否过拟合
使用 PyCaret 编写和训练你自己的自定义机器学习模型
如何在 20 天内破坏一个模型——关于生产模型分析的教程

我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速入门网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 需求

程序员的 10 个数学概念

原文：www.kdnuggets.com/10-math-concepts-for-programmers

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

随着对程序员需求的增加，供应自然会因更多人进入行业而增加。然而，这个行业竞争激烈。为了持续提升自己，提升技能并增加薪资——你需要证明自己是一个高效的程序员。你可以通过学习那些别人通常不知道的东西来做到这一点。

我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求

许多人进入编程行业时以为不需要了解背后的数学。虽然这在某种程度上是对的，但理解编程背后的逻辑数学概念会让你成为一个更高效的程序员。

怎么做？通过理解你在做什么以及发生了什么。就是这样。

那么，让我们直接进入主题吧。程序员的十大数学概念是什么？

布尔代数

布尔代数源于代数。我想这很明显。如果你是程序员或正在成为程序员的路上，你可能已经知道什么是布尔代数。如果没有，我会迅速定义一下。

布尔值是一种数据类型/二元变量，它只有两个可能的值，例如 0（假）或 1（真）。布尔数据类型由布尔代数支持，其中变量的值称为真值，即真和假。在处理布尔代数时，你可以使用三种运算符：

连词或 AND 操作
离散或 OR 操作
否定或 Not 操作

这些可以通过维恩图来直观表示，以帮助你更好地理解输出。布尔代数由 6 条定律组成：

交换律
结合律
分配律
AND 定律
OR 定律
否定律

数字系统

计算机理解数字，这就是为什么它们需要数字系统。数字系统是用于表示数字的书写系统。例如，你有以下四种最常见的数字系统类型：

十进制数字系统（基数 10）
二进制数字系统（基数 2）
八进制数字系统（基数 8）
十六进制数字系统（基数 16）

计算机使用基数 2 的数字系统，其中可能的数字是 0 和 1。Base64 也用于将二进制数据编码为字符串格式。

浮点数

进一步了解数字，我们有浮点数。浮点数是一种表示实数近似值的变量数据类型。浮点数是小数点位置可以移动或“浮动”的数字，而不是固定在一个位置。这允许开发人员在范围和精度之间进行权衡。

为什么要近似？计算机的空间有限，要么是 32 位（单精度），要么是 64 位（双精度）。64 位是 Python 和 JavaScript 等编程语言的默认值。浮点数的示例有 1.29、87.565 和 9038724.2。它可以是带小数点的正数或负数。

对数

也称为对数，是一个数学概念，利用指数的逆操作来回答问题。那么为什么对数对程序员很重要？因为它简化了复杂的数学计算。例如，1000 = 10⁴ 也可以写成 4 = log10 1000。

基数是一个需要自身相乘的数学对象。指数是一个数字，它表示基数需要自身相乘多少次。因此，对数是一个指数，它指示一个基数必须提高到什么幂才能得到一个给定的数字。

当对数使用基数 2 时，它是二进制对数；如果基数是 10，则是常用对数。

集合论

集合是一个无序的唯一值集合，这些值之间不需要有任何关系。集合只能包含唯一的项目，不能包含相同的项目两次或更多次。

例如，Excel 文件或数据库包含具有一组唯一行的表。这是一种离散数学，因为这些结构可以有有限数量的元素。集合论的目标是理解值的集合及其相互之间的关系。这通常用于数据分析师、SQL 专家和数据科学家。

你可以通过以下方式进行：

内连接或交集 – 返回一个包含两个集合中都存在的元素的集合。
外连接或并集 – 返回两个集合中的所有元素。
全部并集 – 与外连接操作符相同，但它会包含所有重复项。
除了或减去 – 减去 B 的 A 是一个包含 A 集合中不属于 B 集合的元素的集合。

组合数学

组合数学是计算事物数量以获得结果，并通过模式理解有限结构的某些属性的艺术。编程的核心是解决问题，而组合数学是我们可以排列对象以研究这些有限离散结构的方法。

组合数学公式是排列与组合的结合。

排列是将一个集合安排成某种顺序或序列的行为。
组合是选择一个集合中的值，不考虑顺序。

图论

正如你所知道的，图是值的可视化表示，这些值可以相互连接。对于数据，这些值由于变量而连接，在图论中称为链接。

图论是研究图中边和顶点之间关系的学科。这使我们能够通过顶点（也称为节点）和边（也称为线）之间的对关系来创建对象对。图表示为一对 G(V, E)，其中 V 代表有限集合的顶点，E 代表有限集合的边。

复杂度理论

复杂度理论是研究算法运行所需的时间和内存量随输入大小变化的函数。复杂度有两种类型：

空间复杂度 - 一个算法运行所需的内存量。
时间复杂度 - 一个算法运行所需的时间量。

更多的人关注时间复杂度，因为我们可以重用算法的内存。对于时间复杂度，衡量的最佳方式是考虑算法执行的操作次数。算法是通过 if 语句和循环构建的，因此为了减少时间消耗，你需要使用具有尽可能少的 if 语句和循环的代码。

复杂度理论使用大 O 符号来帮助描述和提供对算法限制行为的更好理解。它用于根据输入大小的变化来分类算法。

统计学

啊，统计学。如果你想进入人工智能领域，你需要了解统计学。人工智能和机器学习是统计学的别名。统计编程用于解决数据密集型问题，例如 ChatGPT。ChatGPT 的响应完全基于与用户提供的提示匹配的概率。

在统计编程中，你需要学习的不仅仅是均值、中位数和众数。你还需要了解偏差、协方差和贝叶斯定理。作为程序员，你会遇到任务并意识到你在问这是线性回归问题还是逻辑回归问题。理解这两者之间的区别将帮助你确定手头的任务类型。

线性代数

你可能在学校学习过线性代数，也可能没有。线性代数非常重要，并广泛用于计算机图形学和深度学习。为了掌握线性代数，你需要理解这三个词：

标量 - 单个数值
向量 - 一维数组或数字列表
矩阵 - 二维数组或网格

向量可以表示 3D 空间中的点和方向，而矩阵可以表示这些向量发生的变换。

总结

本文为你提供了改进编程职业的十大数学概念的快速概述。学习这些复杂的内容不仅能使你的日常工作更加顺畅且易于理解，还可以向雇主展示你的潜力。

如果你正在寻找一本免费的书籍来帮助你，可以查看：机器学习数学：免费电子书

尼莎·阿利亚 是一名数据科学家、自由技术作家以及 KDnuggets 的社区经理。她特别关注提供数据科学职业建议或教程，以及围绕数据科学的理论知识。她还希望探索人工智能如何促进人类寿命的各种方式。作为一个热衷学习者，她寻求扩展她的技术知识和写作技能，同时帮助指导他人。

主题深入了解

作为数据科学初学者，你应该避免的 10 个错误

原文：www.kdnuggets.com/2021/06/10-mistakes-avoid-data-science-beginner.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 Steve Buissinne 提供，来自 Pixabay

我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT

数据科学正在取得成功。全球成千上万的学生报名参加在线课程，甚至数据科学硕士项目。

数据科学领域是一个竞争激烈的市场，特别是在获得大科技公司（所谓的）梦想职位时。好消息是，你可以通过充分准备获得这种职位的竞争优势。

另一方面，有（过多的）MOOC、硕士项目、训练营、博客、视频和数据科学学院。作为初学者，你会感到迷茫。我应该参加哪个课程？我应该学习哪些主题？我需要关注哪些方法？我必须学习哪些工具和编程语言？

事实上，每个数据科学家都有她/他的个性化学习之旅，并且对这种学习路径存在偏见。因此，在不了解你的情况下，很难说出最适合你的方法。

但所有数据科学家都反复犯一些共同的错误。即使知道这些错误，你也无法完全避免它们，但最终可以更早地停止这些错误，并更快地回到成功的道路上。

基于我在数据科学领域超过 20 年的经验，领导最多 150 人的团队，并且仍在全球领先大学之一兼职讲授课程，我为你总结了避免常见错误的核心要点，以帮助你更快实现梦想。

错误按初学者数据科学家的学习进度排序。

#1 在你最终开始之前花费过多时间评估各种不同类型和选项的课程——或者最终从未开始

我知道你被所有课程搞得不知所措，并且你尝试不犯任何错误。你想有效地投资时间和金钱，并选择承诺最快和最佳成功的方法。

不幸的是，没有像在任何技术和科学领域那样的即时成功，为了获得最佳成功，你将没有任何比较。

事实是，如今所有成熟的平台、学院和机构都有很好的课程。所以，不要过度考虑和分析课程。勇敢地选择一个，完成该课程，然后再选择另一个。

最关键的方面是开始和实践。你不能在这里犯错，因为你既不知道你的旅程，也不知道选择另一条路会有什么不同。没有人能告诉你这一点。完毕。

也重要的是要认识到学习是循环的，而非线性的。学习一门数据科学课程并不排除你同时学习另一门课程。

尽管有多年的经验，我仍然进行数据科学、机器学习和人工智能培训。在每一门看似“简单”的入门课程中，我都会发现一个新的方面和新的视角。这正是成为一个高需求的数据科学家的关键。就是理解一个主题的所有不同视角。

#2 你想一次性学习过多的方法和工具，而不是逐个学习和理解这些方法

许多有志于数据科学的人员认为，简历上列出尽可能多的方法有助于更快找到工作。但事实正好相反。当申请工作时，如果你只开始学习数据科学六个月，对于每个招聘人员来说，很明显这只是空谈，没有实质内容。

如果我们看回归模型，有很多书籍专门讲回归。回归类型超过 50 种，每种都有不同的前提条件。因此，简历上只写“回归”并不能说明问题。此外，回归模型仍然是应用中最重要的模型，并且为数据科学的一般理解奠定基础。

你必须理解一个方法解决了什么；假设是什么；参数是什么意思；有哪些陷阱；等等。

根据简历和回归知识的描述，每个经验丰富的招聘人员——或如今的招聘算法——都可以识别你理解的深度。

只有对少数几种方法有深入的知识和经验，比知道很多方法但没有实质内容要好。

#3 你从头开始编写所有代码，因为你认为这有助于你更好、更快地编程

开始编码时，人们认为必须尽快开始编码和重新编程尽可能多的算法。同样，你应该专注于理解一些算法，而不是数量。

首先，你需要了解编码的前提条件：线性代数、数学归纳法、离散数学、几何学——是的，这些是优秀程序员的强项，但数据科学家常常忽视，统计学和概率论、微积分、布尔代数和图论。

我并不是通过更多编码变得更好和更快。我通过理解数学基础、审查他人的代码以及在不同数据和问题上运行和测试代码变得擅长编程。

是的，编码很重要，但更重要的是理解代码的（优秀）架构。这只能通过审查其他代码来学习。

一个事实是，代码越来越成为商品，甚至有无代码工具。差异将不再是能编码和不能编码之间，而是理解其架构和不理解之间。

我给你另一个例子：我假设你已经使用过 TensorFlow。但你了解它是什么吗？它做了什么？为什么它叫做“TensorFlow”？你知道什么是张量吗？不仅仅是张量积的机械计算，而是它在几何上的意义是什么？

#4 通过学习理论，你认为自己知道了一切，但却缺乏足够的实践经验

学习数据科学是试错的过程。只有当你尽可能多地积累经验，犯错并解决问题时，你才会获得更深刻的理解。

理论是可以接受的且至关重要。你需要对基础知识有一定的理解。

不幸的是，在实践中，它很少像理论中那样运作。相反，它往往恰恰是你学到的不应该这样做的方式。

所以，你必须从头开始，使用实际的例子。通常，你会觉得还没准备好进行实践工作：基础知识不够或编程经验不足。

但我强烈建议：即使你觉得还没准备好做练习，也要从头开始。这不需要是一个全天或一周的项目。一个小的 1-2 小时项目就足够了。

你可以从像 RapidMiner 或 KNIME 这样的无代码工具开始，或者使用别人的代码并进行应用。例如，使用一个简单的情感分析代码来分析推文或产品描述。然后，你可以开始修改代码以适用于其他例子并比较结果。

当你作为小孩学习说话时，你是从单个词或两三个词的表达开始的。一步一步地，你建立了对语言的感觉。数据科学中的实践经验也是如此。

专家提示：学习是循环的。所以，保存你的工作。以后你可以回来，改进它，上传到 GitHub，并使用 Tableau 添加可视化。

#5 你认为认证是获得数据科学工作的一种竞争优势

认证是可以的。有很多声音告诉你不要做认证。但它们可以作为一种动力，并且最终它们可以正式展示你的进步和学习的渴望。我仍然会做证书。这没什么错，当你投入时间时，获得证书是合理的。

但这在市场上并不具备差异化。事实上，有成千上万的人拥有相同的证书。所以，要拥有竞争优势，你必须超越这些。

例如，我的一位学生找我寻求在金融领域实习的支持。他想应用所学知识，了解数据科学团队的文化和合作。我能帮他安排在一家银行实习，他将以此作为学期论文。是的，同时进行学习、实习和学期论文确实很有压力。但这将为他提供无价的竞争优势。

#6 你担心其他人的看法，而不是基于事实建立自己的观点

大多数有志成为数据科学家的人士担心其他数据科学家的看法。听到的争论越多，他们就越困惑。尽管困惑是通向清晰的必经之路，但它不应成为常态。

每个数据科学家都是一个具有个人经验、学习历程和职业路径的个体。我常说，“如果你有两个数据科学家在一个房间里，你就有至少四种不同的观点。”

采纳意见作为灵感和寻找信息的指导是好的，但不应将其视为信息本身。

寻找确凿的事实。得出逻辑结论，验证，并再次更新。这是成功推进数据科学职业生涯的重要技能。

#7 不关心业务和领域知识

许多数据科学家认为他们可以将方法应用于每一个问题和行业，但从超过 20 年的经验来看，我可以告诉你这是错误的。

我常常看到数据科学家向业务人员展示发现，而他们的反应是，“哦，我们已经知道这个了。我们需要的是‘为什么会这样’和‘如何解决’。或者在最坏的情况下，是‘这完全是胡说八道，因为这不是我们业务的运作方式。’哗啦！

拥有领域知识比掌握所有花哨的方法更为重要。数据科学家解决的是业务问题，而非技术问题。通过解决业务问题，你为公司的业务带来价值，而你所能带来的价值仅限于你的解决方案的价值。只有了解业务，你才能成功完成这项任务。

我在许多不同的行业工作过。每次在开始与业务接触之前，我都会大量阅读有关该行业的资料。

我从维基百科开始，了解了整体情况和相关公司。
我查看了行业前 10 家公司年度报告和投资者关系信息。
我阅读了过去几年关于这个行业和公司的所有新闻文章。
我联系了在这个行业工作的 LinkedIn 联系人。

只有到那时，我才开始与业务互动。

你的一半学习内容应包括行业和商业知识的发展。

#8 你没有持续和一致地学习和进修

很容易因为不理解主题而分心或早早放弃。学习数据科学是一个马拉松，而不是短跑。因此，建立一个持续和一致的学习例程至关重要。就像马拉松训练一样，你每天都在小单位进行训练。

如前所述，学习是循环的。曾经学习过的主题并不意味着你已经掌握它。

举个例子。在数学金融课程中，我必须学习许多极限定理。考试非常成功，我确信我理解了它们。但七年后，当我需要审查复杂结构金融产品的估值代码时，才恍若顿悟，意识到直到那时我才真正理解它。

因此，每天，或至少每周，预留几个小时用于学习。这无关你是有抱负的还是已经是高级数据科学家。

学习应包括新的数据科学主题、从不同视角（例如另一个课程或书籍）学习过的主题、新技术和技术趋势、行业和商业知识、数据可视化和数据讲故事，以及数据应用。

这增加了层层理解，在面试中，你将能够通过从不同角度展示整体视图来给出令人信服的回答。

#9 数据讲故事不足

在数据科学工作中，你将主要把你的发现传达给非技术人员，特别是业务人员。而业务部门为你的工作提供资金。如果没有他们的支持，你的工作和数据科学团队将不存在。

你的工作是为业务创造价值，而不是仅仅为了应用而应用华丽的方法。

我有一个朋友是全球一家银行的数据科学负责人。当他们招聘数据科学家时，他们会提前两周发送一个数据集，并要求做一个 20 分钟的演讲。没有进一步的指导。他们想看到讲故事的能力。他们不关心使用的方法——除非候选人对所用方法讲出绝对无稽之谈。他们想看到的是，首先是商业问题的框架及其解决的重要性。其次，应该解决什么，最后，如何解决以及在商业环境中的结果。“这是我们整天最重要的工作。候选人不必在这方面完美，但必须展示她/他理解我们工作的重点。”

所以，学习数据讲故事——甚至有免费的课程——并学习在商业背景下的数据可视化。

#10 自学而不与数据科学社区互动

许多人认为可以通过自己的努力学习数据科学。其他数据科学家被视为竞争者，人们不愿意交换知识。

但仅在你选择的世界中阅读和学习是高度偏颇的，许多关于某一主题或方法的观点被遗漏了。此外，关于某个话题的开放讨论和获得辩论经验的机会也缺失了——这是任何数据科学家都需要的技能。

任何有经验的招聘人员都知道在一两个问题之后，你是一个单打独斗的人，还是有一个活跃的网络帮助你获取知识。这对公司有益，并提高了你的市场价值和需求。

因此，发展一个网络至关重要。这可以通过参加训练营、黑客马拉松和 Meetup 会议来实现。

现在，你理论上知道了应该避免什么。

这些错误中的任何一个都可能成为你数据科学工作的障碍。

我知道你仍然会犯这些错误。我也不例外。人们天性会认为“我与众不同”——尽管数据却显示相反。但意识到这些潜在的错误将帮助你更快地调整路径，从而更有效地成为一个受欢迎的数据科学家。

你喜欢我的故事吗？这里可以找到更多。

逐步指导以提升你的就业机会

如何战略性地利用 Meetup 会议来获得你梦想的数据科学工作

2021 年 edX 数据科学微硕士项目终极指南

你应该选择哪六个项目中的哪个？

科技趋势及其对数据科学、机器学习和人工智能的影响

为你和你的职业制定的行动计划

个人简介：Isabelle Flückiger 是一位高级执行官，具有国际 C 级顾问经验，专注于端到端数字、数据和新技术转型项目，具有银行、保险、化学品、公用事业和制药/生命科学等关键行业经验。

原文。经许可转载。

相关：

如何在 6 个月内找到数据分析工作
初学者的十大数据科学项目
数据科学在 10 年内不会灭绝，你的技能可能会

10 种现代数据工程工具

原文：www.kdnuggets.com/2022/07/10-modern-data-engineering-tools.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

dbt

我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google Cybersecurity Certificate - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google Data Analytics Professional Certificate - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT Support Professional Certificate - 支持你组织的 IT

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

dbt 允许数据工程师使用 SQL 在仓库中建模和转换数据。它负责 ETL 的转换部分。

你可以使用 SQL 选择命令开发模型，进行测试、文档编写，并在安全的开发环境中部署。dbt 促进了 Git 支持的版本控制和团队协作。

按照 Intro to Data Build Tool (dbt) 教程创建你的第一个 dbt 项目。

Airflow

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Apache Airflow 是一个平台，允许数据工程师创建、调度和监控工作流。工作流可以是复杂的数据管道，由有向无环图（DAGs）任务组成。Airflow 会确保每个作业在特定时间以正确的顺序执行，并获得所需的资源。你还可以通过图形用户界面（GUI）监控和解决问题。

通过参加 Airflow 初学者课程了解更多关于 Airflow 的信息。

Snowflake

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Snowflake 是一个企业级云数据仓库。它允许数据工程师存储数据并执行分析任务，如 ETL。它会自动调整资源的规模，以优化成本而不牺牲性能。

Snowflake 包括托管基础设施、可扩展性、自动集群，并与 JavaScript、Python 和 R 等著名编程语言集成。它具有三层架构：数据库存储、查询处理和云服务。

通过在 YouTube 上观看简单教程了解更多关于 Snowflake 的信息。

BigQuery

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

BigQuery 是一个无服务器的云数据仓库，专为大数据集设计。在 BigQuery 中构建数据湖变得简单、快速且成本效益高。与 Data Studio 的集成允许数据工程师快速简单地可视化处理后的数据表。它包括 BigQuery ML、地理空间分析、BigQuery BI 引擎和连接的 Google Sheets。

BigQuey 允许你运行 PB 级别的 SQL 分析查询，以获得关键的商业洞察。

通过关注 Google Big Query 在 YouTube 上的教程来了解更多关于 BigQuey 的信息。

Metabase

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Metabase 是一个开源 BI（商业智能）工具，可以让你的团队提问并从数据中学习。你可以运行复杂的 SQL 查询，构建交互式仪表板，创建数据模型，设置警报和仪表板订阅。它还允许你分析数据仓库中的数据。Metabase 在开发者中相当受欢迎，在 GitHub 上有 29k 星。

通过关注 Metabase 在 YouTube 上的教程来了解更多信息。

Google Cloud Storage (GCS)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Google Cloud Storage 是安全且可扩展的对象存储，允许你保存图像、文档、电子表格、音频、视频甚至网站。你可以享受无限的存储空间，费用取决于你的使用情况。这对初创企业和中小企业非常有利。对象是存储在称为桶的容器中的不可变文件。桶与项目关联，你可以将项目分组到组织中。

通过关注 Google Cloud Storage 在 YouTube 上的教程来了解更多信息。

PostgreSQL

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PostgreSQL 是一个开源数据库，既可靠又灵活。它支持关系型和非关系型数据库。PostgreSQL 是最符合标准、稳定且成熟的关系型数据库。它提供性能优化和可扩展性，支持并发，支持多种编程语言，以及灾难恢复管理。

通过关注 Learn PostgreSQL 在 YouTube 上的教程来了解更多信息。

Terraform

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Terraform是由 HashiCorp 开发的开源 IaC（基础设施即代码）工具，允许你使用配置文件定义云资源和本地资源。这些文件可以进行版本控制、重用和共享。它使数据工程师能够对基础设施进行编码，并实施最佳的 DevOps 实践，如版本控制、持续集成和持续开发。

数据工程师可以在多个云平台上定义资源，创建和监控执行计划，最后按照正确的顺序执行操作。

通过观看Terraform 课程 - 自动化你的 AWS 云基础设施教程，了解更多信息。

Kafka

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Apache Kafka是一个开源事件流平台，允许数据工程师创建高性能的数据管道、流式分析和数据集成。超过 80%的财富 100 强公司使用它来构建实时流数据管道和应用程序。Kafka 允许应用程序高效且持久地发布和消费大量记录流。它具有高吞吐量、低延迟和容错能力。

通过观看学习 Kafka | Intellipaat教程，了解更多信息。

Spark

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Apache Spark™是一个开源的多语言数据处理引擎，适用于大规模数据集。它允许你在单节点或集群上运行数据工程、数据科学和机器学习过程。

Spark 的主要特点：

使用首选编程语言（Scala、Java、Python 和 R）进行批处理/流处理数据
快速的 SQL 分析
在 PB 级数据上进行探索性数据分析
开发和部署可扩展的机器学习解决方案

通过观看PySpark教程，了解更多信息。

结论

数据工程是增长最快、薪资最高的职业之一。美国顶尖科技公司每年支付给合格的数据工程师的薪资超过 177,000 美元 - indeed.com。要在数据工程领域成长，你必须学习和掌握需求量大的工具。

我仍在学习数据工程及其对数据驱动型公司的重要性。我提到的工具列表是由在顶尖科技公司工作的经验丰富的数据工程师使用的。

如果你是数据工程领域的新手，完成data engineering zoomcamp以了解工具、最佳实践和理论。这个 zoomcamp 将帮助你理解这些工具如何在典型的数据工程项目中协同工作。

Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士，热衷于构建机器学习模型。目前，他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一种 AI 产品，帮助那些与心理疾病作斗争的学生。