
机器学习算法和原理
文章平均质量分 76
robot_learner
留美博士,AI专家,《人工智能原理与实践》作者
展开
-
AutoGPT最近火出圈,却透露一个给我们的重要机会
虽然自动GPT和类似的AI技术的兴起可能会引起人们的担忧,在丧失工作机会和自动化各种任务的情况下,但我们应该记住:人类的创意是AI无法真正复制的关键。创意是人类经验的重要组成部分。它让我们能够想出创新的想法、解决复杂的问题并以独特的方式表达自己。随着AI不断进步并接管更多枯燥乏味的任务,创意的重要性只会增加。实际上,创意可能就是在自动GPT时代和以后取得成功的关键。通过培养和发展我们的创意,我们可以确保像自动GPT这样的AI模型继续拥有高质量、最新的信息。原创 2023-04-16 05:23:01 · 1985 阅读 · 2 评论 -
亚特兰蒂斯的回声(中文版): chatGPT 的杰作
在她的前任导师、神秘的兰登教授的指导下,在技艺高超的冒险家亚历克斯·默瑟的陪伴下,阿丽亚踏上了一段不可思议的旅程,将她从险恶的大海带到一个被遗忘已久的世界的隐秘角落。他们将一起探索亚特兰蒂斯迷宫般的秘密,对抗险恶的马拉卡勋爵,并解锁将他们束缚在过去、现在和未来的力量。阿丽亚、兰登和亚历克斯被领着穿过亚特兰蒂斯蜿蜒的街道来到一个宁静的庭院,在那里他们遇到了这座城市的三位杰出市民:埃拉拉,一位举止平静的天才治疗师,伊德里斯,一位年长的学者,眼睛里闪烁着智慧的光芒,和卡拉,一个凶猛的战士,具有强大的指挥能力。原创 2023-04-10 07:15:33 · 3283 阅读 · 0 评论 -
更多更长,1分钟总结新版GPT4的主要特点
最具颠覆性特点,相比之前chatGPT最多输入4000 tokens的字数限制,新版GPT4最多能让用户输入3万2千token(大概50页英文文字长度。所以写长篇小说没有问题了。原创 2023-03-15 08:30:55 · 5346 阅读 · 0 评论 -
AI一点通:一文讲清推荐系统的两塔系统(two tower system)
两塔推荐系统是一种在推荐系统中使用的协同过滤算法。它被称为“两塔”系统,因为它由两个神经网络或“塔”组成,这两个网络共同工作以为用户生成个性化推荐。原创 2023-02-27 07:11:36 · 1041 阅读 · 0 评论 -
AI头条-2023/02/25
洞见:LLaMA是来自Meta AI - FAIR的新型开源高性能大型语言模型。LLaMA-13B在大多数基准测试中优于GPT-3(175B)。由LLaMA生成的LLM主动提示在复杂的推理任务上处于最先进水平。洞见:在我们使用任何机器学习之前,生产力一直在快速提高,在过去10年中,我们从“几乎没有机器学习”到“机器学习无处不在”,而生产力保持不变。洞见:LLMs最有价值的应用之一是为用户生成文档样板,提高UX。洞见:使用工具对LLMs的提示注入威胁进行系统分析,使用计算机安全原则评估漏洞。原创 2023-02-26 08:18:12 · 254 阅读 · 0 评论 -
广告排名、平衡相关性和出价以获得最佳结果的一般规则
广告排名是在线广告中的一个重要方面,它影响展示广告的网站和创建广告的广告主。为了优化广告排名,网站需要平衡不同因素,如广告相关性和出价,以确保向用户展示最有价值和相关的广告。广告相关性是广告排名中最重要的因素之一。用户更有可能与与他们的兴趣、需求和搜索查询相关的广告互动。因此,网站需要评估广告的质量并优先考虑最相关于用户的广告。这可以通过使用算法来实现,该算法考虑了多个因素,如点击率、广告质量分数和用户人口统计信息。另一个需要考虑的重要因素是出价。原创 2023-02-23 09:41:55 · 284 阅读 · 0 评论 -
AlphaGo 和 ChatGPT有何相似之处? 附AlphaGo核心算法开源链接
AlphaGo 和 ChatGPT 是迄今为止最著名、最具开创性的两个 AI 系统之一。尽管它们被设计用于不同的目的,但它们共享一些重要的相似之处,包括使用深度学习、神经网络以及专注于达到人类水平表现等。而不久前, DeepMind 悄悄开源了AlphaGo的核心算法。原创 2023-02-17 09:33:23 · 6415 阅读 · 3 评论 -
AI一点通:使用 ColumnTransformer 转换 Pandas DataFrame 的一个或多个列
在处理表格数据时,常常需要对一个或多个列进行转换以使它们更适合于分析或建模。在许多情况下,可以使用 Pandas 库轻松完成这些转换。然而,在处理大型数据集或构建机器学习管道时,使用 scikit-learn 的 ColumnTransformer 类来将转换应用于数据的特定列可能更有效。原创 2023-02-15 11:06:51 · 1430 阅读 · 2 评论 -
ChatGPT 的未来挑战和风险
ChatGPT火爆全场,但是机遇和风险并存原创 2023-02-11 11:43:22 · 11051 阅读 · 2 评论 -
Python一点通: ‘python -m pip install’ 和 ‘pip install‘ 什么区别?
在 Python 中安装包可以使用包管理器 pip。有两种方法运行 pip 来安装包:python -m pip install 和 pip install。在本文中,我们将讨论这两者的区别。原创 2023-02-09 09:11:11 · 14359 阅读 · 2 评论 -
机器学习最好用的scikit-learn中的pipeline操作区别彻底搞清
scikit-learn 中的pipeline是一个实用程序类,可帮助将 ML 工作流的多个步骤组装到单个 scikit-learn estimator中。 pipeline由一系列转换或预处理步骤组成,然后是根据转换后的数据进行预测的estimator。 pipeline通过自动化转换数据和训练模型所涉及的步骤来帮助简化 ML 过程。 pipeline还确保数据在整个工作流程中得到一致处理,并有助于防止pipeline不同阶段之间的数据泄漏。 流水线类是封装整个机器学习流程的便捷工具,可以更方便地管理和共原创 2023-02-08 02:54:44 · 1171 阅读 · 1 评论 -
PySpark 中如何使用来自另一个数据框的列所在的独特值过滤数据框
AI日新月异,但是万丈高楼拔地起,离不开良好的基础。您是否有兴趣了解人工智能的原理和实践?不要再观望!我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。由该领域的领先专家撰写,这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。无论您是初学者还是经验丰富的 AI 从业者,本书都能满足您的需求。那为什么还要等?立即下单,开始以一种易于访问、引人入胜且实用的方式学习 AI。人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典。原创 2023-01-29 04:31:30 · 622 阅读 · 0 评论 -
使用深度学习嵌入和 FAISS 进行实时内存语义搜索
我们使用基于BERT的句子转换器对短文本进行编码,然后使用内存搜索引擎 FAISS 对结果进行索引;最终很容易的在 CPU 平台上实现语义搜索的实时查找。原创 2023-01-18 09:47:35 · 362 阅读 · 0 评论 -
关于GPT4,我们都知道什么?
我们生活在一个AI激动人心的时代,你会不停看到各种新型模型的推出,它们彻底改变了 AI 领域。2022 年 7 月,OpenAI 推出了DALLE2,这是一种最先进的文本到图像模型。几周后,Stability.AI 推出了 DALLE-2 的开源版本,名为Stable Diffusion。这两种模型都很受欢迎,并且在质量和理解提示的能力方面都显示出可喜的结果。原创 2023-01-16 02:42:30 · 8946 阅读 · 4 评论 -
ChatGPT 能干掉谷歌吗?
人工智能正在颠覆一切,甚至是数万亿美元的企业。原创 2023-01-09 01:14:47 · 1564 阅读 · 0 评论 -
如何利用深度学习中的AutoEncoder进行特征降维和特征可视化,pytorch代码
我们将使用 Pytorch 中的 AutoEncoder(自动编码器架构)来减少特征维度和可视化。首先,要安装 PyTorch,您可以使用以下 pip 命令,包含可在 PyTorch 中使用的图像数据集。原创 2022-12-20 11:33:22 · 2180 阅读 · 0 评论 -
GPT3动口,RT-1动手,智能机器人开卷; 代码开源!
为了进一步推动 RT-1,我们使用从另一个机器人收集的数据对其进行训练,以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据,这两者对于通用机器人学习模型都是可取的。具体来说,我们使用在QT-Opt 项目的固定底座Kuka 手臂上自主收集的 209k 次不加区别的抓握事件. 我们转换收集的数据以匹配我们使用 EDR 收集的原始数据集的动作规范和边界,并用任务指令“选择任何东西”标记每一集(Kuka 数据集没有对象标签)。原创 2022-12-16 12:05:31 · 1059 阅读 · 1 评论 -
最常见,难度系数高,码工面试题总结,试试你的算法水平?
下面是常见和较难的科技公司算法面试题总结,代码见文末。原创 2022-12-15 08:01:35 · 285 阅读 · 0 评论 -
免费搜索vs付费搜索:百度谷歌的有力竞争者刚刚出现!
搜索引擎的游戏刚刚被改变!人们对昨天(12月1号)OpenAI 发布的最新聊天机器人产品的反应非常积极。想要体验它的人数之多使网站崩溃了一整天,足以证明该产品的受欢迎程度。很明显,人们很高兴探索这项技术的潜力,并了解如何使用它来帮助改善他们的生活。多年来,谷歌和百度等搜索引擎巨头一直在努力更好地了解用户的意图。搜索引擎不再只是搜索特定的关键字,而是越来越原创 2022-12-03 12:36:58 · 1280 阅读 · 0 评论 -
AI内容生成时代:该如何和AI对话?
一幅新艺术风格的画作,画的是年轻漂亮的章子怡,身着中国传统朴素的高领绣花真丝长袍,面前是虎龙雕花屏风,繁复、细致、流畅、复杂、精致, 阿尔方斯·慕夏、詹姆斯·格尼和约翰·威廉·沃特豪斯)(翻译:年轻漂亮的棕色女人晚上带着她的狗在墨西哥梅里达的一个公园里散步,满月,插图,真实感,幻想,趋势。原创 2022-11-25 10:45:55 · 2065 阅读 · 0 评论 -
2022世界杯结果预测,简单AI模型最有效?附代码!
如果我们将此predict_points函数应用于小组赛阶段的所有比赛,我们将获得每个小组的第 1 和第 2 名,从而在淘汰赛中获得以下比赛对抗阵容。在我对欧洲前 4 联赛的预测中,我考虑了主客场因素,但由于在世界杯上几乎所有球队都在中立场地比赛,因此我在分析时没有考虑这个因素。在收集了 1930 年到 2018 年所有世界杯比赛的数据后,我可以计算出每个国家队的平均进球数和失球数。一旦我获得了每支国家队的进球数/失球数,我就创建了一个函数来预测每支球队在小组赛阶段将获得的积分数。这将我们带到下一点。原创 2022-11-21 03:16:35 · 12298 阅读 · 5 评论 -
AI图像合成技术如何用于数字营销和创意领域?
OpenAI 的 DALL·E 2 以及我们现在看到的其他许多基于 AI 的图像生成模型的进步无疑令人印象深刻,我认为它们在数字营销和创意领域中的作用更多的是支持,而不是对基于创意和营销的角色的直接威胁。在图像采购方面,ShutterStock、iStockPhotos 或 Unsplash 等库存照片库通常是流行的选择,但我们可能会看到人们越来越多地转向 DALL·E 2 之类的工具,以寻求更快、成本更低的替代方案,以及创建真正独特的图像,在网上其他任何地方都不存在。这是一个人从山谷中向外看的照片示例。原创 2022-11-04 21:14:46 · 1231 阅读 · 0 评论 -
9个小时即获超2千star, OpenAI最新开源语音识别模型,附链接
语音识别在人工智能和机器学习中仍然是一个具有挑战性的问题。为了解决这个问题,OpenAI 今天开源了 Whisper,这是一种自动语音识别系统,该公司声称该系统可以实现多种语言的“强大”转录以及从这些语言翻译成英语。无数组织已经开发出功能强大的语音识别系统,这些系统位于谷歌、亚马逊和 Meta 等科技巨头的软件和服务的核心。但据 OpenAI 称,Whisper 的不同之处在于它接受了从网络收集的 680,000 小时多语言和“多任务”数据的训练,从而提高了对独特口音、背景噪音和技术术语的识别能力。原创 2022-09-22 08:59:27 · 1856 阅读 · 0 评论 -
如何让Pandas操作加快100倍?
今天我们讨论三种在 Python 数据分析库 Pandas 中加速运算的方法。 Pandas 对于处理存储在电子表格和数据库中的表格数据非常有用。它提供了许多用于操作和转换数据帧或结构数据的功能。原创 2022-09-11 03:35:11 · 1363 阅读 · 0 评论 -
我对世界最聪明的AI写作家GPT3提问:AI写作的大规模使用会有什么风险?
GPT3 可以说是目前用于文本生成的最佳 AI 工具,这是一种使用深度学习生成类人文本的机器学习模型。原创 2022-08-12 10:07:44 · 813 阅读 · 0 评论 -
经典的机器学习columnTransformer 示例,用于预处理在线文章 SOV 预测的数据
数据中特征已经创建,理解这些特征名称就可以极大地帮助我们理解影响在线文章排名的因素。数据的具体构成如下原创 2022-07-16 23:53:19 · 1144 阅读 · 0 评论 -
超级好用的机器学习的超参数优化,OPTUNA,随机森林代码示例
对于一些流行的机器学习算法,如何设置超参数会极大地影响机器学习算法的性能。一种简单暴力的方法是遍历超参数空间的不同组合并选择最佳配置。 这称为网格搜索策略 (Grid Search)。 但是这种方法收敛速度非常慢。更好的方法是使用某种优化方法来优化我们的优化算法。 Optuna 和 Hyperopt 等工具在此发挥作用。在下文中,我们将使用 Optuna 作为示例,并将其应用于随机 森林 分类器。2. 使用 TfidfVectorizer 和 RandomForestClassifier 定义机器学习Pi原创 2022-07-03 10:35:57 · 3115 阅读 · 7 评论 -
智能风控建模全流程--看这篇就够了
信贷风控是数据挖掘算法最成功的应用之一,这在于金融信贷行业的数据量很充足,需求场景清晰及丰富。信贷风控简单来说就是判断一个人借了钱后面(如下个月的还款日)会不会按期还钱。更专业来说,信贷风控是还款能力及还款意愿的......原创 2022-06-21 07:45:38 · 3806 阅读 · 0 评论 -
人工智能原理与实践,北大出版社
人工智能被广泛应用和普及,极大地提高了人们学习和工作的效率。而要深入理解人工智能,必须全面理解底层各类机器学习算法的基本原理。只有全面掌握机器学习的基础知识,才能更好地理解、提高和驾驭人工智能的各种应用。本书分为13章,前7章为原理篇,重点讨论了机器学习模型建模的全部流程、各类常用的机器学习算法原理、深度学习和强化学习、机器学习涉及的优化原理,以及自然语言处理算法原理;后 6章为实践篇,重点讨论了信用卡客户细分、保险公司时间序列生活事件预测、电商网站交易欺诈预测、信用卡和信用贷款风险预测、美国旧金山房屋成交原创 2022-06-15 08:18:48 · 347 阅读 · 0 评论 -
读后感:人工智能原理与实践
为什么这真是一本难得的好书?请往下看。人工智能被广泛应用和普及,极大地提高了人们学习和工作的效率。而要深入理解人工智能,必须全面理解底层各类机器学习算法的基本原理。只有全面掌握机器学习的基础知识,才能更好地理解、提高和驾驭人工智能的各种应用。本书分为13章,前7章为原理篇,重点讨论了机器学习模型建模的全部流程、各类常用的机器学习算法原理、深度学习和强化学习、机器学习涉及的优化原理,以及自然语言处理算法原理;.........原创 2022-06-14 10:27:40 · 184 阅读 · 0 评论 -
简单又强大:基于深度学习的短文本向量嵌入方法
SentenceTransfomer是一个基于Sentence-BERT开发的Python框架,可以为句子和短文本产生高质量的嵌入向量。包括英文和中文的许多语言都支持。同BERT模型相比,sentencetransformer运用更加简单,传入文本既可直接获得向量。安装推荐 Python 3.6或者更高版本, PyTorch 1.6.0 或者更高版本 ,以及huggingface开发的transformers v4.6.0或者更高版本. Python2.7的环境不会工作。有时候,安装可能不成功,可能是原创 2022-04-11 01:59:37 · 2983 阅读 · 0 评论 -
必读:数据科学家最常用的几个Python库
好的代码库就是好用的工具箱,无论是新手,还是数据科学高手,学习这些库能让你更有效率。下面是对一些最流行的数据科学和机器学习的 Python 库的基本介绍。1、Scikit-learn这是最基础和流行的机器学习的 Python 库。事实上,Scikit-learn 是机器学习的主要库。它有用于预处理、交叉验证和其他类似目的的算法和模块。其中一些算法涉及回归、决策树、集合建模和非监督学习算法,如聚类。项目地址:https://github.com/scikit-learn/scikit-learn原创 2022-03-14 02:36:51 · 5559 阅读 · 2 评论 -
超实用的机器学习中的短文本数值特征方法:字符级n-gram和TF-IDF方法并用
在应用机器学习算法来处理单词或短文本时,我们通常需要首先获取它们的数字嵌入向量。一些强大的方法包括使用预训练的深度学习模型(例如 BERT)来进行更多语义嵌入。如果计算资源有限,或者我们想要更简单的嵌入方法,我们可以尝试 TF-IDF 指标。这里我们介绍一种非常简单的方法,将字符级别的 n-gram 方法和 TF-IDF 结合起来,将诸如几个单词之类的短文本转换为数字向量。在数字向量中,我们可以进一步将分类方法(例如梯度提升机)应用于下游任务。首先,让我们回顾一下什么是 n-gram:引用 Wiki原创 2022-01-16 13:08:44 · 1660 阅读 · 0 评论 -
利用python解决线性规划最优化问题
运筹学是一种科学的决策方法,通常在需要分配稀缺资源的条件下寻求系统的最佳设计和操作。决策的科学方法需要使用一个或多个数学/优化模型(即实际情况的表示)来做出最佳决策。一个优化模型试图找到值决策变量即优化(最大化或最小化)的目标函数设定为满足给定的决策变量的所有值中的约束。它的三个主要组成部分是:目标函数:要优化的函数(最大化或最小化)决策变量:影响系统性能的可控变量约束:决策变量的一组约束(即线性不等式或等式)。非负约束将决策变量限制为取正值(例如,您不能生成负数的项目x 1、x 2 和x 3)。原创 2021-12-30 12:29:30 · 6276 阅读 · 0 评论 -
利用Pytorch中深度学习网络进行多分类预测(multi-class classification)
从下面的例子可以看出,在 Pytorch 中应用深度学习结构非常容易执行多类分类任务。 在 iris 数据集的训练表现几乎是完美的。import torch.nn as nnimport torch#import matplotlib.pyplot as plt import pandas as pdfrom sklearn.datasets import load_irisimport numpy as nptorch.manual_seed(1121)<torch._C.G原创 2021-12-27 13:25:51 · 7814 阅读 · 0 评论 -
10个有趣的AI项目,让你的简历与众不同!
作为人工智能爱好者和应用者,如果能实现下面的10个有趣项目会让你的工作经验脱颖而出!无论是人工智能的初学者,还是经验丰富的专家,积极的通过研究有趣的项目,从而提升自己的专业水平,对于职业发展都是大有裨益的。使用NLP自然语言技术生动商务会议摘要面对一份几十页的报告,是不是所有人都会想要一个好的摘要,而不是花一天时间才能了解大概?我们在高中和上大学时就可能遇到了这样的情景,我们花了很多时间来准备一份完整的报告,但是老师只有时间阅读摘要。好的总结已成为解决大数据过载问题的一...原创 2021-02-22 04:11:06 · 3863 阅读 · 0 评论 -
未知数数量大于方程数量,如何求解,附Python 代码
未知数如果大于方程数量,意味着限制少于自由度,方程要么无解,要么有无穷个解。怎么办?我就要部分答案,只要满足方程限制就行?示例如下:import sympy as spx, y, z = sp.symbols('x, y, z')eq1 = sp.Eq(x + y + z, 1) # x + y + z = 1eq2 = sp.Eq(x + y + 2 * z, 3) # x + y + 2z = 3ans = sp.solve((eq1, eq...原创 2021-01-24 14:28:03 · 6243 阅读 · 1 评论 -
数据科学和商业的完美结合(1),A/B测试到底测什么?
试想一下,你的公司在网上有一款产品销售。进行了各种网页优化和促销以后,产品经理告诉你,就差最后一步的“点击购买”按钮不确定是不是放对了位置。 网页上商品的“购买“按钮,一直放在商品左下方: 但是产品经理了解到,一般用户的心理行为是倾向于把要执行的动作放在右边。因此,一种新的设计是这样的:两种方案哪个好?作为数据科学工程师的你,毫不犹豫:“做个A/B测试吧“。 A/B测试,从统计上来说是一种假设检验(Hypothesis Test)...原创 2021-01-24 11:39:03 · 247 阅读 · 0 评论 -
每个数据科学家都应该知道这5种算法!
每个数据科学家,或者机器学习工程师都应该知道这5个机器学习算法,直到滚瓜烂熟的地步。这些算法的基本原理,我们在之前的文章中都详细讨论过,大家有时间可以翻出来温故而知新!机器学习(ML)是一种使分析模型构建自动化的数据分析方法。它是技术的一个分支,它使计算机系统可以从大量数据中学习,识别图像和文本中的模式并以最少的人工干预就可以做出统计决策。在最基本的意义上,机器学习使用预编程的算法来接收和分析输入数据,以预测可接受范围内的输出值。随着将新数据馈入这些算法,他们将学习并优化其操作以提高性能,并随.原创 2021-01-04 06:22:39 · 342 阅读 · 1 评论 -
AI换脸,流行一阵儿了;其中原理你一定也明白!
两三年前,有人在网上第一次发布了把影视名人的脸换到各种场合的视频中的时候,大家都是目瞪口呆的。这个作假的水平太高了,肉眼基本上看出端倪。各种各样的应用和娱乐很快流行起来,也掀起了关于隐私和道德的口水战。虽说今天真正赚钱的应用,除了某类小视频以外并不太多,但这并不影响大家对技术的追求和场景的多元化。这个AI换脸的技术一般叫做 “deepfake”(深度做假)。有了这个利器,你可以把任何视频里面的人物,替换成为名人或者你中意的人物。对于视频中的每一帧图片,只需要3个步骤:检测...原创 2020-07-19 06:31:21 · 5460 阅读 · 0 评论