自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不可能打工的博客

算法工程师的自我修养

  • 博客(101)
  • 收藏
  • 关注

原创 《单干:成为超级个体的49个关键动作》第2章

[第2章] 变现篇 个体商业的极简变现法章节概述本章介绍了个体商业的极简变现方法,强调了稀缺性和杠杆的重要性,并提供了具体的变现策略和案例。关键内容挣钱的重要性提高挣钱能力是个人发展的关键。商业思维中,个人应关注如何为自己挣钱。变现的极简方法通过稀缺性和杠杆来提升个人价值。将个人能力转化为产品或服务进行销售。变现策略一份时间卖多次,通过产品化实现。利用商业基...

2025-01-06 17:46:43 248

原创 《单干:成为超级个体的49个关键动作》第1章

[第1章] 认知篇 为什么单干能实现财富自由章节概述本章探讨了单干能够实现财富自由的原因,分析了商业基础设施的完善、内容杠杆和节点经济的作用,以及人工智能对个人职业选择的影响。关键内容商业基础设施的完善个人可以通过第三方工具轻松实现产品销售和推广。内容创作和社交媒体的兴起为个人提供了更广阔的市场空间。内容杠杆和节点经济内容能够放大个人价值,吸引潜在客户。节点经济通过连接...

2025-01-06 17:45:47 439

原创 【量化交易框架】--- Backtrader 最佳实践文档

概述Backtrader 是一个用 Python 编写的流行的策略回测框架,它提供了一个灵活的环境来测试和评估交易策略。以下是使用 Backtrader 进行策略回测的最佳实践。安装首先,确保安装了 Backtrader。可以通过 pip 安装:pip install backtrader快速入门以下是一个简单的策略回测示例,它展示了如何使用 Backtrader 创建一个策略并运行回...

2024-12-18 19:54:11 477

原创 Pandas rolling()函数解析

Pandas 的 rolling() 函数用于在数据框或系列上创建一个滚动窗口(滑动窗口),这对于计算移动平均、移动总和等统计量非常有用。rolling() 函数通过在指定的窗口大小上应用某种聚合函数来实现这些操作。基本用法rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, method...

2024-12-02 19:31:44 373

原创 《社群领导力:独自成长的时代已经结束》读书笔记

中心思想:《社群领导力:独自成长的时代已经结束》这本书的中心思想是,随着社交媒体和数字化技术的崛起,传统的独自成长的时代已经结束,取而代之的是社群的时代。在这个时代,个人的成长和成功不再是孤立的,而是依赖于与他人的合作、互助和共享。因此,社群领导力成为了一种重要的能力,能够帮助个人在社群中取得成功并推动社群的发展。主要观点和论证:社交媒体和数字化技术的崛起改变了人们的交流方式和社会结构。现...

2023-08-08 17:31:14 99

原创 NLP最重要的编码方式--BPE

今天想简单聊聊在自然语言处理领域用得比较多,像BERT,GPT等自然语言模型都会用到的技术,BPE,全称是Byte Pair Encoding。这个技术呢,在面试实习生过程中,发现其实很多学生不太能解释清楚,所以我打算自己也沉淀一下。为啥要BPE编码?现在的语言模型BERT,GPT,LLaMa等等,在预训练的时候都得tokenization。最简单的一种tokenization,就是把每个单...

2023-07-17 11:12:27 700 1

原创 【面试题】去除字符串中的空格

用python作答下题,不可使用strip和re:给定一个字符串S,去除S首尾的空格,并将字符串中间连续的多个空格替换为1个空格,返回处理后的字符串。GPT4作答def remove_extra_spaces(s): # 初始化一个空列表来存储单词 words = [] # 初始化一个空字符串来存储当前的单词 word = '' # 遍历字符串中的每个字...

2023-07-14 16:04:40 73

原创 奖励模型Reward Model如何训练?

image.png如上图所示,ChatGPT 并不是直接让人工去标注每一句话的真实得分是多少(尽管模型最终要预测的就是每句话的得分),而是让人去对 4 句话按照好坏程度进行「排序」。通过这个「排序序列」,模型将会学习如何为每一个句子进行打分,用「相对任务」替代「绝对任务」能够更方便标注员打出统一的标注结果。Rank Loss假定现在有一个排好的序列:A > B > C...

2023-06-14 11:14:22 2330

原创 【面试题】拿球游戏的得分期望

题目袋子里有10个红球和10个黑球,游戏规则是:拿到红球得1分,拿到黑球减1分,进行无放回拿20次,当你发现继续拿球不利于得分时,可以提前终止比赛,请计算得分的期望。解答为了计算得分的期望,我们可以使用动态规划(Dynamic Programming)的方法。我们定义一个三维数组dp[i][j][k]表示在剩余i个红球、j个黑球和剩余k次抽取机会时的期望得分。我们的目标是计算dp[10...

2023-06-13 21:06:13 51

原创 hugging face预训练模型本地读取指南

使用Hugging Face的Transformers库来下载预训练模型bert模型时。以下是下载和使用该模型的示例代码:from transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese')model = BertModel.from_p...

2023-05-25 16:59:52 5139 2

原创 《能力陷阱》读书笔记

《能力陷阱》这本书的主旨是探讨在职场和生活中,人们如何陷入“能力陷阱”中,以及如何避免和克服这种陷阱。作者讲述了一个人在职场中获得成功的过程中,最初是因为他们拥有一定的技能和能力,但是随着时间的推移,他们可能会陷入“能力陷阱”中。这种陷阱是指一个人在某个领域或职位上表现出色,但由于过度依赖自己的能力,他们不愿意或无法学习新的技能和知识,因此无法适应新的环境和挑战。作者指出,当一个人陷入能力陷阱...

2023-05-22 19:36:10 66

原创 关键词提取方法

关键词的提取,也可以称之为文本标签提取。 比如说,”今天这顿烧烤是真不错啊“,在这句话中,”烧烤“这个词就可以被认为是一个关键词,或者说这个句子的一个标签。 这个标签在一定程度上能够表现出这个句子的含义,比如这个”烧烤“,如果用在文本分类任务中,可以隐含带有”美食“这个类别的信息。 这些标签有些时候也可以用在推荐系统的召回,比如直接按照”烧烤“这个标签做一路召回。对于关键词的提取一般来说分为抽取...

2023-04-07 10:58:30 233

原创 中文分词-基于词典的正向最大匹配和逆向最大匹配

中文分词中基于词典的正向最大匹配和逆向最大匹配正向最大匹配和逆向最大匹配步骤类似,只是方向不同,我以正向匹配为例,先用一句话去总结它:在做整个正向成词的过程中,我们做了两个步骤,首先按照字典最大长度进行对原始文本进行切分,然后逐渐去掉右边一个单字,去查看剩余文本在字典是否存在,依次迭代。上面这句话只看不太好理解,我来个简单的例子,如下:我要被切分的句子是这样的:”今天天气真不错啊“我的字...

2023-04-06 16:25:00 135

原创 深度学习中优化器optimizer对比

优化器是深度学习领域的重要组成模块之一,执行深度学习任务时采用不同的优化器会产生截然不同的效果。这也是研究者们不遗余力「炼丹」的原因之一。常见的优化算法包括梯度下降(变体 BGD、SGD 和 MBGD)、Adagrad、Adam、Momentum 等,如此繁多的优化器应该如何做出抉择呢?为机器学习项目选择好的优化器不是一项容易的任务。流行的深度学习库(如 PyTorch 或 TensorFLow...

2023-02-24 20:29:40 1893

原创 结构化数据模型之GBDT vs NN(下)

导语 不同于深度学习在CV\NLP领域(处理非结构化数据的问题)上的绝对统治力,在结构化数据建模问题中,基于Boosting思想的GBDT树模型仿佛依然是最简单有效的模型。本文将从解决结构化数据问题出发,介绍GBDT树模型以及近年出现的深度模型,探寻是否深度学习已经可以替代GBDT?本文分为上下两篇,上篇主要介绍一些基本概念和GBDT树模型,下篇则介绍针对结构化数据的深度模型。随着深度学习...

2022-12-12 11:13:56 1082

原创 结构化数据模型之GBDT vs NN(上)

导语 不同于深度学习在CV\NLP领域(处理非结构化数据的问题)上的绝对统治力,在结构化数据建模问题中,基于Boosting思想的GBDT树模型仿佛依然是最简单有效的模型。本文将从解决结构化数据问题出发,介绍GBDT树模型以及近年出现的深度模型,探寻是否深度学习已经可以替代GBDT?本文分为上下两篇,上篇主要介绍一些基本概念和GBDT树模型,下篇则介绍针对结构化数据的深度模型。什么是结构化...

2022-12-12 11:05:28 1175

原创 「动态规划」高频题-解题思路

53.最大子数组和#dpi代表以nums[i]为结尾的最大子数组和,if dpi>0 then dpi+1=dpi+nums[i+1] else dpi=nums[i+1]#res=max([dp0,dp1,...,dpn])dp=nums[0]ans=nums[0]for i in range(1,len(nums)): if dp>0: dp+=...

2022-11-07 17:27:00 131

原创 OPTUNA+LIGHTGBM自动化调参

最近在kaggle上有一个调参神器非常热门,在top方案中频频出现,它就是OPTUNA。知道很多小伙伴苦恼于漫长的调参时间里,这次结合一些自己的经验,给大家带来一个LGBM模型+OPTUNA调参的使用教程,这对可谓是非常实用且容易上分的神器组合了,实际工作中也可使用。关于LightGBM不多说了,之前分享过很多文章,它是在XGBoost基础上对效率提升的优化版本,由微软发布的,运行效率极高,且准...

2022-10-24 10:54:38 1620 1

原创 docker基础知识

什么是dockerDocker 在容器的基础上,进行了进一步的封装,从文件系统、网络互联到进程隔离等等,极大的简化了容器的创建和维护。使得 Docker 技术比虚拟机技术更为轻便、快捷。Docker 和传统虚拟化方式的不同之处:传统虚拟机技术是虚拟出一套硬件后,在其上运行一个完整操作系统,在该系统上再运行所需应用进程;而容器内的应用进程直接运行于宿主的内核,容器内没有自己的内核,而且也没...

2021-09-13 20:54:26 195

原创 hive随机采样

数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢?假设有一张包含100亿行的Hive表,希望有效地随机抽样一个固定行数的数据 - 比如10000。最明显(而且显然是错误的)的方法是:select * from my_tablelimit 10000;如果不对表进行排序,Hive不保证数据的顺序,但在实践中,它们按照它们在文件中的顺序返回...

2021-09-07 10:31:36 1235

原创 【LeetCode】岛屿类问题的通用解法--DFS遍历框架

在 LeetCode 中,「岛屿问题」是一个系列系列问题,比如:岛屿数量 (Easy)岛屿的周长 (Easy)岛屿的最大面积 (Medium)最大人工岛 (Hard)我们所熟悉的 DFS(深度优先搜索)问题通常是在树或者图结构上进行的。而我们今天要讨论的 DFS 问题,是在一种「网格」结构中进行的。岛屿问题是这类网格 DFS 问题的典型代表。网格结构遍历起来要比二叉树复杂一些,如...

2021-06-22 16:45:26 347

原创 【LeetCode】排序算法专题

1. 三种低级排序冒泡排序每一趟选出一个最大值,排在最后一个时间复杂度:o(n2)def bubble_sort(alist): n = len(alist) for i in range(n-1,0,-1): count = 0 for j in range(i): if alist[j] > alist[j+...

2021-06-17 19:08:44 300 1

原创 embedding之word2vec

1. 什么是Word2Vec和Embeddings?Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。那么它是如何帮助我们做自然语言处理呢?Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射,将单词从原先所属的空间映射到新的...

2021-04-20 15:51:26 596

原创 Greedy NLP Learning Notes(六)信息抽取

1. 目录信息抽取目录从非结构化文本中进行信息抽取从非结构化文本中进行信息抽取非结构化数据:图像、文本、视频、声音结构化数据:数据表信息抽取分为实体抽取与关系抽取信息抽取分为实体抽取与关系抽取信息抽取示例信息抽取示例NER识别实体关系分析:分析每个实体之间的关系指代消解 :it is located right 中的...

2021-04-19 16:53:26 202

原创 图论与图学习(三):使用python来学习graph

图正成为机器学习的核心,可以通过了解社交网络的结构来预测潜在联系,检测欺诈,了解客户的汽车租赁服务行为或进行实时推荐。在本文中,我们将介绍:图学习算法使用python来实现图接下来,打开一个Jupyter Notebook并导入以下包:import randomimport networkx as nxfrom IPython.display import Imageimp...

2021-04-02 21:13:14 4021

原创 图论与图学习(二):图算法

图(graph)近来正逐渐变成机器学习的一大核心领域,比如你可以通过预测潜在的连接来理解社交网络的结构、检测欺诈、理解汽车租赁服务的消费者行为或进行实时推荐。近日,数据科学家 Maël Fabien 在其博客上发布了涉及图论、图算法和图学习的系列文章《图论与图学习》。本文是其中第二篇,介绍了图算法。更多文章和对应代码可访问:https://github.com/maelfabien/Mach...

2021-04-02 20:23:01 775

原创 Hive中常用的字符串操作

一、准备创建虚表:echo "X" >> dual.tsvhadoop fs -put dual.tsv '/data//'create table dual(dummy string);load data local inpath '/data//dual.tsv' overwrite into table dual;二、应用字符串长度函数:length语法:...

2020-12-29 14:37:56 1544

原创 Greedy NLP Learning Notes(五)Language model语言模型

1. noisy channel modelnoisy channel modelnoisy channel model基于贝叶斯定理noisy channel model的应用机器翻译与拼写纠错语言识别与密码破解2.language model语言模型语言模型的概念语言模型的概念语言模型的目标语言模型的目标...

2020-11-27 14:25:11 228

原创 python中实现函数不限制参数的数量

我们在写Python代码的时候,有的时候需要设计一种函数,这种函数的参数个数不确定,或者说要求函数的参数不限个数,只有在函数被调用的时候,才能确定参数的数量。本文介绍如何实现这样的函数参数接口的设计。tuple参数(*args)我们在设计函数参数的时候,如果使用一个*符号后跟字母,表示这是一个tuple参数,tuple内数据的个数,就不限制了。我们来设计一个简单的函数,这个函数的作用就是将t...

2020-11-25 15:18:41 5504

原创 Greedy NLP Learning Notes(四)词向量

1.词向量的优势https://www.jianshu.com/p/d3774bc82124上文提到,one-hot编码存在无法衡量单词相似性与向量过于稀疏的缺点,本文介绍词向量。从one-hot representation到distributed representation100维one-hot编码最多可以表示100个单词100维distributed编码可以表达无限个单词...

2020-11-25 10:19:48 125

原创 孤立森林(Isolation Forest)从原理到实践

异常检测离群点是在给定数据集中,与其他数据点显著不同的数据点。异常检测是找出数据中离群点(和大多数数据点显著不同的数据点)的过程。离群点真实世界中的大型数据集的模式可能非常复杂,很难通过查看数据就发现其模式。这就是为什么异常检测的研究是机器学习中极其重要的应用。孤立森林原理孤立森林(Isolation Forest)于2008年由西瓜书作者周志华团队提出,凭借其线性的时间复杂度...

2020-11-20 17:07:13 11749 4

原创 DEEP GRAPH INFOMAX 阅读笔记

DGI: Deep Graph Infomax 阅读笔记论文来源:2019 ICLR论文链接:Deep Graph Infomax论文原作者:Petar Veličković, William Fedus, William L. Hamilton, Pietro Liò, Yoshua Bengio, R Devon Hjelm代码链接:https://github.com/PetarV-...

2020-10-23 11:33:42 1335

原创 python中unix时间戳、字符串、datetime之间的转换

1. 将python的datetime转换为unix时间戳import timeimport datetimedtime = datetime.datetime.now()ans_time = time.mktime(dtime.timetuple())</pre>2. 将unix时间戳转换为python的datetimeimport datetimeunix_ts =...

2020-10-15 11:41:07 5972

原创 tmux使用教程

tmux是一个 terminal multiplexer(终端复用器),它可以启动一系列终端会话。我们使用命令行时,打开一个终端窗口,,会话开始,执行某些命令如npm run dev,关闭此终端窗口,会话结束,npm run dev服务会话随之被关闭。有时我们希望我们运行的服务如npm run dev 或者一些cd命令等,被保留,而不是关闭窗口再打开后,重新手动执行。tmux的主要用途就在于此。...

2020-10-14 20:02:47 403

原创 图论与图学习(一):图的基本概念

图(graph)近来正逐渐变成机器学习的一大核心领域,比如你可以通过预测潜在的连接来理解社交网络的结构、检测欺诈、理解汽车租赁服务的消费者行为或进行实时推荐。近日,数据科学家 Maël Fabien 在其博客上发布了涉及图论、图算法和图学习的系列文章《图论与图学习》。本文是其中第一篇,介绍了图的一些基础知识并给出了 Python 示例。更多文章和对应代码可访问:https://github....

2020-10-13 11:47:31 946

原创 一文精通linux定时任务crontab

此篇技术博文主要介绍的是crontab,Linux下的计划任务管理工具。涉及内容包括crontab使用配置、常见坑的分析和个人总结的错误调试方法。我的理解,后台任务通常分为两种:常驻和定时。之前的文章《pm2进程管理工具使用总结》主要针对的是常驻任务。今天来谈谈crontab,主要针对的是定时任务。我的实验环境:centos7。介绍crontabcrontab的服务进程名为crond,英文意...

2020-09-28 09:57:46 554

原创 Transformer最全解析(attention is all you need)

Transformer出自google,被广泛应用于NLP的各项任务中,在transformer基础上改进优化的BERT模型在2019年11项NLP任务中表现SOTA。论文原文:https://arxiv.org/pdf/1706.03762.pdf《attention is all you need》CNN、RNN、DNN的局限性在处理变长的序列问题时,一般的做法是利用卷积神经网络或循环神...

2020-09-15 20:17:22 1574

原创 gensim实战之利用维基百科训练word2vec

word2vec2013年提出的word2vec的方法是一种非常方便得到高质量词向量的方式,其主要思想是:一个词的上下文可以很好的表达出词的语义,它是一种通过无监督的学习文本来用产生词向量的方式。word2vec中有两个非常经典的模型:skip-gram和cbowcbow:已知周围词,预测中心词。skip-gram:已知中心词,预测周围词。cbow VS. skip-gra...

2020-09-14 20:50:55 1022

原创 常用正则表达式大全

一、校验数字的表达式1. 数字:^[0-9]*$2. n位的数字:^\d{n}$3. 至少n位的数字:^\d{n,}$4. m-n位的数字:^\d{m,n}$5. 零和非零开头的数字:^(0|[1-9][0-9]*)$6. 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7. 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2...

2020-09-10 11:11:29 77

原创 一文看懂Word2vec

什么是 Word2vec ?Word2vec 的 2 种训练模式Word2vec 的优缺点百度百科一文看懂Word2vecWord2vec 是 Word Embedding 方式之一,属于 NLP 领域。他是将词转化为“可计算”“结构化”的向量的过程。本文将讲解 Word2vec 的原理和优缺点。这种方式在 2018 年之前比较主流,但是随着 BERT、GPT2.0 ...

2020-09-07 11:00:45 691

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除