自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 Rdis速通

上面客户端连接到服务器之后我们可以开始进行操作了,因为redis的存储方式是基于内存的,所以速度很快,存储方式是Key-Vaule类型的,所以语法也比较简单。而且在客户端下可以还有有语法提示,非常的银杏。

2025-01-02 16:23:25 305

原创 Vscode进行github协从操作

然后就是正常的提交流程即可,注意左下角我们可以看见当前用的是哪个分支,所以提交的时候默认是左下角的分支提交的,不过提交的时候会让你再确认一次分支的,这个时候也可以修改(当前我们就只有12-27和main分支)蓝色和云就表示当前所属的分支,origin就是在主分支下进行的修改,什么都没有的main就是初始版本,点不同的分支就可以看见他和原版本的差异在哪里。合并分支的时候要先选定主分支,也就是在左下角选main,然后合并的时候选你要合并的分支即可。修改完之后,我们要先提交一次,之后才可以推送。

2024-12-28 00:52:37 540

原创 Hadoop之路---hive安装与配置

我们说完了hadoop的安装配置全流程,现在让我们来安装一下hive,他是基于hadoop的数据仓库,实质即为一个将MR任务封装为易于编写的hql语句(类似于sql语句)的组件。安装hive的前提是你要先安装jdk,hadoop,mysql。

2024-05-07 14:28:05 403 1

原创 Hadoop之路---伪分布式环境搭建

hadoop更适合在liunx环境下运行,会节省后期很多麻烦,而用虚拟器就太占主机内存了,因此后面我们将把hadoop安装到wsl后进行学习,后续学习的环境是Ubuntu-16.04 (千万强调,有的命令一定要加sudo!千万强调,有的命令一定要加sudo!千万强调,有的命令一定要加sudo!

2024-04-26 11:43:32 759 7

原创 easyocr

刚刚还想更新之前使用的paddleocr,但是发现他的whl文件网站崩了,估计就是最近的事,因为网上所有主流的讲解paddleocr的都用的同一个网站,没办法我顺便也试试github上有没有其他效果稍好的ocr吧。缺点是:图片识别质量不如paddleocr,而且对于倾斜的图片,基本上会识别为乱码。他的优点是:下载安装简单。

2024-04-07 15:00:22 481

原创 Docker,anaconda环境的部署与迁移

docker环境部署

2024-04-03 17:56:22 1103

原创 使用paddleocr的坑

之后重新创建新的环境,安装python==3.8再来一遍 【重新选取对应whl文件,确认文件名是否可用】选定下载paddleocr==2.2时报错。之后是可以了,但是出现了新的问题。

2024-03-22 09:50:36 719

原创 NLP:bert下载与使用

这是bert的改进算法,据他们介绍RoBERTa-wwm-ext-large,效果是最优的,因此之后我将更新如何下载使用RoBERTa-wwm-ext-large。没办法,模型精度还是不够,只能暂时弃用text2vec。具体解决办法可以参考上一节的。事实证明还得是老大哥好使,运行的效果确实比之前的要好很多。

2024-03-11 17:20:51 552

原创 NLP:文本相似度计算

下面介绍一下文本相似度计算。,事实上网上通用的是word2vec,但是他要求自己训练模型,而且github上的流程我没看得懂,所以我就在github上找了别人现成的模型来使用。之后如果有闲工夫的话,我还是想利用word2vec来训练一个自己的模型,毕竟数据摆在这里,不用而去调别人现成的模型,多少是不会满足特定场景的需求。(当然HanLP也有文本相似度计算的方法,这里我应该上一节也说过,但是使用之后效果并不理想,因此,我们要换其他的方法)可以发现,联想的效果还是有的,至少在我当前的需求下,它是完全够用的。

2024-03-10 16:08:43 1043

原创 NLP:HanLP的下载与使用

昨天说到要做一个自定义的训练模型,但是很快这个想法就被扑灭了,因为这个手工标记的成本太大,而且我的上级并不是想要我做这个场景,而是希望我通过这个场景展示出可以接下最终需求的能力。换句话来说:可以,但是没必要。,coarse为粗分,fine为细分。

2024-03-08 17:16:00 1152

原创 NLP:自定义模型训练

下面放一张跑的效果图,因为我数据只用了几个,所以他报错训练集容量太小,这个我之后得慢慢把数据提取出来才行(这个时候才知道数据标记的繁琐性)。代码修改我就不放了,CSDN我会常登,大家关注并私聊我,或者直接加q群(681511486)我过一段时间会发哈。用的模型是中文模型,但是文档的语言用的则是英文,所以他就检测冲突了,只需要把lang的值修改为"zh"即可。要不是我看了好几遍,我真找不到这玩意下载键在这个旮旯里。书接上文,为了完成指定的任务,我们需要额外训练一个特定场景的模型。json数据修改如下。

2024-03-07 15:59:02 737

原创 NLP:spacy库安装与zh_core_web_sm配置

这一步非常重要,因为只有确定了他的版本号,才可以往后面去下载spacy,因为你如果后面两个版本对不上,执行代码的时候就会显示找不到zh_core_web_sm。而且注意版本最好不要太低,我一开始安装的是3.1.0的,但是后面安装spacy的时候就安装不上了(会报下面的错),最后换成3.7.0的就好了。反正给机会了就上吧,我就一臭实习的,怕个啥。(这里最好使用anconda创建一个新的虚拟环境,防止串包,因为下载的东西有点多。到公司来第一个项目竟然是偏文本信息抽取与结构化的,(也太高看我了┭┮﹏┭┮)

2024-03-06 17:14:41 4888

原创 leetcode c++ 超出内存限制

但是如果刷leetcode都会超出内存限制的话,可能本身你写的代码就不太行,比如说在我不改变代码本身,只换用全局变量的情况下,占用内存依旧很大。如果只是变量的变化实现的话,+=或者-=就可以了,不需要写成A=A+x的形式,那样会重新开辟一块内存。给两个主要原因,这两个原因,如果在递归或者循环里就很容易导致内存超出限制。值传递也是会开辟内存的,解决办法要么是用全局变量,要么是改为引用传递。

2024-02-02 17:38:29 1758

原创 QTcreator安装的坑

其次就是清华源在下载的在下载中会有报错,这里换用其他源进行下载。之后下载完成之后,可以创建属于自己的项目,这里有个注意点。这里必须要把框√上,不然跑项目的时候会出现下面的错误。首先就是在cmd里输命令的时候要加./,不然会报错。

2024-01-29 16:12:29 477

原创 CLion安装,使用与配置easyX

但是基本上,只跑一个文件的话,clion配置会很麻烦,所以只跑简单的cpp程序的时候,我还是会用VScode(但是这个vscode要自己再下载一次mingw,导致我的电脑上现在有三个mingw,这就为我后面配置easyX出现大问题做了伏笔)这个是整个项目最核心的东西,你要编译哪些文件,引入哪些库,都要在这里编写,才可以运行成功,一开始的main.cpp是一个简单的hello world程序,点击右上角的绿色三角就可以跑了(如果没有显示的话,说明没有配置,必须先配置)

2024-01-25 17:56:28 1985

原创 windows下JDK8安装

但是有点区别的是他最后验证的时候javac可能不行,这个时候你需要在系统变量中新建classpath变量,值为(.;) ,只要括号里面的就行了。然后就可以解决这个问题了。这里默认下载的是64位的,但是必须注册oracle的账号才可以的下载,不然会显示锁。出现了安装界面之后就一路点下载,直到结束为止。

2023-06-26 17:52:12 203

原创 利用sklearn 建立随机森林与adaboost模型,并用于银行营销数据集预测

利用sklearn 建立随机森林与adaboost模型,并用于bank数据集预测。

2023-06-15 17:45:43 533

原创 Python graphviz库安装以及中文乱码问题解决

随便选一个:下载之后一路点下一步即可,但是要注意,最开始的时候要问你是否要添加到环境变量之中,一定要将它加到环境变量中!!之后就会出现各Python的路径了,你只要看哪个路径下安装了各种exe文件,比如说pip3,那大概率路径就是目标路径,把文件安装到这个路径即可。

2023-06-13 22:39:10 1662

原创 利用Sklearn 实现线性回归和岭回归算法,建立鲍鱼年龄的预测模型。

好了,上一节我们已经将数据处理的差不多了,现在让我们来建立具体的模型。

2023-06-01 16:55:22 728 6

原创 采用pandas进行数据分析

虽然接触机器学习已经有一段时间了,但是昨天是第一次用代码实现了线性回归的过程,一直搞到晚上一点,确实解决了我很多疑问,所以特地记录一下。但是这个是我们的机器学习作业,希望我的同学可以晚点看见这篇blog,不然我实验报告就白写了。(数据集已上传,找不到的话可以私聊我)

2023-06-01 11:36:25 229

原创 利用Python实现 mysql多表查询

这个是因为我在第一题多表查询时,在select的结果集上加了括号。前面已经讲过了如果mysql密码忘记了该怎么办,(因此本节让我们开始利用Python实践一下。

2023-05-19 22:23:49 1049

原创 windows下mysql8. 忘记密码与更改密码的操作

好的,那么现在找到路径之后,运行mysqld --console --skip-grant-tables --shared-memory,我就会出现下面的报错:[ERROR] [MY-013276] [Server] Failed to set datadir to ‘F:\Mysql\mysql-8.0.19-winx64\data\‘ (OS er。,需要在mysql的bin目录中使用mysqld --console --skip-grant-tables --shared-memory,

2023-05-18 09:52:29 1528

原创 IEEE ACCESS Please note that all author names should be listed in English.(所有作者名需用英文名列出)

很奇怪哈,我明明手稿和提交页面作者都是用的英文,但是为什么还是会提示我没用英文呢?后来给编辑发消息,回的很快,他给我发了一个截图,确实是出现中文,但是我还是不知道为啥会出现中文。直到晚上回寝室洗澡的时候忽然想起来了是不是orcid的原因,因为它会强制作者绑定一个orcid账号,而我的orcid账号的名字刚好是中文的。当然这个只是我的一个猜想,但是我觉得可能性很大。我的第二篇论文已经投稿了快三个月了,效果非常的不好,所以我打算转投IEEE ACCESS了,希望这里可以给我一点好的建议。

2023-05-05 23:48:27 2210 25

原创 selenium+Xpath爬取电影中出现的问题与源码

这次是为了爬取豆瓣top250的电影信息,页面规则非常简单,url的规律非常好找,只需要改一个参数就行了,而且也没有加密。因为要准备考研好久没更新了,因为要展示数据采集的作业(本来是打算想随便应付一下,但是因为一直不主动,结果自己的被别人说的差不多了,所以不得以推翻重来。这涉及.close()方法与.quit()方法的区别,前者是只关掉当前正在进行操作的窗口,后者则是关掉所有窗口,相当于直接把浏览器给关掉。剩下的也没什么好讲的,毕竟比较简单,代码上注释也已经很详细了哈。,在这个上面下载即可。

2023-04-26 19:12:49 563

原创 ValueError: zero-size array to reduction operation maximum which has no identity

再扯一句题外话,考虑到adaboost的权重作用,其实这样取值也有不合理之处,就是你默认错的再多的分类器,他错到一定程度的话他在最后集成的时候权重都会是一样的。可以发现我对分母进行了取最值操作,这样保证了分母不会出现为0的情况,所以alpha是一定存在的。是因为alpha过大或者不存在,从而导致aggClassEst变成了[[Nan]],最后传参的时候就直接变成了空的。所以就是问题就是因为:weightedError=1,导致后面出现log溢出了,alpha为inf或者nan。

2023-01-03 10:56:34 2585

原创 mysql常见错误

也就是后面的主键不是主键,我这里的问题就是之前我取消了前面表B的主键,忘记了,后面还接着把它当主键,所以自然就报错了。这里的意思是表B的主键不只有一个,但是你只用了其中一个,这里的解决方法就是:把表B的主键全部加进来,而且约束的键个数也要和表B的主键个数相同。只是我目前遇到的两种情况,如果还有其他情况我没说到烦请大佬在评论区一起交流一下~错误代码: 1822。

2022-10-10 20:47:03 3691

原创 mysql以及Navicat安装,连接

mysql以及Navicat安装

2022-10-06 20:11:56 62

原创 谷歌翻译网页无法翻译,最新解决方法

原始方法关于没有权限修改host文件的解决方法1关于没有权限修改host文件的解决方法2

2022-09-30 18:27:25 610

原创 matlab 回归

其中红色线围成的区间就是置信区间,误差线越短,表示效果越好,可以修改对应的x值,看y值变化。但是由于它只给我们固定的模型,如果我们要用其他非线性模型来拟合数据怎么办?这个时候就有第三个方法了。这个方法最简单,也最好用,但是也有局限,比如非线性的时候就可以用下面的方法。它没有返回值,是因为直接调用这个函数之后,会出现下面这个。就把所需要的解变成变量,存放在工作台了。

2022-09-05 11:57:30 3551

原创 CMC期刊投稿过程(已完结)

还在准备数模比赛,但是导师已经安排我可以先准备投稿的事了,反正投国外期刊本身就是一件很漫长的事,加上这是我的第一次,我决定先记录一下。

2022-08-15 14:56:43 6671 41

原创 常用的matlab操作

通过经纬度算出距离,并求每一行最小值。检验矩阵某一列是否有正态分布的规律。数据读取,处理,保存。

2022-08-12 23:38:25 455

原创 最短路径 matlab 动态规划

如图,给定一个线路网络,两点之间连线上的数字表示两点之间的距离(或费用),试求一条由A到F的铺管线路,使总距离为最短(或总费用最少)。该模板可以适用于无约束的最短路径这一类问题。......

2022-07-25 20:42:25 2661

原创 matlab常见问题解决

出现这个问题是我在机房的电脑上使用binprog,发现在2020上这个函数已经不存在了,所以要换用intlinprog。

2022-07-14 21:54:36 5415

原创 matlab安装与下载

首先就是下载,我安装的是2020a版本的,如果有需要的小伙伴,我会放在这个博客下面,如果遇到什么问题可以在评论区留言。但是是百度网盘形式的,也可以直接去某宝花十来块钱一键安装完毕。点击matlab的setup时,如果出现这样的话,就是说明你的安装路径有中文,只要改一下路径名称即可。这是一个老生常谈的问题,网上的解决方法很多,但是我的这个破解版本和他们的不太一样。首先就是直接在最开始的目录下找到crack文件夹,然后直接复制bin文件夹移动到你选择安装matlab的路径下,我这里是安装到了f盘,直接粘贴一下就

2022-07-13 23:05:42 2504

原创 mathtpye的导入与常见问题解决

这里先提供一下中文版的mathtpye下载地址:https://www.mathtype.cn/xiazai.html之后下载好之后记住安装的路径。打开wps后,点击插入->对象->mathtype7 即可

2022-06-15 23:35:54 2141

原创 fiddler手机端连不上网络

想爬取某鱼的数据,所以学fiddler,但是这里面的东西超出了我这个小白的认知,所以记录一下我到底是怎么从安装到弃坑的:大致的操作可以看这篇博客。但是最难的地方是如何配置手机端,基本配置完代理,手机就连不上网络了,而且一开始启动完fiddler之后电脑也连不上网络(这篇博客有解决)。反正最重点的是手机的证书然后如何下载:这篇博客解决了一部分的问题,但是我还是无法下载证书,直到后来我看到别的方法,关掉现在的wifi,换另一个网络,就可以成功打开页面了,注意一定要到默认的浏览器下操作。之后输入证书名字就应该OK

2022-05-31 23:53:19 335 1

原创 requests库爬取页面出现乱码

不知道为什么这段时间爬取页面总是会出现乱码,类似于下图:一开始当然会以为是自己被反爬了,然后一个劲的往headers里塞东西,但是并没有什么卵用,直到后来发现可能是编码格式的问题,原代码:import requestsurl='http://www.baidu.com/'headers={ 'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0',

2022-05-28 23:28:18 417

原创 利用git向GitHub/Gitlab上传文件

主要的模板大家最好看这个博客:这个当然在这个基础上我也出现了我自己的问题:fatal: unable to access 'https://github.com/13PG/-.git/': Failed to connect to github.com port 443 after 21126 ms: Timed out这个报错是在执行git clone https://xxxxxxxxxxx 这句话上报错的,只要重新再敲一次命令就行了,可能是当时的网络问题error: src refspe

2022-05-22 21:23:35 434

原创 pyside2+QTdesigner+opencv人脸考勤系统中的遇到的问题

label中的背景图片无法铺满选中label控件之后在右侧把这个框勾选上即可

2022-05-21 00:09:50 1395 2

原创 安装库时出现Requirement already satisfied:

我是安装sklearn时报错的(当然安装这个库时前提是你已经安装了numpy,scipy等库):pip3 install scikit-learn然后就出现了下面的情况解决方法1:在" --target= "后加上安装路径,如:pip install --target=Python包安装的路径(一般最后都为\xx\site-packages) scikit-learn如果还有报错的话,再多加两个参数用来指定镜像源,这里用的是豆瓣pip install -i http

2022-04-22 20:46:07 5718

uci中的adult数据集

uci中的adult数据集

2023-06-15

银行营销数据集,该数据集共4521条数据,涉及葡萄牙银行机构的营销活动,通过一些与葡萄牙银行机构营销活动(电话)有关的数据,来预

银行营销数据集,该数据集共4521条数据,涉及葡萄牙银行机构的营销活动,通过一些与葡萄牙银行机构营销活动(电话)有关的数据,来预

2023-06-15

鲍鱼数据集,适用于进行线性回归的模型建立

鲍鱼数据集,适用于进行线性回归的模型建立

2023-06-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除