坤坤子的世界-CSDN博客

原创一文搞定python中的multiply()和dot以及用法

1 * 运算符：当参与计算的类型都为数组时，计算方式为：对应位置相乘，当其中一个类型为矩阵时，则采用矩阵乘法。2 dot运算符：无论参与计算的是数组还是矩阵，计算方式都为：矩阵乘法，3 multiply()运算符：无论参与计算的是数组还是矩阵，计算方式都为：对应位置相乘。数组使用*运算符时，其计算方式为对应的位置相乘，当想使用数组进行矩阵乘法时，可以使用dot实现，而矩阵使用*运算符时，其计算方式矩阵相乘，当想使用矩阵进行对应位置相乘时，可以使用multiply实现。

2022-12-24 17:58:30 2679 1

原创 Spark之 RDD Transformations 案例

RDD Transformations are Spark operations when executed on RDD, it results in a single or multiple new RDD’s. Since RDD are immutable in nature, transformations always create new RDD without updating an existing one hence, this creates an RDD lineage.RDD.

2022-05-29 20:46:16 406

原创 spark 之如何创建空的RDD

spark 之如何创建空的RDD1 创建没有分区的空 RDD在 Spark 中，对 SparkContext 对象使用 emptyRDD() 函数会创建一个没有分区或元素的空 RDD。下面的示例创建一个空 RDD。In Spark, using emptyRDD() function on the SparkContext object creates an empty RDD with no partitions or elements. The below examples create an

2022-05-25 15:59:08 1225

原创创建 Spark RDD的不同方式

创建 Spark RDD的不同方式Spark RDD 可以使用 Scala 和 Pyspark 语言以多种方式创建，例如，可以使用 sparkContext.parallelize() 从文本文件、另一个 RDD、DataFrame 和 Dataset 创建。尽管我们在这里介绍了 Scala 中的大部分示例，但同样的概念可以用于在 PySpark (Python Spark) 中创建 RDDSpark RDD can be created in several ways using Scala &a

2022-05-25 15:56:19 532

原创 Spark 读取CSV文件为RDD

Spark 读取CSV文件为RDD1 准备数据在开始之前，假设我们在文件夹“c:/tmp/files”中有以下带有逗号分隔文件内容的 CSV 文件名，我使用这些文件来演示示例。Before we start, let’s assume we have the following CSV file names with comma delimited file contents at folder “c:/tmp/files” and I use these files to demonstrate

2022-05-25 15:47:45 3928

原创 Spark读取多个文件为一个RDD

读取多个文件为一个RDD读取多个文件为RDD时，我们可以使用textFile()或者wholeTextFiles函数，这两个函数之间的主要的区别在于:返回内容的不同，wholeTextFiles会返回文件名和文件内容，而textFile()只返回文件内容。textFile()读取单个或多个文本、csv 文件并返回单个 Spark RDD [String]Read single or multiple text, csv files and returns a single Spark RDD [S

2022-05-24 11:11:56 2340

原创使用sparkContext.parallelize创建RDD

使用sparkContext.parallelize创建RDDIf you are using scala, get SparkContext object from SparkSession and use sparkContext.parallelize() to create rdd, this function also has another signature which additionally takes integer argument to specifies the number

2022-05-24 10:49:25 1503

原创 Error running graph component for node train_RulePolicy2.ActionNotFoundException: Cannot access act

造成这种问题的原因是：定义的action，没有在domain中复写，导致找不到该动作,如下图所示：修改的方式很简单，在domain文件中添加该动作即可。或者删除该类action，如下图所示：在domain文件中添加该action。重新训练，要是重复出现该类错误，则检查domain、rules文件，修改相关action。...

2022-04-07 12:38:32 1716

原创 anaconda + pycharm Rasa安装(超详细)

rasa超详细安装教程

2022-03-01 20:12:02 5445 4

原创 itertools- 为高效循环创建迭代器的函数

itertools提供的函数简介以及列表。

2022-02-22 21:46:10 142

原创 python Iterator 迭代器通俗理解

python Iterator 迭代器通俗理解在详细介绍迭代器的内容之前，这里先介绍一下，迭代器的优点，方便大家在后续使用中，心里清楚为什么大家都推崇使用迭代器。迭代器的优点主要有：迭代器是python遍历集合元素的一种强大方式。可以节省大量的内存的资源。1 第一个优点首先从这两个优点来看迭代器的出现原因，为了更加形象描述迭代器的功能，这里以遍历一个数组为例，介绍为什么迭代器这么重要。假设有一个数组的元素如下：l = [2,4,5,6,7]当集合不是迭代器时，我们在编写程序时，会考虑边界

2022-02-21 18:49:37 1204

原创 python Dataframe获取n个最大值n个最小值

python Dataframe获取n个最大值/n个最小值在python中，dataframe自身带了nlargest和nsmallest用来求解n个最大值/n个最小值,具体案例如下：案例1 求最大前3个数data = pd.DataFrame(np.array([[1,2],[3,4],[5,6],[7,8],[6,8],[17,98]]),columns=['x','y'],dtype=float)Three = data.nlargest(3,'y',keep='all')print(Thr

2022-02-15 17:19:11 7817

原创向量与矩阵、矩阵与矩阵的余弦相似度计算（sklearn实现）

关于的余弦相似度公式，这里就不再描述，直接看如何使用sklearn自带的工具计算余弦相似度，具体代码如下：1 向量和矩阵之间的余弦相似度计算向量和矩阵之间的余弦相似度时，其计算结果是向量和矩阵中的每一行计算结果的集合，注意最终结果为了方便查看，是越大越相似。1.1 使用dataframe代表的矩阵和向量#%%#矩阵，这里我用dataframe代替矩阵a = pd.DataFrame(np.array([[1,2],[3,4],[5,6],[7,8]]),columns=['x','y'

2022-02-15 10:59:57 2944

原创 anaconda+pycharm配置rasa开发环境，并创建经典案例

配置开发环境windows安装步骤：打开ancona prompt命令窗口使用anaconda进行安装rasa:1 anaconda 命令创建python版本为X.X、名字为rasaEnv的虚拟环境。conda create -n rasaEnv python=3.7注意：使用pip安装Rasa开放源码(需要Python3.7或3.8)。使用命令，查看安装情况：conda info --env2 激活建立的虚拟环境：activate rasaEnv..

2022-02-11 21:30:06 1662

原创一文解决idea配置spark版本问题

相信大家在idea中配置spark依赖时，总是会出现各种错误，结合我多次添加spark依赖经验，个人总结，在maven中添加spark依赖出现的错误，主要是因为版本不匹配引起，所下面我给出了两个添加依赖的方式，供大家参考：第一种，明确scala的版本号如上图所示，由于spark是基于scala语言的，故在添加spark依赖时，应该明确scala版本号，故在添加spark依赖时，artifactID 包裹的位置应该是关于scala版本号，而version包裹才是spark的版本号，查看sca

2022-02-09 23:32:57 2544

原创 py4j开发配置idea+python

py4j的开发配置还是比较简单的，具体具体步骤如下：在python编辑器中配置py4j在python中安装py4j，很简单，只需执行命令即可pip install py4j==0.10.9.2#可以指定版本，也可以不指定在idea中配置py4j下载jar第一中下载jar的方式,可以从在python网址下载：py4j · PyPI解压后在如图所示的路径找到该jar包。第二种，你要是使用anaconada成功下载py4j，那么它的相对应的pyhon库管理位置...

2021-11-07 15:39:41 1443

原创聚类案例-约会数据

40920 8.326976 0.953952 314488 7.153469 1.673904 226052 1.441871 0.805124 175136 13.147394 0.428964 138344 1.669788 0.134296 172993 10.141740 1.032955 135948 6.830792 1.213192 342666 13.276369 0.543880 367497 8.631577 0.749278 135483 12.273169 1..

2021-10-31 16:19:44 393

原创你必须知道的，常用的机器学习相关网站！！！

很多人因为人工智能的大火，转变了职业规划或研究方向，开始了学习相关领域的知识之路，虽说人工智能领域应用很广泛，涉及到的知识的也很广泛，但机器学习作为基础知识是每个人必须要了解的知识。机器学习的相关资料相信网上有很多，但很多都不成体系，只靠一些零碎的知识点是难以学好机器学习相关知识的，并且机器学习的一些概念很抽象难以理解，故知道一些高质量的网站和文章，对于初学者是很有帮助的。下面我整理了最近几年在学习中的遇到的网站和文章，希望能帮助大家学习：目录网站：scikit-learn官方网址人工智

2021-10-23 17:37:33 1277

原创自然语言学习笔记之——hanlp环境配置

hanlp的环境配置还是比较简单的，这里我主要配置了两个环境，一个是java环境和python,具体如下：目录anaconda 安装hanLpidea安装NLPanaconda 安装hanLp1 指定清华镜像，加速下载：>pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyhanlp2下载hanlp3 测试，如图所示安装成功：代码测试：from pyhanlp import *...

2021-10-18 13:53:31 1989

原创从 Python 访问 Java 集合和数组案例（py4j）

目录启动jvm访问JAVA的数组访问的java的列表其他案例启动jvm首先启动一个jvm，在idea编辑器中，运行官方代码，import py4j.GatewayServer;public class AdditionApplication { public int addition(int first, int second) { return first + second; } public static void main(..

2021-10-15 15:20:00 541

原创 java和python之间的桥梁—py4j实例

py4j的功能：py4j可以使pthon调用java的程序。环境要求：配置python环境，Py4J 已经用 Python 2.7、3.4、3.5、3.6 和 3.7 进行了测试。配置java环境，版本最好1.7以上目录官方案例1 ——初识py4j官方案例——在python中调用java编写的类1 编写java代码2 编写python代码官方案例1 ——初识py4j在python中调用java的方法，在调用java之前，请注意，在执行Python 代码之前，必须先启动

2021-10-14 11:40:50 4870

原创 python 模型文件pmml保存与加载预测（完整代码案例）

def load_data(): ''' 此处为加载鸢尾花数据集，并划分数据集 return:训练数据、测试数据 ''' from sklearn import datasets from sklearn.model_selection import train_test_split """-----------------加载数据----------------------------""" iris = datasets.load_iri.

2021-10-08 14:56:45 4467

原创 StandaloneAppClient$ClientEndpoint: Failed to connect to master master:7077

出现这种问题时，21/09/09 09:38:31 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master master:7077org.apache.spark.SparkException: Exception thrown in awaitResult: at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:301)

2021-09-24 16:02:21 5557 5

原创 python循环保存文件并循环读取文件

python循环保存文件并循环读取文件这里我以一个列表为例，每个列表是一个文件，数据来源于python自带的新闻文本主题分类数据。保存代码：#%%for i in range(len(X_test)): with open("%d.txt"%(i),'w',encoding='utf-8') as f: for j in X_test[i]: f.write(j,)保存效果：读取文件代码：import ospath = "

2021-09-08 16:05:31 7663

原创 java.lang.IllegalArgumentException: requirement failed: indices should be one-based and in ascending

这个错误出现的原因是：数据索引应以1为基础并按升序排列，即应该是应改为：

2021-07-27 09:10:51 770

原创机器学习数学基础----（数学期望、方差、协方差。。。参数估计）

数字特征数学期望离散型的数学期望连续型的数学期望数学期望离散型的数学期望引例：有n个工人生产同样的零件，考察某一天的产量，得到：生产a1件有n1个人生产，生产a2件有n2个人生产，生产a3件有n3个人生产，。。。生产ak件有nk个人生产，这一天的平均每人生产多少产品。若以X表示每个人的产量，则X是一个随机变量，他的可能值为a1,a2,…ak,而事件连续型的数学期望...

2020-07-13 19:41:46 1144

原创 Failed to import `pydot`. Please install `pydot`. For example with `pip install pydot`.

步骤1pip install pydotplus步骤2在spyder进入vis_utils.py但是运行还会出错，如下步骤3 下载https://graphviz.gitlab.io/_pages/Download/Download_windows.html下载完后，解压，因为是绿色版，不需要安装，只需放在自己想放的地方就行，然后定位到解压文件bin目录下即可：import os os.environ["PATH"] += os.pathsep +...

2020-07-05 21:45:31 1355

原创图python(数据结构与算法)-----最小生成树

连通图：在无向图中，若从顶点v到顶点v'有路径，则称v和v'是连通的，若在改图中的任意两个顶点之间都是连通的，则称其为连通图。生成树某一个具有n个顶点的连通图的生成树是该图的极小连通子图，生成树包含这一连通图中的n个顶点和n-1条边。连通图的生成树是图的极小连通子图，它包含了图中的全部顶点，一个只有n个顶点的连通图的生成树只有n-1条边，若有n个顶点而少于n-1条边，则为非连通图，若多余N-1条边，则一定形成回路。最小生成树：通常把各边带权的连通图称为连通网，在某一连通网的所

2020-06-06 15:29:20 1229

原创图python(数据结果与算法)---遍历

图遍历是指：从任意一个顶点出发对图中每个顶点访问且仅访问一次的过程。因为图中可能存在回路，为了避免对一个顶点的重复访问可以增设一个辅助的数组visited[]，全部初始化为0,一旦访问过，置位visited[i] = 1,：图的遍历比较复杂，需要考虑：指定遍历的第一个顶点由于一个顶点和多个顶点的相邻，需要在多个邻接顶点间确定访问次序由于图中存在回路，必须对访问过的顶点做标记，防止出现重复访问同一顶点的情况。图的遍历可分为：深度优先遍历广度优先遍历1图的广度优先搜索算法(B

2020-06-04 20:25:05 835

原创图python(数据结构与算法)---实现

图的存储结构1邻接矩阵表示法存储方式是用两个数组来表示图，一个一维数组表示图中顶点的信息，一个二维数组表示存储图中的边的信息。即边采用顺序存储结构，用二维数组存储，称为图的邻接矩阵1.1 无向图邻接矩阵表达无向图，邻接矩阵一定是对称的，而且对角线一定为01.2 有向图邻接表达1.3带权邻接表达，对顶点之间没有联系的，用无穷大表示。分析可得：在无向图的邻接矩阵中的第i 行或者第i 列的非零元素的个数，为第i个顶点的度；在有向图中邻接矩阵中的第i行的非00

2020-06-04 16:13:58 1416 1

原创图python（数据结构与算法）---基础概念

图的基本概念图是对象的一个集合，每一个对象称为顶点，顶点之间的成对链接称为边，通常表示为：G（V，E）,其中G表示一个图，V表示G中的顶点的集合，E是图G中边的集合。图的种类：1无向图：如果图中任意顶点之间的边都是无向边，则称图为无向图：2有向图若从顶点V到顶点W的边有方向，则称这条边为有向边，图中的顶点V和顶点W的关系可以用有序的对<v,w>表示，它是从v到w的一条弧，其中v被称为弧尾或者初始点，w 被称为弧头或者终端点。如果任意两个顶点之间的边都是有向的边，则称为

2020-05-25 11:34:34 1311

原创树python(数据结构与算法)--树的遍历

树的遍历树的遍历是树的一种重要的运算。所谓遍历是指对树中所有结点的信息的访问，即依次对树中每个结点访问一次且仅访问一次，我们把这种对所有节点的访问称为遍历（traversal）。那么树的两种重要的遍历模式是：深度优先遍历，深度优先一般用递归广度优先遍历,广度优先一般用队列深度优先遍历对于一颗二叉树，深度优先搜索(Depth First Search)是沿着树的深度遍历树的节点，尽可能深的搜索树的分支。那么深度遍历有重要的三种方法。这三种方式常被用于访问树的节点，它们之间的不同在于访问每

2020-05-18 21:15:13 1401

原创树python--数据结构于算法--基础概念

树的基本定义：树是一种将元素分层次存储的抽象数据类型，除了最顶部的元素，每个元素在树中都有一个。树的术语节点的度：一个节点含有的子树的个数称为该节点的度；例如上图中根节点的度为5. 树的度：一棵树中，最大的节点的度称为树的度；例如根节点的度为5，节点6的度为2，依次计算剩余的度，最后取这13个节点度最大的值为树的度。叶节点或终端节点：度为零的节点；例如3,12,10,20,13,3,12,；分支节点：度不为零的节点被称为分支节点;(非终端节点，)，例如，节点6，和16。

2020-05-15 10:16:49 378

原创数据结构与算法python----书籍推荐

学习数据结构，找到适合自己的书籍很重要，故经过一些尝试后，本人找到了以下几本，前四本个人感觉读起来比较容易，就是内容有的不是很全，可以都看看，相互补充，最后一本建议慎读，有点难。第一本第二本第三本第4本第5本...

2020-05-07 11:19:29 2214

原创 geatpy遗传和进化算法库函数安装--anaconda

安装geatpy的一般有三种：前两种方法，一般会在下载过程中容易断，不容易安装，故选择第三种方法；1首先在https://github.com/geatpy-dev/geatpy下载geatpy2将安装包解压到下图中，我把ananconda安装到work下，找到Scripts文件，解压；3控制端，用cd命令切到D:\work\Scripts\geat...

2020-05-07 10:56:06 2153 6

原创双向循环链表python(数据结构与算法)

1概念2.操作is_empty() 链表是否为空 length() 链表长度 travel() 遍历链表 add(item) 链表头部添加 append(item) 链表尾部添加 insert(pos, item) 指定位置添加 remove(item) 删除节点 search(item) 查找节点是否存在class Node(object): # 节点...

2020-05-06 15:59:35 1027 1

原创线性回归（手写推导）--机器学习

b站学习笔记https://www.bilibili.com/video/BV1aE411o7qd?t=14&p=13

2020-05-06 10:11:37 204

原创栈python(数据结构与算法)----匹配

题目：在一个用字符串描述的表达式“{[a+b]/f+(c+d)}”中存在大、中、小括弧，请编写程序，基于栈，实现对输入的一串字符串的依次扫描，并检查括号匹配成功。示例：输入样例：{{}}()(hell0){({world}{})}输出：括号匹配成功输入样例：{{}}()(hell0){({world}(})}输出：括号匹配不成功分析1假设输入样例为：{{}}()(h...

2020-05-04 11:35:46 669

原创高斯分布极大似然估计----手写

2020-05-04 10:32:48 918

原创队列python(数据结构与算法)--优先队列

"""优先级队列"""#优先级队列是在普通队列的基础上将队列中的数据元素按照#关键字的值进行有序的排序 #优先级队列在队首进行删除的操作，但为了保证队列的优先级顺序#插入操作不一定在队列的尾部进行#优先级队列可以由链表和顺序表实现，#但为了快速的访问高级的元素和快速的插入元素，通常使用链式存储结构。...

2020-05-03 21:54:10 686

空空如也

空空如也