- 博客(86)
- 资源 (1)
- 收藏
- 关注

原创 【python笔记】datafram的时间动态可视化 pyecharts地图
【代码】【python笔记】datafram的时间动态可视化 pyecharts地图。
2024-04-25 19:39:40
466

转载 ML:产品分析之关联算法介绍 & python案例
Explanation of the Market Basket MoDefinition:List itemIt is a rule-based machine learning method for discovering interesting relatiosn between varianbles in large databases. It is intended to identify strong rules discovered in databases using some m
2020-08-12 23:30:12
1502

翻译 时间序列分析1:python里用AR自回归模型分析预测时间序列
Autoregression / AR,就是用前期数据来预测后期数据的回归模型,所以叫做自回归模型。它的逻辑简单,但对时间序列问题能够做出相当准确的预测。1)自回归函数y^t=b0+b1yt−1+...+bnyt−n,其中n<t y\hat{}_t = b_0 + b_1y_{t-1} + ... + b_ny_{t-n} , 其中n<ty^t=b0+b1yt−1+............
2020-04-18 17:31:47
32377
23

原创 Python笔记:爬虫下载图片的基本思路(requests就能搞定)
先上结论:只要找到它对应的链接,就一定能够下载它。用到的主要函数: request()(中文说明文档链接), re.findall()(官方文档链接)。思路分析:第一、How、Where找到图片链接?每张图片都有自己对应的链接。在浏览器中,按F12,在火狐的查看器或者Chorme的elements。见下边例子:第二、用代码How把我们想要的链接提取出来呢?使用正则表达式 ....
2019-05-12 22:14:56
1570

原创 python:统计分析应用和案例
围绕数据的统计和透视的需求,包括数据准备处理阶段、数据透视阶段、和透视表复杂的计算和优化3阶。 了解什么是Pandas.Datafame?以csv为例。(主要了解datafram的index和columns。建议通过excel透视表来理解)数据准备阶段:如何快速合并N个文件 + 如何拆分成N个文件如何进一步的视线excel的查找/筛选,替换,新建字段如何实现exce透视表的统计分析 & 进阶附注。
2019-01-24 00:04:17
9641

翻译 翻译:提高既定数据集下的模型效果——交叉验证(CrossValidaton)
交叉验证——(监督)学习器性能评估方法一、思考:交叉验证有什么好值得我们使用的?每个算法模型都需要经过两个阶段:训练和验证。官方文档链接1) 一般情况下的,我们用的方法是:将原始数据集分为 训练数据集 & 测试数据集。优点:思路正确,但仅仅是思路正确。缺点:思路正确,但是方法不够高明。一方面,如果不把原始数据集划分为 训练数据集&测试数据集,而是直接使...
2018-10-23 16:26:44
2087

原创 python 可视化:fig, ax = plt.subplots()画多表图的3中常见样例 & 自定义图表格式
目录一、fig, ax = plt.subplots()的作用?二、参数的含义?三、怎么在一个图上排列多个子图?四、怎么把多个子图一起合并到一个图上?《Python for Data Analysis》 2nd Edition一、fig, ax = plt.subplots()的作用?它是用来创建总画布/figure“窗口”的,有figure就可以在上边(或其中一个子...
2018-10-09 19:09:29
304176
16
原创 TfidfVectorizer
是自然语言处理NLP中常用的文本特征提取工具,用于将文本数据转换为数据向量。– 高频词(TF高)但罕见(IDF高)的词语会获得高权重(e.g.专业术语);:是通过统计词频和逆文档频率来量化词语在文本中的重要性。– 高频但常见的词语(如“的”、“是”)会被抑制。
2025-02-05 21:14:18
735
原创 已解决:OSError: [E050] Can‘t find model ‘en_core_web_sm‘.
根据spacy版本选择对应的en_core_web_sm版本。如spacy 3.8.4,则en_core_web_sm选择3.8.0即可。实测 pip无法直接安装,在无法翻墙的情况下怎么办?
2025-01-24 14:53:44
554
原创 Pandas笔记:explode
文章目录目标:把dataframe某个string格式的N个逗号分隔值,拆分成N行做法一:仅使用`explode()`做法二:`explode()`搭配`assign()`做法三:`explode()`搭配`apply`目标:把dataframe某个string格式的N个逗号分隔值,拆分成N行import pandas as pddfnew = pd.DataFrame({'a': ['a', 'b'], 'b': ['1, 2, 3,', '4, 5, 6
2022-04-27 15:33:17
1650
翻译 【翻译】:UserWarning:FixedFormatter should only be used together with FixedLocator
设定x/y轴的标签的“个数”&“内容”&“格式”
2022-03-28 00:22:52
4962
原创 【python笔记】经营分析-RFM和新老客户留存 by秦路
无意中看到非常不错的一篇文章《如何七周成为数据分析师》by秦路。此处记录1)精彩的地方,2)其它的想法
2022-03-06 00:09:25
1637
原创 numpy笔记:.select()默认值的类型
numpy.select(condlist, choicelist, default=0)链接,当DataFame新生成字段时,choicelist如下3种会使得default的“0”的type分别为str和int:一、当select函数里choicelist是指定string value时,type为str:f['new'] = numpy.select([mask], ['value'], default=0)二、当select函数里choicelist是df.series时,type为数
2022-02-12 21:09:58
1405
翻译 翻译:apply与transform在搭配groupby的不同
pandas.DataFrame.apply(func, axis=0):将func沿着axis应用在DataFrame上并返回结果;文章链接:https://towardsdatascience.com/difference-between-apply-and-transform-in-pandas-242e5cf32705pandas.DataFrame.transform(func, axis=0):Call func on self producing a DataFrame with tran
2021-08-18 19:02:35
1094
翻译 几种分类的名词意思:Multiclass VS Multilabel VS Multioutput
Multiclass classification打比方你想要把XX归到n_classes(即彼此不同&互斥的classes)。那么来举个栗子:我们有4个classes,分明是"Python"、“Java”、"C++“和"Other language”。此刻我们如果有6个XX,它们对应的classes标签存在数列y里import numpy as npy = np.asarray(['Java', 'C++', 'Other language', 'Python', 'C++', 'Pytho
2021-04-12 01:02:08
1601
原创 ML:非监督学习之 聚类_从KMeans到GMM高斯混合聚类
本文节选于《Python Data Science Handbook》by Jake VanderPlas 2016-11-17 First EditionIn Depth: Gaussian Mixture Modelk-means 聚类模型简单、易于理解,但是也因此无法处理比较复杂的聚类问题。尤其是它的非概率论本质,和它用简单的distance-from-cluster-center/中心点距离来进行聚类方法,导致在许多实际情况下模型效果不佳。本文要讨论的GMM/Gaussian Mixture.
2020-08-09 16:24:46
1944
翻译 摘抄 - 从几何角度看协方差矩阵
简介:本文通过探索线性变换和变换后数据协方差的的关系,提供一个直观的、几何图示的协方差矩阵解释。大多数教材都是通过协方差矩阵的概念来解释数据的分布形状。相反的我们通过数据分布的形状来解释协方差矩阵。在先前的文章里我们探讨和方差的概念,并给出了预估方差的公式的推导和证明。这里Figure 1 展现了标准差——方差的根,量化了整个数据的分布:下边这个公式可以或许样本方差的估计值:σ2=1N−1∑i=1N(xi−μ)2=E[(x−E(x))(x−E(x))]=σ(x,x)\sigma^2=\frac{1
2020-08-02 21:49:20
1517
翻译 调参简例:SARIMA模型_手工调参过程
背景:SARIMA,简单说就是AR+MA+差分+季节性因素+趋势。所以参数在statsmodels.tsa.statespace.sarimax.SARIMAX里边,用3个指标涵盖核心参数,order(p,d,q)、seasonal_order(P,D,Q,s)和trend.Seasonal AutoRegessive Integrated Moving Average with eXogenous regessors model一、步骤的文字描述:"""准备阶段"""# 第一、定义一个待传入参.
2020-06-04 23:48:32
11492
11
翻译 时间序列笔记:python中如何用差分消趋势和季节性因素
时间序列模型:严格来说包含4个要素,Trend/趋势、Circle/循环、Seasonal /季节性和不规则要素。但是实际中C和S貌似更多的归为一个。一组时间序列数据有可能包含T和S,这都导致数据集不平稳。因为T会造成均值跟着时间变化而变化,S会造成方差随时间变动。在平稳化时间序列数据中,差分/differencing是种用得广&受欢迎的方法。笔记的目的是为了理解:平稳的时间...
2020-04-07 21:15:17
11343
5
原创 sklearn笔记:transfrom()为什么接在fit_transform()后边而不是fit()?
举个例子:对于数据集X_train和X_test,from sklearn.preprocessing import PolynomialFeaturesimport numpy as npx_train = np.array([6, 8, 10, 14, 18]).reshape(-1, 1)x_test = np.array([6, 8, 11, 16]).reshape(-1, 1...
2020-01-05 23:24:17
1025
翻译 sklearn笔记:StratifiedKFold和StratifiedShuffleSplit的区别?
首先上图:由上图可见,KFold和ShuffleSplit的最大不同就是,KFold进行的n_split划分,每次的划分数据都不会重复,而ShuffleSplit的会有重复的;进一步展开的说:KFold 和ShuffleSplit都是分层抽样,都可以进行n次split(上例中都是4次)以便用于交叉验证,都可以在split之前把数据“洗洗牌”打乱;不同点是KFold,在shuffle=T...
2019-10-31 23:56:43
3950
4
翻译 ML:非监督学习 之 3 层次聚类Hierarchical Clustering with Python and Scikit-learn
by Usman Malik 《Hierarchical Clustering with Python and Scikit-learn》层次聚类是用于无标签数据聚类的一种非监督学习算法。在某些情况下,层次聚类和KMeans的结果非常相似。在用Scikit-Learn实现层次聚类之前,有必要先了解其理论基础。层次聚类的理论依据层次聚类有2种:合并法和分类法,通常使用的是合并法。如图:合并...
2019-10-20 17:42:50
1223
原创 ML:非监督学习之 聚类 之 2 DBSAN聚类(sklearn.cluster.dbscan))
一、算法图解DBSCAN:Dense-Based Spatial Clustering of Applications with Noise(基于密度的&带噪点的空间聚类应用方法)举个栗子:1. 此处潜在设定条件:Min_smaples(或者叫MinPoints / Minpts)= 3;2. 划分为QMP3个点、SOR3个点为圆心的圆内的点,共计2类;剩余的点为Noise(噪点)...
2019-10-14 23:38:44
1718
原创 ML:非监督学习之 聚类 之 1 KMeans聚类(sklearn.cluster.KMeans)
一、算法图解首先,指定cluster的个数。上图设k=2(初始点为从图b开始出现的“+”号;其次,把每个数据样本划到到最近的中心点那一cluster;再次,指第一轮化cluster之后,更新中心点(一般是把该cluster的所有数据坐标加起来取平均值);重复划类和中心点更新,知道达到指定的迭代次数或者中心点的移动距离小于给定值或者中心点不在移动;二、sklearn官方文档链接skl...
2019-10-14 22:10:58
1161
原创 ML:常见判断类模型好坏指标 - 混淆矩阵 & ROC曲线 & AUC & 其他
混淆矩阵前提概念缩写全拼含义TPTrue Positive预测对了,预测了“Positive”FNFalse Negative预测错了,预测了“Negetive”FPFalse Positive预测错了,预测了“Positive”TNTrue Negtive预测对了,预测了“Negtive”2.指标定义指标定义备注...
2019-10-12 07:52:34
1743
转载 ML笔记:分类算法之SVM
注:本文几乎所有东西都不是原创,但鉴于来源复杂不易查明、仅作为个人笔记查询,故不再一一插入链接。如有侵权,立删。1. SVM是什么?Support Vector Machine。一个普通的SVM就是一条直线,用来完美划分linearly separable的2类,即2分类。但这有不是一条普通的直线,这是无数条可以分类的直线当中最完美的,因为它乔海在2个类的中间,距离2个类的点都一样远。而所...
2019-10-08 20:38:52
891
原创 ML:决策树的优劣点&常用算法实例
用途:用于分类和回归优点简单易懂,条理清晰,可以用图画出来;需要较少的数据预处理,计算量不大。其他算法常常需要数据标准化、删除空值、创建虚拟变量。需要注意的是,此处模型不支持缺失值;Tree的使用成本(例如预测)等于训练数据集大小的对数。可处理连续数据和分类数据;可处理multi-output问题;可解释性强(与之相反的是神经网络,其结果过程几乎无法解释,是“黑盒”)可以用统...
2019-09-29 00:16:39
957
原创 python笔记:multiprocessing 函数apply和apply_async有什么区别?
首先扯点历史(链接):在python的幼儿时期,执行带参数的function是这样的:apply(function, args, kwargs) apply在python2.7里还有,当然python3.x没有了,现在直接function(*args, **kwargs)Multiprocessing.Pool模块就是借鉴了相同的操作定义的函数。然后再说apply和apply_...
2019-09-23 20:01:01
8039
2
翻译 python笔记:sklearn r2_score和explained_variance_score的本质区别是什么?
stackoverflow链接Q:我知道r2_score表示的是在总变变量中模式解释的百分比。但是explained_variance_score和它有什么区别?Answer (by CT Zhu):当残差的均值为0时,它俩是一样的。选区的标准嘛,就看你是不是假设残差均值为0?import numpy as np"""残差均值不为0"""y_ture = [3, -0.5, 2, 7...
2019-09-22 11:00:46
14618
1
原创 python笔记:str.contains小坑之 UserWarning To actually get the groups, use str.extract.
df = pd.DataFrame({'name': ['A(上海)AAA', 'BB(上海)BB', 'CCC', 'DDD'] })print(df)# 结果如下 name0 A(上海)AAA1 BB(上海)BB2 CCC3 DDDa = ['A(上海)AAA', 'BB(上海)BB', 'CCC...
2019-09-18 13:46:18
5751
2
翻译 Python笔记:loop循环优化(有删改)
我们知道,循环是一次一次的执行我们的要求,优化的关键点就是最小化循环的工作量*(当然只有循环次数大的时候才有意义,太小的优化效果几乎忽略不计)*。如下为一个典型的loop循环:import randomlowerlist = ['abcdefghijklmnopqrstuvwxyz'[:random.randint(0,25)] for x in range(1000)]upperlist...
2019-08-30 21:52:13
3977
原创 python笔记:pandas-统计非重复个数&非重复值
例如,有如下数字:df = pd.DataFrame({'a': ['A', 'A', 'A', 'B', 'C'], 'b': ['H', 'H', 'I', 'J', 'J']})print(df)# 结果如下 a b0 A H1 A H2 A I3 B J4 C J方法:使用lambda函数:pt = ...
2019-08-21 15:43:43
6166
原创 python多进程:示例 multiprocssing小案例 & 在pycharm应用timeit
import multiprocessing as mpfrom datetime import datetimeimport timeitdef aa(): print('aa started time: ', '{}'.format(datetime.now()) s = "pd.to_datetime(pd.Series(['3/11/2000', '3/12/20...
2019-08-14 22:45:45
395
翻译 ML - sklearn实现 PCA主成分分析
原文:principal component analysis with scikit-learn by Niraj Verma.我将用Scikit-learn通过最大离散度找出所有的成分,并分离出主成分。首先对原始数据标准化,
2019-07-30 22:26:45
3699
转载 Python: 对于多维groupby()透视数据,筛选保留分组的前N个最大/最小数据?
stackoverflow原文链接:这里。Q: 我想把我的dataframe,先进行gourpby()处理、再对结果进行排序。print(df) # df输出结果如下:count job source0 2 sales A1 4 sales B2 6 sales C3 3 sales D4 7 sales E5...
2019-07-24 09:56:04
9837
2
翻译 Pyhon 笔记:reduce、Lambda和map函数
一、Lambda Operator(λ操作符)有的人爱它,有的恨它,更多的人怕它。我们有信心,当你看过本篇后你会爱lambda,万一还是爱不起来,推荐你看看Guido Van Rossums写的“List全解”,因为他不喜欢Lambda、map,也不喜欢reduce。Lambda操作符,又被称为Lambda函数,是用来创建较小的匿名函数的(直白说叫做“无名字的函数”),特点是方便临时、快捷可用...
2019-07-23 13:36:49
258
hierarchical-clustering-with-python-and-scikit-learn-shopping-data.csv
2019-10-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人