- 博客(46)
- 收藏
- 关注
原创 信用风险模型-CPV模型
确定宏观经济变量:国内生产总值增长率(G_GDP)、广义货币增长率(G_M2),消费者价格指数(CPI),美元兑人民币汇率。数据来源:国家统计局网站,人行等相关网站。非季度数据采用几何平均法转化为季度数据。
2025-05-09 11:10:54
211
原创 python安装toad
其次在CMD中确认python的版本(python -V)为3.8.5,所以下载对应的版本,在CMD中输入pip install D:\whl\toad-0.1.3-cp38-cp38-win_amd64.whl即可。通过CMD中的pip install toad总失败,原因是有些包不符合toad0.1.5的安装要求,但升级那些包其他的依赖要变,所以只能通过whl安装了,首先进入网站。
2025-04-23 17:39:33
268
原创 【leetcode-python】最接近的三数之和
与 target 最接近的和是 2 (-1 + 2 + 1 = 2)。与 target 最接近的和是 0(0 + 0 + 0 = 0)。中选出三个整数,使它们的和与。假定每组输入只存在恰好一个解。
2024-09-14 14:18:15
422
原创 【leetcode-Python】盛最多水问题
图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下,容器能够容纳水(表示为蓝色部分)的最大值为 49。轴共同构成的容器可以容纳最多的水。找出其中的两条线,使得它们与。返回容器可以储存的最大水量。
2024-09-14 14:14:27
186
原创 【leetcode-python】整数转罗马数字
罗马数字是通过添加从最高到最低的小数位值的转换而形成的。方案一:用了一个将数字拆成个位数,10位数,百位数,千位数,遍历后在哈希表里面搜索对应的数据。给定一个整数,将其转换为罗马数字。
2024-09-13 10:44:40
509
原创 [leetcode-python]杨辉三角2
在「杨辉三角」中,每个数是它左上方和右上方的数的和。方案一:双层内循环,时间复杂度很高。,返回「杨辉三角」的第。你可以优化你的算法到。
2024-09-11 17:07:55
329
1
原创 【leetcode-python】最小路径和
请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。方法:因为每次只能向下或者向右移动一步,所以。因为路径 1→3→1→1→1 的总和最小。每次只能向下或者向右移动一步。给定一个包含非负整数的。
2024-09-11 16:38:37
197
原创 【leetcode-python】
第 3 步:"1337c0d3"(读入 "1337";第 2 步:"1337c0d3"(当前没有读入字符,因为这里不存在 '-' 或者 '+')第 2 步:"0-1" (当前没有读入字符,因为这里不存在 '-' 或者 '+')第 2 步:"42"(当前没有读入字符,因为这里不存在 '-' 或者 '+')第 1 步:"1337c0d3"(当前没有读入字符,因为没有前导空格)第 1 步:"0-1" (当前没有读入字符,因为没有前导空格)第 1 步:"42"(当前没有读入字符,因为没有前导空格)
2024-09-11 16:21:13
378
原创 【leetcode_python】杨辉三角
在「杨辉三角」中,每个数是它左上方和右上方的数的和。生成「杨辉三角」的前 numRows。给定一个非负整数 numRows。
2024-09-11 16:18:26
388
1
原创 [leetcode-python]最长回文子串
使用两个循环语句,第一个循环找回字文长度,第二个循环寻找回字文开头。题目:给你一个字符串 s,找到 s 中最长的回文子串。"aba" 同样是符合题意的答案。顾名思义就是确定中心后,向两边搜索。方案二:中心开花战略。
2024-09-11 15:55:18
370
原创 github使用方法
github需要做的事情1、注册https://github.com/2、新建Repositories下载git本地仓库git init 初始化git config http.sslVerify "false"如果提示:fatal: not in a git directory那就先执行git init再输入:git config http.sslVerify "false"二、两个仓库的合并1.首先建立ssh加密。目的:本地就和远程建立了加密协议,如果不使用加密协议,
2021-05-21 14:03:07
358
原创 深度学习基础(1)--激活函数
前言这篇文章首先回答了一个人们都忽略的问题:在神经网络中,一个小小的激活函数为何如此重要?它的作用到底是什么?然后我就目前主流的激活函数做了一个对比讨论,并提出一些建议。激活函数的本质这里首先引出结论:激活函数是来向神经网络中引入非线性因素的,通过激活函数,神经网络就可以拟合各种曲线。具体解释可以看这篇文章:所以说,如果不使用激活函数,这种情况下每一层输出都是上一层输入的线性函数。无论神经网络有多少层,输出都是输入的线性函数,这样就和只有一个隐藏层的效果是一样的。这种情况相当于多层感知机(MLP)。
2020-06-06 15:29:27
857
原创 spark中的遍历dataframe
def main(args: Array[String]) = { val spark = SparkSession.builder().appName("p2") //.master("local") .enableHiveSupport().getOrCreate() import spark.implicits._ val nowdate = Loca...
2020-05-07 20:14:00
2949
原创 浅谈广告系统预算控制(SMART PACING)与核心代码实现
背景在实际广告投放过程中,我们常常会碰到一个问题:媒体流量比较大,广告主预算消耗过快,有些中小广告主甚至在开始投放的几分钟内就把预算消耗完。这会导致广告主早早退出后续流量的竞争,不仅会影响广告主体验(无法触达到更多的优质用户),也导致整个广告不平稳(竞争都集中在早期,而后期又竞争不足)。预算控制(Budget Pacing)的作用就是平稳花掉广告主的预算,并帮助广告主优化转化效果。所以我们...
2020-04-27 00:11:01
3802
原创 SPARK基础4(DataFrame操作)
在上文《SPARK基础2(读入文件、转临时表、RDD与DataFrame)》中,我们简单介绍了spark中的DataFrame,我们知道了spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。在本文中我们主要介绍,DataFrame基本API常用操作。查看数据// 默认只显示20条commodityDF.show()// 是否最多只显示20个字符,默认为true...
2020-04-11 11:24:57
537
原创 利用TFRcord文件完成建立AlexNex
数据来源于猫狗大战,我在这里用分好了,如下图所示首先是建立TFRcord文件,如下所示:import os import tensorflow as tf from PIL import Image #注意Image,后面会用到import matplotlib.pyplot as plt import numpy as np cwd='D:\比赛\猫狗大战\cat_vs_d...
2020-03-22 00:30:50
285
转载 tensorflow中四种不同交叉熵函数
Tensorflow中的交叉熵函数tensorflow中自带四种交叉熵函数,可以轻松的实现交叉熵的计算。tf.nn.softmax_cross_entropy_with_logits() ...
2020-03-21 09:53:56
443
原创 Windows下安装spark-hadoop步骤
前言本章将介绍如何在Windows下实现spark环境搭建。本章概要1、版本说明2、环境准备:jdk配置; spark安装与配置; hadoop安装与配置; IDEA的安装与配置版本说明jdk:1.8 spark:2.4.5 hadoop:2.7.1我把的安装软件的放到云盘了,链接:https://pan.baidu.com/s/1A7CJSYHmuin...
2020-02-15 00:54:32
2005
原创 广告算法常用指标
1、广告点击率=广告点击数/广告真实曝光数 CTR=adclk/real_adimp2、广告单价=点击费用/广告点击数(按照点击收费) ECPC=click_cost/adclk3、前次请求成本=点击费用/曝光请求数 cpkr=click_cost/pvreq*10004、广告填充率=广告填充数/曝光请求数 pvr=pvfill/pvreq5、展示次数/广告填充数 pvIR=pv...
2020-02-09 13:59:57
5204
原创 SCALA下的GBDT与LR融合实现
我们直接使用的ML的包对GBDT/LR进行融合首先我们需要导入的包如下所示:import org.apache.spark.sql. Rowimport scala.collection.mutableimport org.apache.spark.mllib.classification.LogisticRegressionWithLBFGSimport org.apache.spar...
2019-12-26 11:39:34
713
原创 spark基础3(RDD的特性与算子)
上文介绍了SPARK读入文件,RDD与DATAFRAME,本文主要介绍RDD的一些相关知识。1、RDD1.1 宽依赖与窄依赖窄依赖:父RDD中,每个分区内的数据,都只会被子RDD中特定的分区所消费,为窄依赖:宽依赖:父RDD中,分区内的数据,会被子RDD内多个分区消费,则为宽依赖:Spark的这种依赖关系设计,使其具有了天生的容错性,大大加快了Spark的执行速度。因为,RDD数据集通...
2019-11-20 20:16:07
612
原创 SPARK基础2(读入文件、转临时表、RDD与DataFrame)
上文介绍了spark的各种组件和入门,本文主要介绍spark读入文件以及数据格式(RDD/DataFrame)1、读入文件与转临时表1、json文件读取val df = spark.read.json("E:/people.json")df.show()//将DataFrame的内容显示到页面2、CSV文件读取(注意编码要UTF-8)df=spark.read.csv("E:/emp...
2019-11-19 16:14:50
3269
原创 SPARK基础1(spark基础介绍和入门)
什么是spark?网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点:Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代MapReduce引擎...
2019-11-19 15:49:40
332
原创 svm简介
支持向量机(Support Vector Machine)是于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最...
2019-08-22 23:57:28
419
原创 python绘制ROC曲线
ROC曲线ROC曲线是一种模型评价指标,其横轴是假阳性率,纵轴是真阳性率,import matplotlib.pyplot as pltfrom keras.utils import to_categoricalfrom sklearn import metricsfrom sklearn.metrics import roc_curve, auc ###计算roc和aucdef a...
2019-06-03 19:35:10
9891
原创 teradata SQL学习(3)数据库过滤
1、连接符where语句可以包含多个条件,每个条件通过and或者OR分割,其中如果where包含很多条件,可以用圆括号表示意图,例如:where score <60and(sex='F' or name='lili')not连接符如下使用:where not (sex ='F')意思是选择性别不是'F'的学生2、条件类型2.1相等条件例如sex='F'...
2019-06-01 00:02:21
472
原创 teradata SQL学习(2)数据库查询入门
一、查询语句子句 使用 select 确定结果应该包括哪些列 from 指明所需要的列,以及这些表是如何连接的 where 过滤不需要的数据 group by 分组 having 过滤掉不需要的组 order by 按照某列排列 1.1select子句select 是第一个组成部分,但实际上他是最后被评估的,...
2019-05-31 23:20:05
1223
1
原创 teradata SQL学习(1)数据库的创建与使用
1、数据类型表中的每个列都与数据类型相关联。数据类型指定将在列中存储什么类型的值。Teradata支持多种数据类型。以下是一些常用的数据类型。数据类型 字节 值的范围 BYTEINT 1 -1288到+127 SMALLINT 2 -32768到+32767 INTEGER 4 -2,147,483,648到+2147,48...
2019-05-30 23:06:02
1505
原创 决策树与其可视化(python)
决策树的理论我就不说了,主要介绍怎么实(调)现(包),如下所示:from sklearn.tree import DecisionTreeClassifierdtc = DecisionTreeClassifier(criterion='gini',)dtc.fit(x_new,y_train)y_predict = dtc.predict(x_new2)skle...
2019-05-17 20:15:08
2204
原创 关于报错cannot import *** from pyecharts的问题解决
pyecharts是一个很强大的插件,安装也很简单,直接通过pip安装pyecharts 就可以了,但在使用过程的时候一直会报错,我的是cannot import name 'bar' from 'pyecharts' (D:\Program Files\Anaconda3\lib\site-packages\pyecharts\__init__.py)后来从pypi官网上下载了pyecha...
2019-05-16 02:07:56
10957
转载 python 3.6 透视表pivot_table和交叉表
1. 透视表pivot_table根据一个键或多个键做数据聚合,默认类型是:根据键值/键值对,计算分组平均数常规引入相关库import pandas as pdimport numpy as npfrom pandas import DataFrame,Series注意pivot_table 可以在DadaFrame或pandas中调用,以下是在DadaFrame中调用。...
2019-05-08 00:28:38
704
原创 模拟退火筛选变量
本文主要是采用模拟退火的方法选择变量,采取的评价方法是基于五折CV的auc值均值# -*- coding: utf-8 -*-"""Created on Sun Jan 27 23:15:34 2019模拟退火调筛选变量@author: 许竞"""from sklearn.cross_validation import cross_val_scoreimport ran
2019-01-28 14:30:49
862
原创 乱七八糟的
one-hot矩阵testdata = pd.DataFrame({'pet': ['chinese', 'english', 'english', 'math'], 'age': [6 , 5, 2, 2], 'salary':[7, 5, 2, 5]})nn=pd.get_dummies(t...
2019-01-10 00:22:42
185
原创 梯度下降
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度定义 导数与梯度 梯度的定义如下: 梯度的提出只为回答一个问题: 函数在变量空间的某一点处,沿着哪一个方向有最大的变化率? 梯度定义如下: 函数在某一点的梯度是这样一个向...
2019-01-07 22:10:30
311
原创 dataframe的横向合并
我们在用python处理数据的时候,很多时候会遇到数据合并的问题,我们在这里介绍DataFrame的合并问题,横向合并我们介绍三种方法:1.1 merge类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来。该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面。merge(left, right, how='inner', on=...
2019-01-06 23:22:14
17893
原创 pandas 读入文本
我们使用python做数据分析的时候,很多情况需要我们从本地读入,在这里我们主要总结如何使用pandas读入文本import pandas as pd#读入csv,设置header参数,读取文件的时候没有标题data=pd.read_csv(x,header=None)#names设置列名data2 = pd.read_csv("data.txt",names=["a","b"
2019-01-04 21:39:23
953
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人