
python
浮汐
这个作者很懒,什么都没留下…
展开
-
Python的线程与进程
这里写目录标题1. 线程与进程2. 线程与进程的区别3. ThreadPoolExecutor线程池简单使用as_completedmap1. 线程与进程进程是资源分配的最小单位,线程是CPU调度的最小单位。线程可以让应用程序并发的执行多个任务,线程之间方便共享资源,进程之间信息难以共享。2. 线程与进程的区别引用知乎大佬的比喻,进程=火车,线程=车厢:线程在进程下进行(单纯的车厢无法运行)一个进程可以包含多个线程(一辆火车可以有多个车厢)不同进程之间的资源不容易共享,而一个进程下不同线程之原创 2020-12-18 15:18:32 · 153 阅读 · 0 评论 -
天池数据挖掘 -- 模型融合
1 模型融合目标对于多种调参完成的模型进行模型融合。2 内容介绍模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting);综合:排序融合(Rank averaging),log融合。stacking/blending:构建多层模...原创 2020-04-04 22:44:20 · 372 阅读 · 0 评论 -
天池数据挖掘 -- 建模调参
内容介绍1.线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;2.模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3.嵌入式特征选择:Lasso回归;Ridge回归;决策树;4.模型对比:常用线性模型;常用非线性模型;5.模型调参:贪心调参方法;网格调...原创 2020-04-01 17:52:57 · 530 阅读 · 0 评论 -
天池二手车价格预测 -- 特征工程
1. 学习内容异常处理特征归一化/标准化数据分桶缺失值处理特征构造特征筛选2. 导入相关模块和数据import pandas as pdimport numpy as npimport matplotlibimport matplotlib.pyplot as pltimport seaborn as sns train_df = pd.re...原创 2020-03-28 23:13:59 · 311 阅读 · 0 评论 -
pandas - qcut()和cut()区别
cut()定义:cut返回 x 中的每一个数据在bins中对应的范围。根据值本身来选择箱子均匀间隔,即每个箱子的间距都是相同的。语法:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)参数:x : 必须是一维数据bins: 不同面元(不同范围)类...原创 2020-03-23 17:56:32 · 986 阅读 · 0 评论 -
20种经纬度特征工程
1 两个经度/纬度的相减使用相邻经度进行相减,相邻纬度相减,类似于经纬度的绝对变化特征def lat_diff(lat1, lat2): return lat1 - lat2def lat_absdiff(lat1, lat2): return abs(lat1 - lat2)def lng_diff(lng1, lng2): return lng1 - ln...原创 2020-03-22 17:19:06 · 3134 阅读 · 0 评论 -
TF_IDF原理与实践
定义在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。tf-idf的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相关性进行...原创 2020-02-14 23:02:51 · 343 阅读 · 0 评论 -
对列进行平移变换shift
data = pd.DataFrame({'id':[1,1,1,2,2,3],'value':[1,2,3,4,5,6]})datadata['value_shift'] = data.groupby('id')['value'].shift(1);datatemp['value_shift_1'] = temp.groupby('id')['value'].shift(-1)t...原创 2019-10-14 09:08:21 · 450 阅读 · 0 评论 -
筛选重要特征的方法feature_importance_
排列表示:importances = model.feature_importances_ indices = np.argsort(importances)[::-1]feat_labels = X_train.columnsprint("Feature ranking:") # l1,l2,l3,l4 = [],[],[],[]for f in range(X_train.s...原创 2019-10-13 23:28:32 · 6435 阅读 · 2 评论 -
Merge, Join, Concat
Merge首先merge的操作非常类似sql里面的join,实现将两个Dataframe根据一些共有的列连接起来,当然,在实际场景中,这些共有列一般是Id,可以选择inner(默认),left,right,outer 这几种模式,分别对应的是内连接,左连接,右连接import numpy as npimport pandas as pddframe1 = pd.DataFrame({'...原创 2019-10-09 15:11:39 · 286 阅读 · 0 评论 -
数据分析-sklearn包
1、交叉验证:评估估算器的表现from sklearn.model_selection import train_test_split可以很快地将实验数据集划分为任何训练集(training sets)和测试集(test sets)X_train,X_test,y_train,y_test = train_test_split(data,target,test_size=0.4, rando...原创 2019-09-26 00:19:24 · 237 阅读 · 0 评论 -
数据分析-记录
1、特征重要性提取:对于xgb,lgb等模型,都会有model.feature_importance_方法,对特征的影响程度展示。2、函数参数(*arg,**kwargs)*args 用来将参数打包成tuple给函数体调用**kwargs 打包关键字参数成dict给函数体调用例子:3、删除多余变量的方法通过删除一整行index实现:data = { "a":[1,2,3]...原创 2019-09-25 20:17:08 · 240 阅读 · 0 评论 -
数据分析-np、pd常用函数
1、isin()作用:isin()接受一个列表,判断该列中元素是否在列表中。(1)如果是一个序列或者数组,那么判断该位置的值,是否在整个序列或者数组中import pandas as pd df = pd.DataFrame({'A':[1,2,3],'B':['a','b','f']})df.isin([1,'2','5','f'])(2)对pd中某一列的值做判断df['C']...原创 2019-09-19 18:54:33 · 3193 阅读 · 0 评论 -
数据的merge、concat操作
merge: 合并数据集, 通过left, right确定连接字段,默认是两个数据集相同的字段参数 说明left 参与合并的左侧DataFrameright 参与合并的右侧DataFramehow 连接方式:‘inner’(默认);还有,‘outer’、‘left’、‘right’on 用于连接的列名,必须同时存在于左右两个DataFrame对象中,如果位指定,则以left和right列...原创 2019-09-17 21:24:03 · 225 阅读 · 0 评论 -
爬虫-爬取腾讯热点
要求1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫4.实现:用selenium爬取https://news.qq.com/ 的热点精选,热点精选至少爬50个出来,存储成 csv 每一行如下 标号(从1开始),标题,链接,…(前三个为必做,后面内容可以自己加)import timefrom selenium import web...原创 2020-04-27 15:55:28 · 341 阅读 · 1 评论 -
爬虫-IP地址、selenium
IP地址QA:1.为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问2.如何应对IP被封的问题有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔3.如何获取代理IP地址从该网站获取: https://www.xicidaili.com/...原创 2020-04-25 21:32:18 · 1425 阅读 · 0 评论 -
爬虫BT4,Xpath,正则练习
1.中国大学排名定向爬取爬取url:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html爬取思路:1.从网络上获取大学排名网页内容2.提取网页内容中信息到合适的数据结构(二维数组)-排名,学校名称,总分3.利用数据结构展示并输出结果# 导入库import requestsfrom bs4 import BeautifulSoup...原创 2020-04-24 00:36:10 · 354 阅读 · 0 评论 -
爬虫-task1
HTTPHTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。这个客户端成为客户代理(user agent)。应答服务器上存储着一些资源码,比如HTML文件和图像。这个应答服务器成为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”...原创 2020-04-21 20:41:34 · 299 阅读 · 0 评论 -
python - 字典及基本操作
字典也是 Python 提供的一种常用的数据结构,它用于存放具有映射关系的数据。比如有份成绩表数据,语文:79,数学:80,英语:92,这组数据看上去像两个列表,但这两个列表的元素之间有一定的关联关系。如果单纯使用两个列表来保存这组数据,则无法记录两组数据之间的关联关系。为了保存具有映射关系的数据,Python 提供了字典,字典相当于保存了两组数据,其中一组数据是关键数据,被称为 key;另一...原创 2020-03-29 23:07:51 · 251 阅读 · 0 评论 -
python中的正则表达式
正则表达式对字符串的逻辑操作主要是对字符串的过滤,用‘元字符’和‘普通字符’组成一个字符串规则对已知的文本或者字符串过滤出自己想要的字符。're’模块是python中正则表达式的应用import re 1.正则表达式元字符\ 转义字符,将后边紧跟着的字符变成特殊字符,或将后边的特殊字符变成普通字符如:在正则表达式中,"\n"换行符,"\“则代表一个普通字符”"^ 匹配...原创 2019-09-08 14:51:45 · 574 阅读 · 0 评论 -
Python模块os
os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。walk()方法语法格式如下:`os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]])参数说明:top – 是你所要遍历的目...原创 2019-09-12 10:43:46 · 406 阅读 · 0 评论 -
DataFrame减少内存的常用函数
当遇到大量数字类型的数据时,通过把int64/float64类型的数值用更小的int(float)32/16/8来搞定,以达到实现减少内存使用的目的. 函数使用:data = pd.read_csv('path')reduce_mem_usage(data ) 函数内容:def reduce_mem_usage(df, verbose=True): numerics ...原创 2019-09-12 18:32:19 · 605 阅读 · 0 评论 -
数据分析之seaborn与热点图
一、安装pip install seabron二、分布图import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns1.distplot参数:kde是高斯分布密度图,绘图在0-1之间hist是否画直方图rug在X轴上画一些分布线fit可以制定某个分布进行...原创 2019-09-15 20:47:56 · 1122 阅读 · 0 评论 -
数据分析-展示缺失值情况并提取信息
一、展示缺失值详情#查看缺失值情况def missing_values(alldata): alldata_na = pd.DataFrame(alldata.isnull().sum(), columns={'missingNum'}) alldata_na['missingRatio'] = alldata_na['missingNum']/len(alldata)*100...原创 2019-09-15 22:41:37 · 858 阅读 · 0 评论 -
数据分析之交叉验证
一、交叉检验cross-validation(CV):以k-fold CV为例:在k个fold中,每个fold依次作为测试集、余下的作为训练集,进行k次训练,得到共计k个参数。把k个参数的均值作为模型的最终参数。优点:最大特点是不再浪费validation set大小的数据。在样本集不够大的情况下尤其珍贵。缺点:相同大小的数据集,需要进行更多的运算。二、使用cross-validatio...原创 2019-09-16 22:21:42 · 2820 阅读 · 0 评论 -
python - try-except 语句
异常可以通过 try 语句来检测. 任何在 try 语句块里的代码都会被监测, 检查有无异常发生。try 语句有两种主要形式: try-except 和 try-finally . 这两个语句是互斥的, 也就是说你只能使用其中的一种 . 一个 try 语句可以对应一个或多个 except 子句 , 但只能对应一个finally 子句, 或是一个 try-except-finally 复合语句....原创 2019-09-20 18:05:26 · 6155 阅读 · 0 评论 -
python中 zip()的使用和pandas中的列运算(map apply等)
map()函数语法:map(function,iterable…) -> function – 函数 iterable – 一个或多个序列案例s1 = [1,2,3,4,5] s2 = [6,7,8,9,10]s3 = map(lambda x,y:x*y,s1,s2)list(s3)>>>[6, 14, 24, 36, 50]zip() ...原创 2019-09-07 21:17:13 · 7052 阅读 · 0 评论