- 博客(120)
- 收藏
- 关注

原创 刷oj 刷oj
https://blog.csdn.net/code4101/article/details/40748663我的知乎刷题收藏专栏QQacfun群http://exp-blog.com/2018/06/28/pid-38/ 二分图的最大匹配 (匈牙利算法) 未做最大流的增广路算法(压入重标法、KM算法) 未做不要在乎名次,掌握思维方式,才是最重要的...
2019-06-14 03:20:49
555
原创 scala 裸写 json
手写简单的json,可以用"""框起来def TestJson(): Unit = { val campaign_id = 1 val cid = 2 print( s"""{"campaign_id":$campaign_id, "cid":$cid}""" )}用转义字符报错s"{\"campaign_id\":$campaign_id, \"cohort_id\":$cohort_id}"';' expected but string literal .
2022-02-28 21:43:10
430
原创 markdown写作note
最近写东西用markdown了,一些基本的操作记录如下:Markdown文本样式(加粗、斜体、下划线、删除线、高亮、下标/上标)https://blog.csdn.net/zgdwxp/article/details/103156841Markdown插入表格语法https://www.jianshu.com/p/2df05f279331/...
2021-03-12 15:31:28
302
原创 tensorflow 分布式训练
一文说清楚Tensorflow分布式训练必备知识 - 杨旭东的文章 - 知乎 https://zhuanlan.zhihu.com/p/56991108
2021-01-05 11:45:25
299
原创 tensorflow 梯度freeze整理
面试的时候问了如何freeze 梯度,感觉自己tensorflow梯度处理这块很不熟,整理一下:optimizer.minimize函数是结合了两个函数:1. compute_gradients 2. apply_gradientscompute_gradients主要传入 loss和trainable_variables(这里就可以把freeze的参数过滤掉)apply_gradients 传入 (grads_and_vars)的pair listtf.losses.add..
2020-12-28 18:45:26
556
1
原创 fix Spark RDD生成成功,但是dump失败问题
最近碰到一个很奇葩的问题,RDD成功产生(rdd.take(100).mkstring("\n")成功打出),但是dump到hdfs失败,报如下的错误org.apache.parquet.io.InvalidRecordException: could not get child 3 from [GroupColumnIO user r:0 d:1 [user], GroupColumnIO items r:0 d:1 [items], PrimitiveColumnIO expId r:0 d:1
2020-12-04 17:08:04
237
原创 对训练样本分布不均的思考
背景最近自己做一个游戏激活&付款预测的比赛,正负样本极其不均衡正样本:51969 负样本:87529147867(875亿+)和同事讨论之后+查资料之后,对正负样本不均有了一些新的理解。最后的理解样本的正负不均衡和模型学不好没有一定的联系。对于正负样本不均衡,但是正负样本都足够多的情况,模型还是可以学好的。可能数量巨多的那一类会过拟合。对于某类样本不够多的情况,需要提高该类权重或者新增该类样本。对于某类样本绝对多,并且噪声大的情况,对该类样本负采样,会减...
2020-11-21 10:29:18
2115
转载 Lombok的使用详解
Lombok的使用详解(最详尽的解释,覆盖讲解所有可用注解),解决@Builder.Default默认值问题https://www.cnblogs.com/shihaiming/p/11392983.html
2020-10-30 16:22:01
293
1
原创 tf.nn.fixed_unigram_candidate_sampler解释
最近看GraphSage的代码,发现了一个函数tf.nn.fixed_unigram_candidate_sampler理解这个函数的难点主要在:num_true、range_max, 这两个参数上,直接上代码吧import tensorflow as tfdef test1(): vec = tf.constant([[1, 2, 3, 4, 6]], dtype=tf.int64) # vec = tf.reshape(vec, [-1, 1]) """ .
2020-10-28 10:06:09
865
原创 online learning
最近有在上线 ftrl; 有篇文章先markhttps://tech.meituan.com/2016/04/21/online-learning.html
2020-10-10 14:27:53
175
原创 对xgboost、lightgbm面向面试题的理解
intro:最近在公司做项目,用xgboost、lightgbm分析特征重要性,做个baseline,正好写下对xgboost和lightgbm最新的理解Chap01:正好看到一道面试题:我面试候选人时必问的一个问题GBDT中的梯度是什么对什么的梯度? 给一个有m个样本,n维特征的数据集,如果用LR算法,那么梯度是几维? 同样的m*n数据集,如果用GBDT,那么梯度是几维?m维?n维?m*n维?或者是与树的深度有关?或者与树的叶子节点的个数有关?就这样一个简单的问题,面试过2位数的
2020-08-13 19:34:30
639
原创 微平均 宏平均 微平均(准确率、召回率、f1-score相等) 以及 TP、TN、FP、FN的理解
一种计算方法是把所有类别的一次性都考虑进来,计算类别预测的准确率。(微平均)另外还有一种是对每个类别分开考虑,计算单独每个类别的准确率,最后再进行算术平均得到该测试集的准确率。(宏平均)其中微平均 recall = precise = f1-score 无论是二分类还是多分类, 因为要统计所有的类别, 所以TP为各个类别分对的数目的总和, FP= FN 为各个类别分错数目的总和,recall = precise = 正确分类 / (正确分类 + 错误分类)https://zhuanlan..
2020-07-08 14:54:55
4095
原创 SettingwithCopyWarning: 如何在pandas中解决这个问题
中文全文翻译:https://zhuanlan.zhihu.com/p/41202576英文原文:https://www.dataquest.io/blog/settingwithcopywarning/
2020-06-19 16:31:13
183
原创 推荐算法比赛内存不足处理办法
我直接扩大虚拟内存了,就是磁盘容量来增加swap内存大小, 我扩大到了50ghttps://www.linuxidc.com/Linux/2018-10/154708.htm最近买了一个CentOS的云主机,因为贫穷限制了我购买的内存大小,只有500M,所以导致物理内存经常处于饱和状态,无奈虚拟内存设置的只有132M,理论上讲虚拟内存应该要有物理内存的2倍也就是1G大小才够用!又由于我安装其他工具,提示我内存不足,所以想用提高虚拟内存的方法去安装这个软件,本来都已经安装完了,今天我手贱把L.
2020-06-18 14:24:36
472
原创 第二届易观算法大赛——性别年龄预测
https://www.tinymind.cn/competitions/43一、 数据类型(1) 设备数据:每个设备上的应用安装列表,设备应用名都进行了hash处理【deviceid_packages.tsv】deviceid 安装设备id列表 00009270c4ec26e1d76f5d86847009c9 1896072db9ce6406febfc17f681c2086,90cb852cf345e04d508fe03f74089183,8c8544b6c129ad4a431
2020-06-17 10:47:33
906
原创 [机器学习] 调参工具
一、 种类网格搜索、随机搜索、贝叶斯搜索二、Hyperopthttps://www.jianshu.com/p/35eed1567463
2020-06-14 17:37:40
317
原创 Maven conflict插件安装
idea pom右键没有依赖分析,于是:1. 装了maven helper这个插件(Settings→Plugins)2. restart idea3.在IntelliJ中打开项目的pom.xml文件,在文件编辑器的左下方,会看到两个tab,一个是“Text”,另一个是“Dependency Analyzer”:4.可以remove或者exclude了...
2020-05-16 12:36:34
429
原创 [工作]堆外内存泄露分析,进程内存远超申请堆大小
最近工作中碰到了内存泄漏的问题emmm, 这曲线还真挺恐怖的。分析&解决过程:一、 为啥没有fullGCps -ef 看了下虚拟机参数,发现堆空间就开了8g,这曲线都涨到14g了,问了下同事,曲线显示的是进程内存(堆内内存+堆外内存),所以下面就分别看下堆内内存和堆外内存的情况了。二、 堆内内存的情况1. 先理解下内存模型内存模型// https:/...
2020-04-28 17:08:14
650
原创 [工作]内存泄漏分析
1. JProfile安装2.ps -ef | grep ai-dialog-guide-history3.jmap -dump:format=b,file=ai-dialog-guide-history.shenh.heap.hprof 444869attention: 不要加live(live子选项是可选的,假如指定live选项,那么只输出活的对象到文件.)http...
2020-04-26 15:05:10
362
原创 pandas中loc-iloc-ix的使用
1.pandas中loc-iloc-ix的使用https://www.jianshu.com/p/d6a9845a0a342、ix函数(0.20.0版本后已经弃用)ix就是一种混合索引,字符串的标签和证书的数据索引都可以作为合法输入,其实相当于loc和iloc的一个混合方法:test_dict_df.ix['Alice']test_dict_df.ix[1]上述...
2020-04-22 21:51:52
307
原创 Retrofit2
你真的会用Retrofit2吗?Retrofit2完全教程https://www.jianshu.com/p/308f3c54abdd/
2020-04-04 16:34:28
199
原创 HashMap -> HashTable、SynchronizedMap -> CocurrentHashMap
做项目,有个多线程写入map的操作,做个笔记:1.漫画:什么是HashMap?https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653191907&idx=1&sn=876860c5a9a6710ead5dd8de37403ffc&chksm=8c990c39bbee852f71c9dfc587f...
2020-04-03 15:16:05
185
原创 Maven属性(properties)标签的使用
https://www.cnblogs.com/cuiqq/p/11023886.html1.Maven属性是值占位符,如Ant中的属性。它们的值可以通过使用符号${X}在POM中的任何位置访问,其中X是属性。2.当然除了在pom.xml使用自定义属性外,还可以在properties文件中使用,比如项目文件src/main/resources/jdbc.properties3.${p...
2020-04-03 10:04:56
509
转载 SVM hinge loss 理解
常见的损失函数(loss function)总结 - yyHaker的文章 - 知乎 https://zhuanlan.zhihu.com/p/58883095
2020-03-26 09:21:52
429
原创 tensorflow-server
Tensorflow Serving的从0到1 - 高清的文章 - 知乎 https://zhuanlan.zhihu.com/p/80658574
2020-03-21 18:38:27
332
转载 【转】maven Failure to find xxx in 中央仓库
转自https://blog.csdn.net/FU250/article/details/84400426问题描述,本地仓库有该jar包,但是中央仓库没有该包,mvn编译时一直报如右错误:Failure to find com.sun:jai_codec:jar:1.1.3 in https://repo.maven.apache.org/maven2 was cached i...
2020-03-18 21:10:07
3151
原创 自定义tensorflow optimizer
https://www.ctolib.com/luochuwei-Custom-Optimizer-in-TensorFlow.html
2020-03-13 14:00:25
1074
原创 机器学习优化算法
这几天做一个推荐的项目,优化方法突然很重要,自己一直也没重视,知乎了几篇机器学习界有一群炼丹师,他们每天的日常是:拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。作者:Juliuszh链接...
2020-03-13 11:40:31
254
原创 tensorflow SessionRunHook MonitoredTrainingSession
Hook? tf.train.SessionRunHook()介绍【精】https://blog.csdn.net/mrr1ght/article/details/81011280tf.train.MonitoredTrainingSession()解析【精】https://blog.csdn.net/mrr1ght/article/details/81006343cla...
2020-03-11 17:26:35
413
转载 maven打包时加入依赖的包
<?xml version="1.0" encoding="UTF-8"?><project xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://maven.apache.org/POM/4.0.0" xsi:schemaLocation="http://m...
2020-03-05 15:37:14
345
原创 jupyter notebook 没有创建的conda kernel
进入对应的虚拟环境,然后 conda install nb_conda 就可以了
2019-10-15 17:30:31
554
原创 数据挖掘竞赛资料
数据挖掘比赛通用框架http://www.cbdio.com/BigData/2016-08/16/content_5187960.htm手把手带你入门和实践特征工程的万字笔记(附代码下载)https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247486476&idx=1&sn=dad421fd939dd...
2019-09-30 10:49:44
267
转载 GDT,LDT,GDTR,LDTR 详解,包你理解透彻
一、引入保护模式下的段寄存器 由 16位的选择器 与 64位的段描述符寄存器 构成段描述符寄存器: 存储段描述符选择器:存储段描述符的索引段寄存器PS:原先实模式下的各个段寄存器作为保护模式下的段选择器,80486中有6个(即CS,SS,DS,ES,FS,GS)80位的段寄存器。由选择器CS对应表示的段仍为代码段,选择器SS对应表示的段仍为堆栈段。二、详解先说明一下...
2019-09-28 17:46:41
465
转载 五一干货资料整理,在学习上的劳动才是最好的劳动! (包括:ML、DL、RL、Paper、NLP、CV、KG等)
https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247486557&idx=1&sn=5e2575a87a25e553408cfa5d54ffa4fe&chksm=eb5018cedc2791d82b5ed79d6d4ff5ba0ffe7b7258b852c2a5b16ddf4b649184597df23...
2019-09-27 14:42:34
920
转载 java的栈和堆
栈与堆都是Java用来在Ram中存放数据的地方。与C++不同,Java自动管理栈和堆,程序员不能直接地设置栈或堆。Java 的堆是一个运行时数据区,类的(对象从中分配空间。这些对象通过new、newarray、anewarray和multianewarray等指令建立,它们不需要程序代码来显式的释放。堆是由垃圾回收来负责的,堆的优势是可以动态地分配内存大小,生存期也不必事先告诉编译器,因为它是在...
2019-09-25 09:44:29
245
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人