Lord_sh-CSDN博客

原创 scala & spark调优

https://blog.csdn.net/lovehuangjiaju

2019-08-16 15:14:02 228

原创刷oj 刷oj

https://blog.csdn.net/code4101/article/details/40748663我的知乎刷题收藏专栏QQacfun群http://exp-blog.com/2018/06/28/pid-38/ 二分图的最大匹配（匈牙利算法）未做最大流的增广路算法（压入重标法、KM算法）未做不要在乎名次，掌握思维方式，才是最重要的...

2019-06-14 03:20:49 555

手写简单的json，可以用"""框起来def TestJson(): Unit = { val campaign_id = 1 val cid = 2 print( s"""{"campaign_id":$campaign_id, "cid":$cid}""" )}用转义字符报错s"{\"campaign_id\":$campaign_id, \"cohort_id\":$cohort_id}"';' expected but string literal .

2022-02-28 21:43:10 430

原创 markdown写作note

最近写东西用markdown了，一些基本的操作记录如下：Markdown文本样式（加粗、斜体、下划线、删除线、高亮、下标/上标）https://blog.csdn.net/zgdwxp/article/details/103156841Markdown插入表格语法https://www.jianshu.com/p/2df05f279331/...

2021-03-12 15:31:28 302

原创 tensorflow 分布式训练

一文说清楚Tensorflow分布式训练必备知识 - 杨旭东的文章 - 知乎 https://zhuanlan.zhihu.com/p/56991108

2021-01-05 11:45:25 299

原创 tensorflow 梯度freeze整理

面试的时候问了如何freeze 梯度，感觉自己tensorflow梯度处理这块很不熟，整理一下：optimizer.minimize函数是结合了两个函数：1. compute_gradients 2. apply_gradientscompute_gradients主要传入 loss和trainable_variables（这里就可以把freeze的参数过滤掉）apply_gradients 传入 (grads_and_vars)的pair listtf.losses.add..

2020-12-28 18:45:26 556 1

原创 fix Spark RDD生成成功，但是dump失败问题

最近碰到一个很奇葩的问题，RDD成功产生（rdd.take(100).mkstring("\n")成功打出），但是dump到hdfs失败，报如下的错误org.apache.parquet.io.InvalidRecordException: could not get child 3 from [GroupColumnIO user r:0 d:1 [user], GroupColumnIO items r:0 d:1 [items], PrimitiveColumnIO expId r:0 d:1

2020-12-04 17:08:04 237

原创对训练样本分布不均的思考

背景最近自己做一个游戏激活&付款预测的比赛，正负样本极其不均衡正样本：51969 负样本：87529147867(875亿+)和同事讨论之后+查资料之后，对正负样本不均有了一些新的理解。最后的理解样本的正负不均衡和模型学不好没有一定的联系。对于正负样本不均衡，但是正负样本都足够多的情况，模型还是可以学好的。可能数量巨多的那一类会过拟合。对于某类样本不够多的情况，需要提高该类权重或者新增该类样本。对于某类样本绝对多，并且噪声大的情况，对该类样本负采样，会减...

2020-11-21 10:29:18 2115

转载 Lombok的使用详解

Lombok的使用详解（最详尽的解释，覆盖讲解所有可用注解），解决@Builder.Default默认值问题https://www.cnblogs.com/shihaiming/p/11392983.html

2020-10-30 16:22:01 293 1

原创 tf.nn.fixed_unigram_candidate_sampler解释

最近看GraphSage的代码，发现了一个函数tf.nn.fixed_unigram_candidate_sampler理解这个函数的难点主要在：num_true、range_max，这两个参数上，直接上代码吧import tensorflow as tfdef test1(): vec = tf.constant([[1, 2, 3, 4, 6]], dtype=tf.int64) # vec = tf.reshape(vec, [-1, 1]) """ .

2020-10-28 10:06:09 865

原创 online learning

最近有在上线 ftrl；有篇文章先markhttps://tech.meituan.com/2016/04/21/online-learning.html

2020-10-10 14:27:53 175

原创对xgboost、lightgbm面向面试题的理解

intro：最近在公司做项目，用xgboost、lightgbm分析特征重要性，做个baseline，正好写下对xgboost和lightgbm最新的理解Chap01：正好看到一道面试题：我面试候选人时必问的一个问题GBDT中的梯度是什么对什么的梯度？给一个有m个样本，n维特征的数据集，如果用LR算法，那么梯度是几维? 同样的m*n数据集，如果用GBDT，那么梯度是几维？m维？n维？m*n维？或者是与树的深度有关？或者与树的叶子节点的个数有关？就这样一个简单的问题，面试过2位数的

2020-08-13 19:34:30 639

原创 scikit-learn 数据预处理

https://www.jianshu.com/p/580688e4a069

2020-07-29 10:12:44 808

原创 pandas数据处理实战记录

1. 不要用drop来删除dataframe中的某列，直接del df[col]

2020-07-13 20:51:34 214

原创微平均宏平均微平均(准确率、召回率、f1-score相等) 以及 TP、TN、FP、FN的理解

一种计算方法是把所有类别的一次性都考虑进来，计算类别预测的准确率。（微平均）另外还有一种是对每个类别分开考虑，计算单独每个类别的准确率，最后再进行算术平均得到该测试集的准确率。（宏平均）其中微平均 recall = precise = f1-score 无论是二分类还是多分类，因为要统计所有的类别，所以TP为各个类别分对的数目的总和， FP= FN 为各个类别分错数目的总和，recall = precise = 正确分类 / (正确分类 + 错误分类)https://zhuanlan..

2020-07-08 14:54:55 4095

原创 SettingwithCopyWarning: 如何在pandas中解决这个问题

中文全文翻译：https://zhuanlan.zhihu.com/p/41202576英文原文：https://www.dataquest.io/blog/settingwithcopywarning/

2020-06-19 16:31:13 183

原创推荐算法比赛内存不足处理办法

我直接扩大虚拟内存了，就是磁盘容量来增加swap内存大小，我扩大到了50ghttps://www.linuxidc.com/Linux/2018-10/154708.htm最近买了一个CentOS的云主机，因为贫穷限制了我购买的内存大小，只有500M，所以导致物理内存经常处于饱和状态，无奈虚拟内存设置的只有132M，理论上讲虚拟内存应该要有物理内存的2倍也就是1G大小才够用！又由于我安装其他工具，提示我内存不足，所以想用提高虚拟内存的方法去安装这个软件，本来都已经安装完了，今天我手贱把L.

2020-06-18 14:24:36 472

原创第二届易观算法大赛——性别年龄预测

https://www.tinymind.cn/competitions/43一、数据类型(1) 设备数据：每个设备上的应用安装列表，设备应用名都进行了hash处理【deviceid_packages.tsv】deviceid 安装设备id列表 00009270c4ec26e1d76f5d86847009c9 1896072db9ce6406febfc17f681c2086,90cb852cf345e04d508fe03f74089183,8c8544b6c129ad4a431

2020-06-17 10:47:33 906

原创 [机器学习] 调参工具

一、种类网格搜索、随机搜索、贝叶斯搜索二、Hyperopthttps://www.jianshu.com/p/35eed1567463

2020-06-14 17:37:40 317

原创 Maven conflict插件安装

idea pom右键没有依赖分析，于是：1. 装了maven helper这个插件（Settings→Plugins）2. restart idea3.在IntelliJ中打开项目的pom.xml文件，在文件编辑器的左下方，会看到两个tab，一个是“Text”，另一个是“Dependency Analyzer”：4.可以remove或者exclude了...

2020-05-16 12:36:34 429

原创 [工作]堆外内存泄露分析，进程内存远超申请堆大小

最近工作中碰到了内存泄漏的问题emmm，这曲线还真挺恐怖的。分析&解决过程：一、为啥没有fullGCps -ef 看了下虚拟机参数，发现堆空间就开了8g，这曲线都涨到14g了，问了下同事，曲线显示的是进程内存（堆内内存+堆外内存），所以下面就分别看下堆内内存和堆外内存的情况了。二、堆内内存的情况1. 先理解下内存模型内存模型// https:/...

2020-04-28 17:08:14 650

原创 [工作]内存泄漏分析

1. JProfile安装2.ps -ef | grep ai-dialog-guide-history3.jmap -dump:format=b,file=ai-dialog-guide-history.shenh.heap.hprof 444869attention: 不要加live（live子选项是可选的，假如指定live选项,那么只输出活的对象到文件.）http...

2020-04-26 15:05:10 362

原创 pandas中loc-iloc-ix的使用

1.pandas中loc-iloc-ix的使用https://www.jianshu.com/p/d6a9845a0a342、ix函数（0.20.0版本后已经弃用）ix就是一种混合索引，字符串的标签和证书的数据索引都可以作为合法输入，其实相当于loc和iloc的一个混合方法：test_dict_df.ix['Alice']test_dict_df.ix[1]上述...

2020-04-22 21:51:52 307

原创 Retrofit2

你真的会用Retrofit2吗?Retrofit2完全教程https://www.jianshu.com/p/308f3c54abdd/

2020-04-04 16:34:28 199

原创 gson 教程

你真的会用Gson吗?Gson使用指南（一） https://www.jianshu.com/p/e740196225a4

2020-04-04 16:24:55 263

原创 HashMap -> HashTable、SynchronizedMap -> CocurrentHashMap

做项目，有个多线程写入map的操作，做个笔记：1.漫画：什么是HashMap？https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653191907&idx=1&sn=876860c5a9a6710ead5dd8de37403ffc&chksm=8c990c39bbee852f71c9dfc587f...

2020-04-03 15:16:05 185

原创 Maven属性（properties）标签的使用

https://www.cnblogs.com/cuiqq/p/11023886.html1.Maven属性是值占位符，如Ant中的属性。它们的值可以通过使用符号${X}在POM中的任何位置访问，其中X是属性。2.当然除了在pom.xml使用自定义属性外，还可以在properties文件中使用，比如项目文件src/main/resources/jdbc.properties3.${p...

2020-04-03 10:04:56 509

转载 SVM hinge loss 理解

常见的损失函数(loss function)总结 - yyHaker的文章 - 知乎 https://zhuanlan.zhihu.com/p/58883095

2020-03-26 09:21:52 429

原创 tensorflow-server

Tensorflow Serving的从0到1 - 高清的文章 - 知乎 https://zhuanlan.zhihu.com/p/80658574

2020-03-21 18:38:27 332

转载【转】maven Failure to find xxx in 中央仓库

转自https://blog.csdn.net/FU250/article/details/84400426问题描述，本地仓库有该jar包，但是中央仓库没有该包，mvn编译时一直报如右错误：Failure to find com.sun:jai_codec:jar:1.1.3 in https://repo.maven.apache.org/maven2 was cached i...

2020-03-18 21:10:07 3151

原创自定义tensorflow optimizer

https://www.ctolib.com/luochuwei-Custom-Optimizer-in-TensorFlow.html

2020-03-13 14:00:25 1074

原创机器学习优化算法

这几天做一个推荐的项目，优化方法突然很重要，自己一直也没重视，知乎了几篇机器学习界有一群炼丹师，他们每天的日常是：拿来药材（数据），架起八卦炉（模型），点着六味真火（优化算法），就摇着蒲扇等着丹药出炉了。不过，当过厨子的都知道，同样的食材，同样的菜谱，但火候不一样了，这出来的口味可是千差万别。火小了夹生，火大了易糊，火不匀则半生半糊。作者：Juliuszh链接...

2020-03-13 11:40:31 254

原创 tensorflow SessionRunHook MonitoredTrainingSession

Hook? tf.train.SessionRunHook()介绍【精】https://blog.csdn.net/mrr1ght/article/details/81011280tf.train.MonitoredTrainingSession()解析【精】https://blog.csdn.net/mrr1ght/article/details/81006343cla...

2020-03-11 17:26:35 413

原创 rsync 使用

rsync -aP --rsh=ssh user@ip:***(src) ***（dst）

2020-03-07 16:52:31 377

转载 maven打包时加入依赖的包

<?xml version="1.0" encoding="UTF-8"?><project xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://maven.apache.org/POM/4.0.0" xsi:schemaLocation="http://m...

2020-03-05 15:37:14 345

原创 jupyter notebook 没有创建的conda kernel

进入对应的虚拟环境，然后 conda install nb_conda 就可以了

2019-10-15 17:30:31 554

原创数据挖掘竞赛资料

数据挖掘比赛通用框架http://www.cbdio.com/BigData/2016-08/16/content_5187960.htm手把手带你入门和实践特征工程的万字笔记（附代码下载）https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247486476&idx=1&sn=dad421fd939dd...

2019-09-30 10:49:44 267

转载 GDT,LDT,GDTR,LDTR 详解,包你理解透彻

一、引入保护模式下的段寄存器由 16位的选择器与 64位的段描述符寄存器构成段描述符寄存器：存储段描述符选择器：存储段描述符的索引段寄存器PS：原先实模式下的各个段寄存器作为保护模式下的段选择器，80486中有6个(即CS,SS,DS,ES,FS,GS)80位的段寄存器。由选择器CS对应表示的段仍为代码段，选择器SS对应表示的段仍为堆栈段。二、详解先说明一下...

2019-09-28 17:46:41 465

转载五一干货资料整理，在学习上的劳动才是最好的劳动！（包括：ML、DL、RL、Paper、NLP、CV、KG等）

https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247486557&idx=1&sn=5e2575a87a25e553408cfa5d54ffa4fe&chksm=eb5018cedc2791d82b5ed79d6d4ff5ba0ffe7b7258b852c2a5b16ddf4b649184597df23...

2019-09-27 14:42:34 920

转载 java的栈和堆

栈与堆都是Java用来在Ram中存放数据的地方。与C++不同，Java自动管理栈和堆，程序员不能直接地设置栈或堆。Java 的堆是一个运行时数据区,类的(对象从中分配空间。这些对象通过new、newarray、anewarray和multianewarray等指令建立，它们不需要程序代码来显式的释放。堆是由垃圾回收来负责的，堆的优势是可以动态地分配内存大小，生存期也不必事先告诉编译器，因为它是在...

2019-09-25 09:44:29 245

空空如也

空空如也