自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 资源 (2)
  • 收藏
  • 关注

原创 tmux 配置文件

#author : Xu Xiaodong xxdlhy@gmail.commodified : 2012 Jul 22#– base settings –set -g default-terminal “screen-256color” set -g display-time 3000 set -g escape-time 0 set -g history-limit 65535 se

2016-01-13 16:22:02 2788

原创 shell点滴

xshell 配色tmux 配置 这个也不错 Linux下终端利器tmuxshell命令awk join awk -F “\t” ‘NR==FNR {a[2]=2]=1;next}{if(2ina)printa[2 in a) print a[2]”\t”$0}’xargs 并行ls /* |xargs -P 16 -i python test_dhash.py {}1

2015-11-11 15:13:26 3014

原创 spark on hive

很多时候用spark处理数据,处理完后需要写回hive 数据仓库。 这时候用spark on hive 效率会高很多。rdd 处理完后, 先创建一个schemaschema = StructType([ StructField(“item_id”,StringType(), True), StructField(“feed_id”,StringType(), True), …

2015-10-30 10:38:02 3758

原创 技术文章聚类

机器学习数据平台Mesos资源调度与管理的深入分享与交流,基于Spark、Mesos、Hue、HDFS 等开源技术的多租户通过Mesos、Docker和Go,使用300行代码创建一个分布式系统大数据架构师基础:hadoop家族,Cloudera系列产品介绍开源项目Marathon:让你的数据中心像谷歌一样运行使用Mesos来管理Docker集群HBase原理和设计不平衡数据下的机器学习

2015-08-28 15:15:03 2233 1

原创 thinking

我从阿里离职了

2015-08-25 17:04:44 3022

原创 我们是这样理解语言的

qq 我们是这样理解语言的 我们是这样理解语言的-2统计语言模型我们是这样理解语言的-3神经网络语言模型

2015-07-28 15:44:32 2523

转载 文本特征提取方法研究

文本特征提取方法研究 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖

2015-06-02 15:12:44 12384

转载 NLP 概念

信息熵 条件熵 联合熵 左右熵 互信息最近用到信息论的知识表较多,自己也总结下。1 信息熵(entropy)定义式:其中P(x)是变量出现的概率。从直观上,信息熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排

2015-06-02 15:03:32 3272

转载 语义分析的一些方法(三)

3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里,人工特征提取是一个巨大的消耗性工作。

2015-06-02 10:29:12 15751

转载 语义分析的一些方法(一)

语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or imag

2015-06-02 10:28:22 9438

转载 语义分析的一些方法(中篇)

2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型的应用以及最新进

2015-06-02 10:28:12 9249

转载 特征简约(feature reduce)方法比较

从理论上讲,特征维度越多,需要的样本就越多,否则计算出来的分类模型和一个普通 的线性模型差不多。比如在采用 svm 进行分类的时候,如果维度大而样本少,其结果和不 采用任何非线性核函数的结果差不多。另外一方面,如果纬度太多,任何算法的计算速度都 会下降很严重。特征简约(feature reduce)是一种常见的降维技术(即减少特征维度),它 通常有如下几种技术: 1111)df df df

2015-05-19 20:18:54 2717

原创 learning to rank

Learning To Rank之LambdaMART的前世今生 讲的很好LambdaMART简介——基于Ranklib源码(一lambda计算)lambda计算细节LambdaMART简介——基于Ranklib源码(二 Regression Tree训练)LambdaMART的源码分析:二(LambdaMART的流程)

2015-05-04 19:02:44 2250

原创 nlp 文本技术归纳

一直在做文本处理,但感觉做的很分散 没有系统,也没有发现很好的关于NLP的书籍。如果有,请推荐。 现在尝试着总结自己遇到的文本处理技术。1、工具linux 文本处理工具 awk sed 比较常用 推荐两篇左耳朵耗子的博客。我很喜欢的大牛,还有幸和他聊了20分钟,O(∩_∩)O哈哈~ AWK 简明教程 sed 简明教程 python 文本处理 这个也是文本处理的常

2015-03-29 09:41:16 3676

原创 python 点滴

元祖排序 sorted(a, key=lambda item:item[1],reverse = True)ubuntu apt-get install libopenblasexport LD_LIBRARY_PATH=/usr/lib/openblas-base/ gcc -o test_cblas_open test_cblas_dgemm.c -I /your_path/OpenB

2015-03-16 10:06:36 2959

原创 rnn 相关

gate rnnrnn-lstm textDeep Sentence Embedding Using the Long Short Term Memory Network: Analysis and Application to Information RetrievalSEMANTIC MODELLING WITH LONG-SHORT-TERM MEMORY FOR INFORMATION

2015-03-03 14:14:16 3337

原创 NLP papers

收集的比较好的NLP 论文 资料maxentcrfRNNlstmmaxentcrfRNN1、 一个日本人讲的rnn http://computing.dcu.ie/~tokita/CA684tsuyoshi.pdf2、 将lstm 用于信息检索 论文说比微软的DSSM高两个点,貌似不错。 不过最喜欢的还是论文后面的对lstm的详细推到 Deep Sentence Em

2015-03-02 17:54:32 3532

原创 word2vec

word2vec 资料收集word2vec Parameter Learning ExplainedDeep Learning in NLP (一)词向量和语言模型word2vec 中的数学原理详解

2015-03-02 11:19:49 3165

原创 搜索 学习

搜索 日志 分析用户集体智慧  yongx

2014-07-13 10:08:53 4030

原创 deep learning in NLP

Word2vec在事件挖掘中的调研   sehttp://blog.csdn.net/shuishiman/article/details/20769437

2014-07-09 10:23:32 1442

原创 gbdt 资料

yahoop gbdt实现http://lccc.eecs.berkeley.edu/Slides/YeChChZh10_slides.pdf

2014-04-26 15:57:43 1168

转载 Git - 简易指南

编者注:本文只是对原文内容作了文字版整理,未作任何更改,文章更注重对 Git 思想的阐述。下面是原文内容。助你开始使用 git 的简易指南,木有高深内容。 ;)作者:罗杰·杜德勒感谢:@tfnico,@fhd and Namics如有纰漏,请到 github 填报安装下载 git OSX 版下载 git Windows 版下载 git Lin

2014-04-02 11:28:36 837

原创 Linux下常用文本处理命令

Linux下面有很多经典的非常有用的命令,其中处理文本的命令就有很多。这些小工具经过了几十年时间的洗礼,现在已经变成了经典,已经变成了Linux下面的标准,其实它们一直是遵循着Linux的标准。下面就让我们一起看看这些经典的Linux文本处理命令。一. sort文件排序, 通常用在管道中当过滤器来使用. 这个命令可以依据指定的关键字或指定的字符位置, 对文件行进行排序. 使用-m选

2014-02-19 19:20:28 1334

转载 NumPy学习笔记

[转]NumPy学习笔记 收集者:Keengle(http://www.kgblog.net)http://www.techwork.cn/paul/?p=530最近在学习scipy。在理解scipy之前,numpy作为scipy基本的模块之一,是不得不去理解掌握的。先总结一下numpy部分的内容吧。接下来学习scipy,最后是pylab和Matplotlib。介绍

2014-01-01 23:46:36 1288

转载 那些算法在哪里?

本文来源于一篇stackexchange的问题回答。提问者问到,我们在计算机科学和数学课程里面学习到的那些算法,到底在什么地方用到了?结果Vijay D给出一个洋洋洒洒的深入回答,得到了提问者和众多围观。我们将这篇回答翻译过来以飨读者。Vijay D写到:在我看来,一个系统背后主要发挥作用的算法更容易在非算法课程上找到,这和应用数学中的成果比理论数学中更容易出现在应用中

2013-12-08 20:31:24 2005

原创 solr 使用

数据导入  java -jar post.jar *.xml  java -Ddata=args -jar post.jar '42'  java -Ddata=stdin -jar post.jar   java -Durl=http://localhost:8983/solr/update/csv -Dtype=text/csv -jar post.jar *.

2013-11-25 21:11:45 1074

原创 mahout 资料 收集 集锦

Canopy Clustering(mahout实现)http://www.r66r.net/?p=3045

2013-11-13 22:36:49 1078

原创 hadoop 错误

Invalid directory in dfs.data.dir: Incorrect permission for /hadoop/hadoop-data, expected: rwxr-xr-x, while actual: rwxrwxr-x。hadoop集群dfs.data.dir目录权限问题导致节点无法启动

2013-11-13 21:16:06 1402

转载 Hadoop安装 SSH无密码验证 登录

http://leezk.com/2013/09/hadoop/hadoop-ssh%E6%97%A0%E5%AF%86%E7%A0%81%E9%AA%8C%E8%AF%81-217SSH无密码验证 应该算是Hadoop环境配置中最麻烦的一个环节了,稍不主要就会出差错。Hadoop的安装配置其实很简单,但是实现  SSH无密码验证 并不那么轻松配成功,下面是我配置  SSH

2013-11-09 22:08:10 2986

原创 hadoop 2.2 错误总结

Hadoop 2.2.0 - warning: You have loaded library /home/hadoop/2.2.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard.Unable to load native-hadoop library for your platform.

2013-11-09 22:06:39 28834

原创 Linux 常用文本命令 总结

查看端口占用情况netstat  -tuanp

2013-11-01 21:13:05 1291

转载 What are some good resources for learning about machine learning? Why

quora 上发现找到的。大家share吧PrerequisitesBefore you get to think about algorithms look carefully at the data and select all the relevant features to include in your model. See this talk by Jeremy

2013-10-29 11:24:40 3053

原创 相关资源

最近出来实习,泪奔,没时间学习了,把一些觉得很好但是没时间看的资源放这 以后学习如果说理解一个技术的最高境界,就是能够用最简单的方式将这个技术表达出来的话,那么Igor对于CPU Cache的理解绝对达到了此境界。他的博文:Gallery of Processor Cache Effects http://t.cn/hrXwvb 7个简单至极的代码示例,覆盖了Cache Line、

2013-07-26 09:32:52 1683

转载 chinaunix 内核源码分析精贴

1. 内核学习方法,编译、调试等常见问题1.1 关于编译升级内核到2.6.0的一些问题 作者:ommm        http://linux.chinaunix.net/bbs/thread-281831-1-5.html1.2 VMWare Workstation 6.0调试Linux Kernel,竟如此方便 作者:albcamus        http://linux

2013-07-25 16:08:24 2912

转载 linux 内核 内存管理

内存管理应该是linux内核里最复杂的子系统之一。 涉及到的有mmu虚拟内存,内存映射,小内存slab 管理,文件系统到内存的映射,进程虚拟内存空间 等待等等。一图胜千言看了上面一幅图,在仔细理解下面一小段文字,对内存管理应该能理解个大概1. 内核初始化:    * 内核建立好内核页目录页表数据库,假设物理内存大小为len,则建立了[3G--3G+len

2013-05-25 14:58:34 2604

原创 Linux 内核 Completely Fair Scheduler (cfs)调度算法

linux内核调度在2.6.23 之前使用的大名鼎鼎的O(1)算法。O(1) 调度器跟踪运行队列中可运行的任务(实际上,每个优先级水平有两个运行队列 — 一个用于活动任务,一个用于过期任务), 这意味着要确定接下来执行的任务,调度器只需按优先级将下一个任务从特定活动的运行队列中取出即可)。 O(1) 调度器扩展性更好而且包含交互性,提供了大量启示用于确定任务是受 I/O 限制还是受处理器限制。

2013-05-24 15:59:21 3993

原创 uboot 中s3c2440 usb ohci 及u盘移植

因为boss的一个蛋疼项目,需要裸板运行。而且要求要有能够外接u盘的功能。最开始想自己写一个ohci 协议栈。看了两个月的usb协议的书,感觉看的懂,信心百赠。但是当实现起来时发现困难重重,个人认为无法实现。然后看各种代码,先看的是linux usb那些事,想从linux 内核里面扣一点代码出来加以利用,但是发现里面的水太深,看懂一份代码和实现一部分代码简直是两回事,并且linux里面盘根错节,依

2013-05-22 19:15:27 4734 1

原创 认真写点博客

计划把自己学习的东西都记录一下。以前总认为懂了就懂了,但发现很久不用就都忘了,最后还要到处去查相关的资料,查找也是件很痛苦的事,且浪费很多时间。首先想把linux内核东西给理一遍,把该记住的重点都记录一下,其次嵌入式开发可能会有一点。算法的,就把我学习简单算法的代码贴一遍吧。机器学习的,本人菜得很,都转发一下大年写的东西吧。 总之,把学习了的东西都记录一边,方便以后自己查看,也分享一下

2013-05-22 10:21:24 843

原创 windows 下的嵌入式开发

我以前一直是一个linux控,但是在移植uboot 的过程中,却感受到用linux有时候真的很痛苦。1 因为是移植,所以经常要对照比较代码,所以弄了一个双屏,但是linux双屏真不好弄(我的第二屏是DVI ),所以搞了很久(一天)都无法达到正常的分辨率。失望。 而在windows 能自动识别双屏2 linux 的桌面系统真的烂的不行。我使用eclipse开发的,别给我说vi

2013-05-22 10:03:55 2942

原创 2013腾讯实习 面试记录

应该算人生的第一次面试吧。本科因为保研,完全没心思想去获得一点面经,以为找工作还早。。。。 结果该来的迟早会来的开始正题吧。腾讯来学校的时候我不知道,而是在笔试前一天的中午在食堂吃饭听说腾讯明天笔试才知道的。中午匆匆回去在网上填了简历。不过当天晚上并没有收到第二天笔试的短信,但我还是去了。因为我以为会给我发短信的,我也没有自带简历,但去的时候hr 很好,安排了强笔的教室,而且在我说

2013-05-21 20:26:57 2267

spring+struts

刘长炯先生的电子文档.与大家共享,希望不要侵权啊

2008-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除