
深度学习相关
文章平均质量分 92
空字符(公众号:月来客栈)
Talk is cheap, show me your code.
展开
-
LSTM与GRU有什么联系和区别?
LSTM结构中的C(cell),和GRU结构中的H(隐藏单元),有什么联系和区别?LSTM中的C和GRU中的H都是经过了遗忘和输入门(GRU中的更新们也是由遗忘和输入门组成的),也都是未经过输出门而直接往后传递的。他们有什么区别呢?我自己的猜想:GRU的重置门就相当于LSTM中的更新门。LSTM中的C经过输出门之后形成了H,因为有输出门所以H更关注当前状态的信息,而C携带者之前的所有状态的...原创 2020-04-04 20:51:23 · 1686 阅读 · 0 评论 -
When Will You Arrive Estimating Travel Time Based on Deep Neural Networks
1. 背景这是一篇发表在2018AAAI上面的文章,其目的是通过对历史车辆轨迹的学习,然后用于预测车辆的通勤时间(Travel Time Estimation),也就是给定一条路径,然后预测从起点到终点所需要的时间。在先前的论文中,对于一条路径travel time的预测主要有两种方式:Individual vs. Collective,也就是单独预测和整体预测。所谓单独预测就是将整个路径划...原创 2019-07-30 16:28:35 · 1285 阅读 · 0 评论 -
Deep Multi-View Spatial-Temporal Network for Taxi Demand Prediction
1.背景这篇文章是滴滴出现发表在AAAI2018会议上的文章,其目的是通过历史订单数据来预测下一时刻城市中区域iii的订单量,也就是demand prediction。在论文的摘要部分作者说到:传统的demand prediction methods 通常都是从时序的角度来进行建模处理而忽略了复杂的时空间的非线性依赖关系。因此这篇文章采用了从多视角(Spatial View, Temporal ...原创 2019-06-22 21:29:45 · 1489 阅读 · 0 评论 -
浅谈Attention注意力机制及其实现
1. 什么是注意力机制1.1 注意力机制的思想关于什么是注意力机制,粗略的描述就是“你正在做什么,你就将注意力集中在那一点上”。这种机制就和人脑在思考问题时一样。例如我们在思考将句子“我是一个学生”翻译成英文的时候,脑子中首先想到的就是“我”⟷\longleftrightarrow⟷ "I"的这样一种映射(而不是先想到其它部分),这就是注意力机制在人脑中的表现。即,我们在按词组依次翻译这句话的...原创 2019-06-03 16:01:26 · 4834 阅读 · 0 评论 -
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions1. 背景这是一篇发表在IJCAI2018上的文章,同我们先前介绍的PredRNN一样都出自清华大学的同一团队。其所要解决的问题依旧是视频预测问题(或者说只要数据格式满足frames-like都行)。作者认为,传统的RNN模型在训练速度上慢,且由于传统RNN的连接方式(过长的时序依赖)导...原创 2019-05-05 08:36:44 · 1198 阅读 · 0 评论 -
Predicting Multi-step Citywide Passenger Demands Using Atention-based Neural Networks
1. 背景这是一篇发表在 WSDM 2018上的文章,其所要解决的问题同前篇文章介绍的一样,都是解决流量预测的问题。只是这篇论文是预测接下来几个时刻的流量(Multi-step)。而为什么作者要提出Multi-step demand prediction呢?作者认为,Multi-step demand prediction不仅能够体现流量变化的趋势,而且能够表达处全局的变化,从而能够避免因临时...原创 2019-04-23 11:31:24 · 1389 阅读 · 3 评论 -
带注意力机制的Seq2Seq翻译模型
1.注意力机制原理上一篇博文介绍了如何使用Tensorflow来搭建一个简单的NMT模型,但那只是一个初级的模型。下面我们通过加入注意力机制(attention mechanism)来使得其变得更加高级一点。关于什么时注意力机制呢,笔者就按照谷歌NMT开源文档中的说明来简单介绍一下。首先,最初注意力是由Bahdanau等人在2015年提出的,紧接着Luong等人又对其进行了改进,然后就出现了很...原创 2019-04-18 09:18:56 · 2327 阅读 · 0 评论 -
使用Tensorflow搭建一个简单的Seq2Seq翻译模型
1.背景首先,这篇博文整理自谷歌开源的神经机器翻译项目Neural Machine Translation (seq2seq) Tutorial。如果你直接克隆这个项目按照Tutorial中的说明操作即可,那么也就不用再往下看了。而之所以写这篇博文的目的是,虽然Seq2Seq的原理并不太难,但是在用Tensorflow实现起来的时候却不那么容易。即使谷歌开源了源码,但是对于初学者来说面对复杂的...原创 2019-04-16 14:34:13 · 2009 阅读 · 0 评论 -
Flow Prediction in Spatio-Temporal Networks Based on Multitask Deep Learning
这是一篇郑宇团队2019年发表在 **IEEE Transactions on Knowledge and Data Engineering** 杂志上的一篇论文。 从题目来看文章提出的模型是一个多任务模型,在阅读文论之后发现是为了解决两个问题: ①流量预测;(同论文 [上一篇博文介绍的论文一样](https://blog.csdn.net/The_lastest/article/de...原创 2019-04-01 19:57:59 · 2446 阅读 · 9 评论 -
如何设置学习率
1.三角法(一)import matplotlib.pyplot as pltdef get_learning_rate(base_lr, step, epoch): flag = 1.0 if epoch % 2 == 1: flag *= -1 return base_lr + flag * stepif __name__ == '_...原创 2019-03-08 10:35:14 · 1147 阅读 · 0 评论 -
PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs
这是一篇2017年发表在顶级期刊NIPS上的文章,作者通过发现传统RNN/LSTM网络的不足,提出了一种新的网络结构PredRNN,并且为这一网络结构设计了一种新的RNN单元(ST-LSTM)。由于博主能力有限,通过阅读原文短时间能只是领悟到PredRNN这一网络结构的思想,而并未对ST-LSTM的设计灵感有更深的体会。下面这篇博文主要是来介绍一下什么是PredRNN,以及通过作者的设计思路...原创 2019-03-06 13:09:36 · 3952 阅读 · 0 评论 -
LC-RNN: A Deep Learning Model for Traffic Speed Prediction
1.背景下面所介绍是2018年发表在IJCAI上的一论文,其主要解决的问题是预测接下来几个时间间隔内,某条道路上车辆行驶的平均速度。其关键点在于作者提出了用"look-up"这一方法来构造由每条道路及其相连接道路所形成的速度矩阵,接着用CNN来提取相邻“道路速度”的空间依赖关系,然后进一步采用LSTM从时间序列的角度来提取特征;最后融合天气和周期信息等最为整个网络的输出。我们知道在实际情况中...原创 2018-12-25 15:28:08 · 2089 阅读 · 4 评论 -
Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction
本博文是对郑宇老师团队所提出的STResNet网络的一个略微扩充说明。本人自己在看完这篇论文的时候,感觉就一个字‘懵’。你说不懂吧,好像又明白点,你说懂吧又感觉有好多细节还是不清楚。好在该论文开放了源代码。经过对源代码的一番剖析,总算是弄懂之前不明白的一些细节。不过该源码是基于Keras实现的,由于本人之前一直使用Tensorflow,所以又对其利用tf进行了重构,代码整体上看起也来更加简洁,地...原创 2018-12-14 12:48:03 · 7639 阅读 · 44 评论 -
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting
这篇文章来大致介绍一下ConvLSTM的基本原理和应用场景。个人认为有时候对于一个算法改进很大程度上会受到应用场景的启示,比如现在要说的这篇。不知道论文作者当时想到这个idea时是不是也是这样。1.论文的核心思想先来想象一下这么一个应用场景:根据某个城市历史的降雨量数据,来预测在接下来的某个时间t降雨量的多少。根据作者的思路:a.先将城市划分成m×nm\times nm×n的格子(a1,...原创 2018-11-20 16:45:52 · 10505 阅读 · 6 评论 -
Understanding LSTM Networks
Understanding LSTM Networks,Posted on August 27, 2015在以下翻译中,循环神经网络均指最原始的RNNs Recurrent Neural Networks(循环神经网络的前世今生)人们每次在思考问题的时候都不会从头再来,先前得到的信息会记忆在大脑中,当后面需要的时候可以直接拿来用。就像你在阅读这篇文章一样,你不会每次在阅读下一个字的时候都...翻译 2018-10-26 16:29:20 · 1206 阅读 · 1 评论 -
浅谈残差网络(Residual Network)
最近看了一些有关ResNet的博客和文章,目的在于想要弄清楚①为什么出现了残差网络?②残差网络的思想1.为什么出现了残差网络?在深度学习领域,一直以来(直觉上)就认为:网络层数越深提取到的特征就应该越高级,从而最终的效果就应该更好。不然也不会有从一开始LeNet5的5层网络发展到了后来的VGG的19层网络。于是为了达到更好的网络效果,deeper们又开始加深网络的层数,可这次迎来的确不是网...原创 2018-09-23 09:22:09 · 6366 阅读 · 2 评论