- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 深度学习模型CPT的环境配置经验
CPT code: https://github.com/fastnlp/CPTCPT paper: https://arxiv.org/pdf/2109.05729.pdf数据预处理https://zhuanlan.zhihu.com/p/388830967 megatron-lm中的preprocess_data.py的详解, json格式中, 最重要的key, 即text有值即可用下面的命令, 准备训练数据集jsonfile="/Users/phoenixbai/workspace/
2022-04-02 13:56:54
2975
原创 ffmpeg 利用AVIOContext自定义IO 输出结果写buffer
前言工程开发中, 需要用到强大的音视频处理集成工具ffmpeg来实现音频的转码. 我们的需求是, 转码后的文件, 不落盘, 直接存到缓存中, 提供下一个模块使用.我们是C++工程, 直接读写缓存的方式来传递音频数据, 所以直接调用ffmpeg c api来实现这个功能是更简单直接的方案.虽说ffmpeg的例子满天飞, 真正使用api来实现缓存读写的, 真是寥寥无几. 我在doc/examples/transcoding.c的基础上, 增加了输出结果写到buffer的功能. 测试下来, 发现我api的输
2021-11-28 23:37:52
1430
原创 no space left on device
常见的"NO SPACE LEFT ON DEVICE" 的常见错误原因有两种:硬盘空间满了 df -hinodes数用完了 df -ih说明: inode为存储文件元信息的区域, 中文叫"索引节点", 详细说明, 可查看这篇文章: https://zhuanlan.zhihu.com/p/346096516我在做ASR时, 遇到了第三种原因, 即一个目录下可存放的文件数量达到了上限. 报错信息也是"NO SPACE LEFT ON DEVICE", 但用df -h , df -i查看后, 硬
2021-07-26 13:53:28
590
原创 环境配置常见问题集
问题: wget: /opt/anaconda3/lib/libuuid.so.1: no version information available (required by wget)解决: sudo find /usr -name “libuuid.so.1”若有找到, 则把相关路径加到LD_LIBRARY_PATH中即可, in my case /usr/lib64, 再source .bash_profile, 生效后, 错误信息就消失了....
2021-07-14 17:25:14
609
原创 CRF模型详解
条件随机场(CRF)是自然语言处理中的基础模型, 广泛用于分词, 实体识别和词性标注等场景. 随着深度学习的普及, BILSTM+CRF, BERT+CRF, TRANSFORMER+CRF等模型, 逐步亮相, 并在这些标注场景, 效果有显著的提升.下面是我学习CRF的学心总结, 看了多篇知乎, paper, 和CRF++的实现代码后, 终于有了深刻的理解.基础概念首先, 一起看一下随机过程, 随机场, 马尔可夫随机场的定义, 在最后请出条件随机场.随机过程:设 TTT是一无限实数集
2021-03-04 07:49:57
35620
1
原创 隐马尔可夫模型详解 (英文版)
HMMs and MEMMs are both sequence classifiers. A sequence classifier or sequence labeler is a model whose job is to assign some label or class to each unit in a sequence.Hidden Markov ModelsMarkov ch...
2020-03-25 22:34:43
894
原创 正则的核心工作原理
^(?:(?!ab).)+$说明^ # match start of line/string(?: # begin non-capturing group (?! # begin negative lookahead ab # literal text sequence ab ) # end negative lookahead . ...
2020-03-13 13:52:14
155
原创 C++编程小指南
bool, string等变量, 最好明确初始化, 否则, 不同的编译器中, 会出现不同默认初始化值的情况, 如我们的case中 bool变量的值, 未明确初始化时, 初始值竟然是240, 而不是false/true. 贴两个quote According to C++ standard Section 8.5.12:if no initialization is performed, a...
2020-03-12 13:14:04
254
原创 GIT omnipotent
这里记录一下工作中遇到的, 各种git功能.如何将git工程拷贝进当前的目录当然, 前提是, 你要拷下来的git工程与当前目前下的工程是同一个工程. 当前只是想将本地工程与git关联起来.git initgit remote add origin PATH/TO/REPOgit fetchgit reset origin/master # Required when the vers...
2019-11-04 14:52:58
187
原创 那些年读过的好文章
先不做分类了, 等多了再分类.MDNA Hitchhiker’s Guide to Mixture Density NetworksMixture Density Networks with TensorFlow
2019-08-16 09:34:46
169
转载 Hierarchical Clustering
Clustering, in one sentence, is the extraction of natural groupings of similar data objects.There are a couple of general ideas that occur quite frequently with respect to clustering:The clusters s...
2019-07-12 16:03:32
245
原创 数学常用公式
How to merge two gaussians?how to merge two gaussians?μ^=w1μ1+w2μ2w1+w2\hat{\mu} = \frac{w_1\mu_1 + w_2\mu_2}{w_1 + w_2}μ^=w1+w2w1μ1+w2μ2σ2=w12σ12+w22σ22+(w1μ1+w2μ2)2(w1+w2)2−μ\sigma^2 = ...
2019-07-06 15:35:40
184
原创 ASR之HMM学习Notes
下面是从"speech and language processing"这本书中关于HMM的摘要. 感觉从来没有这么透彻地理解过HMM. 这本书里, 把所有语音还是自然语言处理解释通俗易懂. 学习这块, 必读书集. 强烈推荐.HMMs and MEMMs are both sequence classifiers. A sequence classifier or sequence labele...
2019-06-24 15:55:38
366
原创 numpy编译打包: 集成openblas/atlas加速库
下面干的事, 是在macbook pro上, 利用docker, 打numpy的linux版本的wheel包, 其中, 集成了openblas/atlas, 作为blas/lapack的第三方加速库.打包整过程安装docker: https://www.docker.com/ 从这里下载安装即可, 且保证docker处于启动的状态, mac上来讲, 双击即可启动.下载需要的manylinux...
2019-02-28 09:49:00
2042
Transformer-Attention is all you need
2019-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人