- 博客(58)
- 资源 (2)
- 收藏
- 关注
原创 配置网页版R(RStudio Server)
在做生信分析项目,比如转录组、单细胞时,先在服务器中运行一系列的生信软件对下机数据进行质控过滤等流程,再用R进行数据挖掘。如果质控后的数据传到自己的电脑上用R分析,一是翻来覆去比较麻烦,二是个人电脑配置不足会影响分析的效率甚至于分析不了。为了解决上述问题,可以在服务器中配置R的在线环境,通过浏览器连接到服务器的R,再进行后续分析。如何配置一个在线的R环境,以通过服务器ip地址和8787端口连接呢,大体分为5步,分别是1.新建普通用户,2.安装R,3.安装RStudio,4.开启8787端口,5.登录。
2023-03-17 15:20:13
6949
3
原创 从NCBI批量下载数据
NCBI下载文献中提到的数据时,都会遇到数据较多,下载较慢的问题,本文提供了一个shell脚本可以批量化下载数据,提高工作效率。比如说,有一个Project号为PRJNA229998,GEO号为GSE52778的项目(转录组数据既有Project号也有GEO号,两者对应的同一个项目),该项目测了哮喘病人服用两种药后气道平滑肌的转录组,网址为,我想要下载服用Alb这种药和对照组为服药的转录组数据,大体分为三步走,一是拿到SRA号,二是筛选想要的SRA号,三是下载。
2023-03-13 18:37:52
3519
原创 腌制一坛美味的泡菜
四世同堂里有祁老太爷三个月平安无事咸菜缸,Python里有令龟叔直呼amazing的泡菜缸。所谓泡菜缸,是指Python的pickle(泡菜)模块。
2023-02-24 16:28:20
454
原创 apply函数族
apply函数族是R语言中帮助用户实现高效的向量化运算的一系列函数,包括apply,lapply,sapply,vapply等。
2023-02-22 17:14:14
847
原创 利用Python统计某段文本的不同类型字符数并打印以“?“结尾的句子
本文编写了一个函数Count(),该函数统计传入的长字符参数中汉字、数字、空格、其他字符和以"?"结尾的句子出现的次数并将以"?"结尾的句子打印出来。
2022-10-05 16:03:05
724
原创 re正则表达式
re正则表达式 正则表达式是一个特殊的字符序列,能帮助用户检查一个字符串是否与某种模式匹配,从而达成快速检索或替换某个模式、规则的文本。等同于Word中的查找和替换功能。import retext='178,168,123456,9537,123456'print(re.findall('123456',text))#Out:['123456', '123456']1 认识正则表达式表1 匹配某一类字符的基本语法规则正则字符描 述.匹配除"\n"之外的任何单个字
2022-04-19 16:47:42
312
原创 如何向NCBI上传线粒体基因组序列
如何向NCBI上传线粒体基因组序列进入Banklt主页https://www.ncbi.nlm.nih.gov/WebSub/?form=history&session=new&tool=genbank点击Start Banklt Submission填写个人联系方式邮箱最好填写学校或者单位邮箱,qq、163邮箱存在接收不到NCBI工作人员通知的可能。自上至下,依次是填写序列作者信息,文章未发表的话填写文章草拟的标题,已接收或已发表就写文章标题,作者都有谁
2022-04-11 20:40:35
4365
2
原创 利用VARNA来画tRNA的二级结构
1 tRNA的结构与功能 转运RNA(Transfer RNA),简称为tRNA,是由70~90个核苷酸组成的单链,tRNA的一级结构就是核苷酸的排列顺序,通过折叠形成二级结构,三叶草状。它是在细胞核中一小部分DNA上合成的,罗伯特·W·霍利在1965年提出了tRNA的三叶草模型,三叶草有三个褶皱,四个臂,即反密码子臂(anticodon arm),D臂(d arm),TΨC臂(tc arm)和氨基酸受体臂(amino acid acceptor arm)。除了这四个臂,还有一个可变臂(variable
2022-03-04 21:23:01
5461
1
原创 利用MTviz绘制线粒体基因组结构图
MTviz是专门绘制线粒体基因组结构图的在线绘图软件,官方网址如下:http://pacosy.informatik.uni-leipzig.de/mtviz/。1 软件功能绘制成环的线粒体基因组结构图;基因名称根据其可用的空间自动调整大小,保证比例的协调;从Genbank格式的文件中读取并修改数据;导出为eps、ps、pdf、png、jpg等矢量图格式,后续可以利用Ai软件进行修改;可以对线粒体基因组的细节进行微调;可以选择合适的字体、字体颜色以及背景颜色等。2 操作步骤上传g
2022-03-03 21:32:08
4281
5
原创 Numpy基础(三)——通用函数
通用函数,也可以称为ufunc,是一种在ndarray数据中进行逐元素操作的函数。1 一元通用函数 接收一个数组,返回一个数组。In [2]: arr=np.arange(10)In [3]: arrOut[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])In [4]: np.sqrt(arr)Out[4]: array([0. , 1. , 1.41421356, 1.73205081, 2. ,
2022-02-26 10:48:40
747
原创 Numpy基础(二)——数组转置、计算内积和换轴
1 数组转置 转置是一种特殊的数据重组形式,可以返回底层数据的视图而不需要复制任何内容。利用数组的transpose方法或者数组的T属性实现。In [88]: arr=np.arange(15).reshape((3,5))In [89]: arrOut[89]: array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])In [90]: arr.TOut[90]: ar
2022-02-25 09:08:58
3720
原创 利用Anaconda安装Python环境
下载Anaconda安装包https://www.anaconda.com/products/individual按流程安装个人电脑建议选择Just me,公用电脑集群用户选择All user;安装目录默认为C盘,建议放在D盘下;在Advanced Installation Options界面,有两个选项,Add Anaconda to my PATH environment variable默认为不选,建议选上。环境变量找到Anaconda的安装目录保存该地址:D:\
2022-02-09 12:50:08
1397
原创 利用MEGA计算π值和Ka/Ks
π值的计算将之前比好的序列并保存为.mas格式的文件拖拽到MEGA里,选择analysis。计算Π值,需要使用CDS序列,选择yes。选择DISTANCE -> Compute Pairwise Distances将参数设置为上图所示,选择JC校正模型。即可得到上图所示的结果,每个单元格中的值即为π值,该值介于0~1之间,该值越趋近于0,代表着该单元格对应的两条序列之间的核苷酸差异越小。若单元格中的值超过1,说明该单元格对应的两条序列的核苷酸差异已经大于它们自身的
2022-01-20 23:52:56
6801
1
原创 利用MEGA做序列比对
利用MEGA做序列比对MEGA是Molecular Evolutionary Genetics Analysis的英文简称,MEGA是一款功能强大、操作简单,图形化界面的应用于分子进化遗传学分析的软件。1993年,MEGA首次发布,2021年7月,马上到而立之年的MEGA发布了第11版,也是目前(2022年1月)的最新版本。下载安装进入官网(https://www.megasoftware.net/)对于Windows 64位 用户,按照官网的默认选项下载图形化界面(GUI)即可。序列比对
2022-01-18 23:55:18
14746
1
原创 利用Python进行数据分析 | NumPy基础(一)—— NumPy ndarray(多维数组对象)
NumPy基础:数组与向量化计算NumPy,是Numerical Python的简称,它是利用Python进行数值运算的最为重要的基础包。重要的原因可以归纳为三点:可以有效的处理含有大量数组的数据。NumPy的算法是基于C语言编写的,NumPy数组使用的内存量小于其他的Python内建序列。NumPy可以针对全量数组进行复杂计算而不需要使用Python循环。下面的例子将展示NumPy的不同,定义一个NumPy数组,里面存放着1M个整数,再定义一个列表,同样存放着1M个整数,将这两个序列同时乘
2022-01-14 21:18:32
1786
原创 Flye | 针对三代测序数据的基因组组装软件
Flye Flye是针对三代测序数据开发的基因组de novo组装的生信软件,于2019年发表在Nature Biotechnology上。1. 软件安装#利用conda安装conda install flye#编译安装git clone https://github.com/fenderglass/Flye cd Flyepython setup.py installflye --help#输入上述命令查看是否成功安装,以下为该命令运行结果的一部分。usage: flye (
2021-12-29 20:09:24
4426
原创 生物信息学名词解释 | K-mer (长度为k的短序列)
K-mer何谓K-mer所谓Kmer,即为一段长度为k的DNA片段,是由测序reads剪切一部分得到的。k为一个奇数,k=几,就为几mer。比如:我的测序reads长度为100bp,我将这100bp打断成17bp的短片段,打断后的17bp段片段就叫17mer,可以获得(100-17+1)条k-mer序列。Table1 k-mers for GTAGAGCTGT.kk-mers1G,T,A,G,A,G,C,T,G,T3GTA,TAG,AGA,GAG,AGC,GCT,CT
2021-12-27 16:42:46
25668
2
原创 利用Python进行数据分析 | 文件
文件利用Python处理文件非常简单,打开文件进行读取或写入,需要使用内建函数open和绝对、相对路径。path='./example.txt'f=open(path)lines=[x.rstrip() for x in open(path)]In [10]: linesOut[10]: ['good morning', 'good afternoon', 'good evening']#当使用open来创建文件对象时,结束操作时关闭文件时非常重要的,关闭文件将资源释放回操作系统:f.clo
2021-12-23 16:20:09
1522
原创 利用Python进行数据分析 | 函数
函数函数是Python中最重要、最基础的代码组织和代码复用方式。def my_fuction(x,y,z=2) if z >=1 : return z * (x+y) else: return z / (x+y)x,y为位置参数,z为关键字参数,关键字参数必须跟在位置参数之后(如果有的话),传参时,可以使用关键字参数向位置参数传参。my_fuction(2,3)my_fuction(2,3,5)my_fuction(x=2,y=3,z=5) #
2021-12-22 21:44:19
678
原创 利用Python进行数据分析 | 数据结构和序列
数据结构和序列本文简要介绍Python的常用数据结构:元组、列表、字典和集合。元组元组是一种固定长度、不可变的Python对象。列表列表是长度可变、内容可修改的Python对象。内建序列函数enumerate函数for i,value in enumerate(collection):利用enumerate函数,可以在遍历一个序列的同时追踪当前元素的索引,value是元素的值,i是元素的索引。sorted函数sorted函数返回一个根据任意序列中的元素新建的已排序列表:In
2021-12-21 21:42:23
859
原创 利用Python进行数据分析 | 环境搭建与基础扫盲
Python环境搭建利用Anaconda安装python环境,Spyder,IPython与Jupyter Notebookhttp://anaconda.com/downloads #Windows下载网址Spyder类似于R语言的RStudio。在Spyder里安装python模块打开Anaconda Promptpip install 模块名称(biopython)IPython交互性的Python解释器。运行ipython命令行示例import numpy a
2021-12-20 21:36:35
494
原创 Markdown学习笔记
# Markdown一种可用普通文本编辑器编写的标记语言,主要用于文字内容的排版。## 1 常用格式使用特定的符号加在需要修饰的文字两侧。 **粗体** *斜体* ***嵌套*** <u>下划线</u> ~~删除线~~ ==高亮== X^2^ log~2~X## 2 标题分级###三级标题......######六级标题快捷键:CTRL+1~6CTRL+=提升等级CTRL+-降低等级注:快捷键并不适用于源代码模式,需要切换到正常显
2021-12-15 10:25:20
346
原创 vi | 常用操作
编辑模式:%s/str1/str2/g 替换每一行中的str1为str2例: :%s/scaffold/chr/g 将文本中所有的字符串“scafflod”替换为“chr”
2021-12-07 10:17:25
98
原创 shell常用快捷键
ctrl + a 光标移至命令行开头ctrl + e 光标移至命令行结尾ctrl + c 终止当前命令ctrl + l 清屏ctrl + u 剪切光标前的所有内容ctrl + k 剪切光标后的所有内容ctrl + y 粘贴u/k剪切的内容ctrl + r 在历史命令中搜索ctrl + d 退出登录...
2021-12-06 21:37:37
121
原创 python | cds转pep传参脚本
'''Auther:Qi GuangyuanData:2021-12-3Contact:qiguangyuan0406@163.comScript Use argparse to pass in command line parameters'''import argparseparse=argparse.ArgumentParser(description='Input and output file path.')parse.add_argument('--input','-i',h
2021-12-03 16:04:48
703
原创 python | argparse模块基础语法记录
'''Auther:Qi GuangyuanData:2021-12-3Contact:qiguangyuan0406@163.comStudy Script:Use argparse to pass in command line parameters'''import argparse'''We call this method as the parameter parser method,and its use can be divided into three basic step
2021-12-03 11:00:54
325
原创 python | 计算数值文本某一列最小值,将该列原数值加上该最小值
在用dn,ds计算w值时,如果ds(分母)的值为0,那就没法计算了,现在想通过将所有ds值加上大于0的最小值,作为新的ds值,可以通过下面的python脚本实现。该脚本为一个传参脚本,需要在cmd下运行,格式如下:python ds.py --input xx.txt --output xx.txt--input 为输入文件的路径与文件名--output 为输出文件的路径与文件名原代码:import argparseparser = argparse.ArgumentParser(desc
2021-11-24 21:40:48
826
原创 Linux | awk命令查找文件中某列的值,符合内容进行筛选
awk是Linux自带的文件内容筛选工具,awk可以对文件内容进行切片输出,提取出我们想要的内容。awk使用格式:awk [option] ‘条件{print ${num}}’ 。现在我想将上图所示的.gtf文件中的第一、四、五、十列提出出来,要求第三列的值必须为“transcript”,可以通过awk命令实现。cat Female.merge.gtf | awk '$3=="transcript"{printf $1 "\t" $4 "\t" $5 "\t" $10"\n" }'> Tden
2021-11-22 18:33:23
7898
原创 HiC-Pro | HiC数据处理工具
一、HiC-ProHiC-Pro官网https://github.com/nservant/HiC-Pro下载软件包git clone https://github.com/nservant/HiC-Pro.git利用conda配置软件运行环境conda env create -n hicpro -f /gss1/home/tri01/software/HiC-Pro/environment.ymlHiC-Pro的编译安装修改config-install.txt和con
2021-10-22 16:59:51
4125
1
原创 PAML|计算dN/dS值的生信软件
PAML是什么PAML是利用最大似然法对CDS或PEP序列进行系统发育分析的生信软件。PAML官方网址:http://abacus.gene.ucl.ac.uk/software/paml.htmlPAML的下载安装wget http://abacus.gene.ucl.ac.uk/software/paml4.9i.tgztar zxf paml4.9i.tgzrm bin/*cd srcmake -f Makefilecp baseml basemlg chi2 codeml.
2021-10-02 10:00:17
4096
1
原创 IQtree|构建进化树的软件
1.IQtree是什么2.IQtree下载安装conda create -n iqtreeconda activate iqtreeconda install iqtree3.IQtree的运行iqtree -s input_file -nt 10 -o ma
2021-09-25 21:38:04
7798
2
原创 Pal2Nal|如何在命令行下运行Pal2Nal
1.pal2nal是什么 pal2nal是一个将已经比对好的蛋白及其对应的DNA(mRNA)多序列转化为密码子比对的程序。 pal2nal的官方说明链接:http://www.bork.embl.de/pal2nal/2.pal2nal的下载安装conda create -n pal2nalconda activate pal2nalconda install pal2nal...
2021-09-18 10:38:13
3035
原创 Python|将CDS序列转为PEP序列
有蛋白编码基因的核苷酸序列,想要转化成对应的氨基酸序列,可以利用Python的Biopython Module来实现。提取核苷酸序列信息 原始的保存着核苷酸序列的fasta文件里还有着序列的id等说明信息,我们只需要核苷酸序列,可以用for循环遍历每一行,将偶数行输出到一个新的文本文档中。# opening the filefile1 = open('D:/.../PCGs/cytb/cytb.fas', 'r')# creating another file to store eve
2021-09-17 21:48:16
2080
3
原创 HiCPlotter|HiC数据可视化工具
HiCPlotter简介 HiCPlotter基于Python开发的将HiC数据可视化的工具。官方网站链接如下:https://github.com/kcakdemir/HiCPlotter利用conda搭建HiCPlotter的环境conda create -n hicplotterconda activate hicplotter HiCPlotter的环境依赖1.Python 2.7.*2.Numpy(1.9.0,1.9.2,1.10.4)3.Scipy(0.14..
2021-09-16 21:25:14
4581
原创 Anaconda添加channels
运行conda安装软件,出现下述问题The following packages are not availablm current channels可以通过添加频道尝试解决conda config --show#查看目前安装的conda有哪些频道添加频道conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/conda config --add chann.
2021-09-14 11:09:55
5319
原创 dotter|打点法进行序列两两比较软件
1.dotter是什么 dotter是利用打点法进行序列两两比对的可以在Windows操作系统下运行的软件。2.dotter下载链接https://sonnhammer.sbc.su.se/download/software/dotter/old_releases/windotter.zip3.dotter运行win + Rcmdcd /d D:\path\Dotterdotter.exe 1.fas 1.fas4.查看结果 dotter运行结果有三个窗口,通过调整颜色设置的窗
2021-09-10 10:09:17
1374
4
原创 mafft|多序列比对工具
1.利用conda安装mafftconda create -n mafftconda install mafft2.进入mafft环境中conda activate mafft3.查看mafft版本号,确认是否安装好了mafft --versionv7.487 (2021/Jul/25)4.运行mafftmafft in.fas > out.fas
2021-09-10 09:22:00
5625
Primer Premier5
2021-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人