
R语言
文章平均质量分 59
coding_Joash
初闻不识曲中意,再闻已是曲中人。
展开
-
task7b-TP53突变与否的TNBC病人基因表达相关性改变
作业链接作业内容重复这个散点图背景知识TNBC-三阴性乳腺癌三阴乳腺癌是指乳腺癌免疫组化结果:雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(Her-2)均为阴性的乳腺癌。三阴性乳腺癌容易早期发生广泛转移,如脑转移、骨转移等情况。所以,化疗在三阴性乳腺癌当中地位很重要。当然,复发高峰在手术以后头三年,过了复发高峰以后,预后也还是非常好的一种恶性肿瘤,具体要看分期如何、病人身体状况,以及接受什么样治疗等。下载数据并提取1.从TCGA.BRCA.sampleMap%2FBRCA原创 2021-10-19 15:44:27 · 762 阅读 · 0 评论 -
task7a-10个细胞系仅1个表达你的基因
作业链接1.下载CCLE数据库的RNA-seq的表达矩阵https://depmap.org/portal/download/?release=CCLE+2019&release=Fusion&release=DNA+Copy+Number下载CCLE_RNAseq_rsem_genes_tpm_20180929.txt.gz这个数据集2.提取BREAST的细胞系TPM数据library(data.table)library(dplyr)CCLE_RNAseq_tpm =原创 2021-10-19 15:42:16 · 546 阅读 · 0 评论 -
task6b-哦别做梦了-TP53在TCGA的肝癌的有配对样本病人的转录组数据表达量配对图
作业链接0.作业题目从ucsc的xena浏览器里面下载感兴趣癌症,比如肝癌的表达矩阵(counts值)然后根据样本名字拿到有配对的几十个病人的癌症和正常对照数据(部分癌症数据并没有对照)接着提取感兴趣基因(比如TP53)的表达量最后套用上面的绘图代码即可!1.数据下载下载网址命令进行安装,需要通过installr包进行安装install.packages("installr")install.packages("stringr") ###依赖包library(stringr)library(installr)install.Rtools()方式2-官网下载安装https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windo原创 2021-09-27 11:04:18 · 65142 阅读 · 8 评论 -
task4a_TCGA_Pan_Cancer
把tcga大计划的CNS级别文章标题画一个词云给自己的浏览器装个XPATH点击XPATH然后写入://*/div[1]/div/div/div/div/ul/li[2]/a直接复制右边的33篇文章标题,存为TCGA_33_title.txt即可file <- scan('TCGA_33_title.txt',sep='\n',what='',encoding="UTF-8")txtList = lapply(file, strsplit,"\\s+") #使用空格符号进行分词txt原创 2021-09-23 11:30:53 · 258 阅读 · 0 评论 -
task4b_Nature_Pan_Cancer_词云
把tcga大计划的CNS级别文章标题画一个词云获取网页的泛癌文章标题,目前一共24篇get_title <- function(url){ web <- xml2::read_html(url, encoding = "utf-8") #解析url urlpage <- XML::htmlParse(web) #解析xml title = XML::xpathSApply(urlpage, '//*[@id="content"]/div[3]/section/articl原创 2021-09-23 09:49:00 · 179 阅读 · 0 评论 -
task3a_gmt函数
gmt文件定义gmt格式是多列注释文件,列与列之间都是TAB分割。第1列: 是基因所属基因集的名字,可以是通路名字,也可以是自己定义的任何名字。第2列 :官方提供的格式是URL,可以是任意字符串。第3列-第n列: 后面是基因集内基因的名字,有几个写几列。library(clusterProfiler)data(gcSample) #加载gcSample数据集#第一列用X1-X8,第二列无内容用‘NA’代替,第三列-第N列为基因的entrenz id#文件以制表符分隔开get_gmt原创 2021-09-22 20:54:56 · 796 阅读 · 0 评论 -
task3b-词云
作业链接library(jiebaR)library(wordcloud2)#读入数据分隔符是‘\n’,字符编码是‘UTF-8’,what=''表示以字符串类型读入file <- scan('ciyun.txt',sep='\n',what='',encoding="UTF-8")txtList = lapply(file, strsplit,"\\s+") #使用空格符号进行分词txtChar = tolower(unlist(txtList))txtChar <- txt原创 2021-09-22 19:21:21 · 178 阅读 · 0 评论 -
GO and KEGG富集分析
GO基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:细胞组分(cellular component)CC:细胞的每个部分和细胞外环境。分子功能(molecular function)MF:可以描述为分子水平的活性(activity),如催化(catalytic)或结合(binding)活性。生物过程(biological process)BP:生物学过程系指由一个或多个分子功能有序组合而产生的系列事件。其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律是,一个过程是由多原创 2021-09-15 16:36:48 · 3787 阅读 · 0 评论 -
R语言常用的数据操作函数整理
typora-copy-images-to: …\zhengzx\mk图片保存apply族函数–提高代码效率神器R是统计学家整出来的,是一种统计领域的软件工具。面向数组(array-oriented)的语法,它更像数学,方便科学家将数学公式转化为R代码。在使用R时,要尽量用array的方式思考,避免for循环,多用apply族函数代替vector是一维的array,dataframe可以看作特殊的list。applyapply(array, margin, FUN, …)在array上,沿ma.原创 2021-09-08 23:03:00 · 1269 阅读 · 0 评论