-
Notifications
You must be signed in to change notification settings - Fork 32
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
GTF文件有什么用啊?别的不谈,最起码能提lncRNA #6080
Comments
GTF文件有什么用啊?别的不谈,最起码能提lncRNA by 果子学生信我们直接去下载他, http://asia.ensembl.org/index.html 解压缩后,使用R语言可以读取,有多中方案,最终我选择的是rtracklayer::import,而且我认为这是最好的方法。 首先我们来安装rtracklayer这个包
直接读取,大概要2分钟,然后转换成data.frame格式
这是一行270万行,27列的文件,可能是普通人接触到的最大数据,里面记录了基因的构成信息,每个基因有在基因组上的位置,有多少转录本,是否编码。
我们把这个数据保存成Rdata格式,这就是课堂上抽取lncRNA,mRNA以及名称转换需要的gtf文件,使用的时候load即可
我们通过行名来了解一下他,有27个。
然后我们就可以利用这个文件结合读取好的TCGA counts文件,抽离出mRNA和lncRNA 其中exprdfnopoint就是去掉ensemble id后面小数点的表达文件,ensemble id是第一列,每个样本是一列。大概是这样的: 获取mRNA
获取lncRNA
除此以外,还能干什么呢? 比如我想知道21号染色体上有多少个基因?可以的
我们发现有231个编码基因 人类基因组上每个染色体上有多少个基因,知道么?可以的。
好了,明天见。 |
https://mp.weixin.qq.com/s/v8HCQgewWq9VKN8xwfrGjg
The text was updated successfully, but these errors were encountered: