Releases: openbiox/weekly
Issue 63
Issue 62
issue-62 Update README.md
issue 60
issue-60 Create footer.html
issue 15
生信爱好者周刊(第 15 期):科学家的层次
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
(via)
本周话题:科学家的层次
这周话题分享饶毅教授的评述。
三流及以上对99.99999%国人学者来基本是梦想,请看上面链接的原文。希望大家都脱离九流,做着六七流,勇争四流。
四流:研究的科学或应用意义被同学科科学家交口称赞,二十年内都知道其代表性重要工作,为本学科中坚;
五流:研究意义一般科学工作者误认为很有噱头,虽然少数优秀科学家早就看穿其局限性,挡不住这类科学研究在短时间得到很多瞩目,研究者个人得到利益,但其研究结果不到十年就被同一学科所忘记。
六流:很能总结研究结果,特别能够发文章,无论研究本身有没有意义,虽然优秀科学家很快嗤之以鼻,但研究者有办法把文章发表在读者多的场景,例如发表在Nature。读者还不少,但两周内大家都不记得做了什么,一个月后自己也说不清楚发现了什么,灰飞烟灭;
七流:做完研究自己都不记得为什么科学原因而开始研究,但能够发文章,还有少量读者,对其他人的研究永远没有影响;
八流:能够自己设计课题,勉强能够发表,在国际上主要是只能职业爬坡,在某些局部环境被认为是科学家,文章无人阅读,同一课题组也不再继续做;
九流:不知道该研究什么,为了职业不断模仿其他人的研究。
生信科技动态
1、Cell | 加州大学任兵团队发表迄今最大规模人类单细胞染色质可及性图谱
全基因组关联研究(GWAS)已经确定了数十万种与人类特征和疾病广泛相关的遗传变异,这些变异大多数是非编码的。此外,研究发现疾病相关组织和细胞类型中的候选顺式调节元件(CCRE)富含非编码疾病风险变异,因此科学家们推测非编码变异影响疾病风险的主要机制是通过影响特定细胞类型中的转录调节元件。但由于缺乏人类基因组中调控元件的细胞类型解析图,这些非编码变异的注释仍具有挑战性。
美国加州大学圣地亚哥分校任兵教授课题组在Cell上发了题为“A single-cell atlas of chromatin accessibility in the human genome”的研究文章。研究人员使用改良的单细胞测序技术sci-ATAC-seq对来自多个个体30种成人组织类型的615998个细胞进行了染色质可及性分析,并将这些数据与15种胎儿组织类型的细胞染色质可及性图谱相结合,绘制了迄今最大规模的人类单细胞染色质可及性图谱。该图谱在222个细胞亚型中注释了近120万个CCRE,为揭示细胞类型与疾病的相关性,发现人类细胞类型的相关治疗靶点,以及人类复杂疾病的致病机理提供了宝贵的参考资源。(资源获取:http://catlas.org/humanenhancer)
2、Nature Methods | 李明瑶团队发表空间转录组数据分析的新算法SpaGCN,可检测出具有空间表达模式的SVG
近年来,空间转录组(Spatially Resolved Transcriptoms, SRT)技术的进步使得利用组织中的空间信息进行基因表达谱分析成为可能。目前,关于SRT的实验策略大致可分为两类:第一类是具有单细胞分辨率的原位杂交或测序技术(包括seqFISH、MERFISH等),能够检测单个细胞中数百到数千个基因的表达水平;第二类是基于原位捕获的技术(包括SLIDE-seq和10x Visium等),即先进行空间条形码编码再进行测序,可以检测捕获特定位置中数千个基因的表达水平。这些不同的SRT技术使得揭示异质组织的复杂转录结构成为可能,并增强了人们对疾病细胞机制的理解。
本文提出了空间转录组数据分析的新算法SpaGCN。SpaGCN首先构建表示数据空间依赖性的无向加权图,再将基因表达、空间位置和组织学进行整合来识别空间域。此外,SpaGCN还可以检测每个空间域丰富的SVG,通过将搜索空间限制在空间域上,以保证检测到的SVG都具有空间表达模式。SpaGCN适用于分析多种类型的SRT数据,包括ST、10x Visium、SLIDE-seqV2等。
文章
1、Creating a custom color palette class with vctrs
本文介绍如何使用vctrs创建一个自定义的调色板🎨。
这篇简短的博客文章的目的是概述作者写论文时正在使用的软件包和工作流。
工具
“文献单词”指的是文献中的高频词汇,它们有特殊的用法,不同学科也有对应的专业英语,因此其范畴和四六级单词不同。
iCOBRA是一个软件包,用于计算和可视化排序和二进制赋值方法的性能指标。一个典型的用例可以是,例如,在基因表达实验中比较调用差异表达的方法,这可以被看作是一个排序问题(估计正确的效应大小并根据显著性对基因排序)或一个二元分配问题(将基因分为差异表达和非差异表达)。
资源
1、The Innovation | 视频: Y叔谈clusterProfiler 4.0 前沿应用
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)
issue 14
生信爱好者周刊(第 14 期):为什么有些朋友,走着走着就散了
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
第三代Xenobot(红色)和松散干细胞组成的聚集体(绿色) 。(图片来源)
去年1月,美国佛蒙特大学、塔夫斯大学和哈佛大学的4名科学家共同开发首个活体机器人Xenobot。从外面看起来,它只是一个毫米大小的细胞团,但却相当厉害。它能朝特定的方向移动,具有强大的延展性和可塑性,在被切开后,还能自行复原。
本周话题:为什么有些朋友,走着走着就散了
在各奔前程的过程中,旧友不断流失,但在新的环境里,又未能建立起可以弥补这种流失的关系。是这两者的合力,共同酿成了“失友”的感受。
真正可贵和难得的情谊,不会轻易被时空打败。哪怕人生的际遇疏离化了一些关系,哪怕彼此的联系不如往日频繁,哪怕已经许久未见,哪怕不能第一时间知晓你的近况,但在我需要你的时候,我知道你就在那里。
别离是人生常态,身边的人也确实来来往往更迭不断,但总有一些人,已经陪伴了我们很久,还将陪伴我们更久。
生信科技动态
1、Genome Medicine | 人工智能临床决策工具GEM,通过快速基因组注释助力遗传病诊断
Fabric Genomics Inc的Mark Yandell研究团队联合Martin G. Reese研究团队,开发了一种用于快速基因组注释的临床决策支持工具——Fabric GEM。GEM是一种新型的基于人工智能的临床决策支持工具。研究团队在回顾性队列中对GEM进行的基准测试显示,GEM能将90%以上的致病基因排在优先候选基因中,几乎囊括了所有变异类型。此外,结合深层表型分析发现,GEM可以实现快速、准确、全面地基于WGS和WES数据进行诊断,有效降低了成本并加快变异评估。
2、Nature Biotechnology | Genentech公司开发TraCe-seq系统用于识别癌症药物反应的转录特征
针对致癌驱动基因突变的靶向治疗为癌症患者提供了显著的临床获益,为精准医疗带来了巨大的希望。但并非所有癌症患者都能产生治疗反应,其他既存的和获得的耐药机制对患者的整体反应和药效持久性提出了巨大的挑战。近年来,靶向蛋白降解这一新的作用机制 (MOA) 引起了人们的广泛关注。与传统的基于占位的靶向抑制不同,异质双功能靶向蛋白降解物能够同时将E3泛素连接酶富集到目标位置,并通过泛素介导的蛋白质水解诱导靶向降解的分子,并被证明在特定情况下优于单独的酶抑制。但目前尚不清楚双作用抑制剂-降解剂是否具有普遍优势。
为了解决上述难题,美国Genentech公司研究团队开发了一个名为TraCe-seq (Tracking differential clonal response by scRNA-seq) 的系统,能够同时跟踪肿瘤起源并比较肿瘤细胞对不同疗法的即时反应,大大加速药物反应机制或者耐药机制的研究。
3、Genome Biology | 精准解析SNV、SV和甲基化的综合性分析方法PRINCESS,填补基因组学研究空白
研究团队针对目前测序数据分析短板(对于长读段数据中染色体结构变异的综合分析)进行了补充,开发了一种可以精准解析SNV、InDel、SV和甲基化数据的单倍型分析方法:PRINCESS。PRINCESS能够以最低的成本为每个样本提供全面的、单倍型解析结果。
文章
这篇文章介绍了GO功能富集分析的冗余性和解决方法。
ego2 <- simplify(ego, cutoff=0.7, by="p.adjust", select_fun=min)
2、4 Tips to Make Your Shiny Dashboard Faster
- 找出Shiny应用在哪里花了时间
- 使用更快的函数
- 注意Shiny应用中的对象作用域
- 使用缓存操作
3、Tired: PCA + kmeans, Wired: UMAP + GMM
这篇文章比对了两种将降维和聚类结合的策略。相比PCA+Kmeans,作者跟推荐UMAP+GMM。
工具
3、tidyHeatmap - 用整洁的数据框架简单地绘制热图
资源
1、GitHub 上最大的算法开源库:The Algorithms
在这个网站上面,收录了包括 Python、Java、C++、JavaScript、Go 等多种主流编程语言的算法代码实现。
你可以通过搜索框,快速寻找自己需要学习的算法。
这个存储库包含用于数据集成工具基准测试研究的代码。在我们的研究中,我们在85批基因表达和染色质可及性数据上对16种方法进行了基准测试,包括4种预处理步骤组合,一共68种方法组合。
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
感谢以下读者往期的赞赏:
- 李浩
- Robin
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)
issue 13
生信爱好者周刊(第 13 期):他开发了基因界的百科全书,贡献却少有人知
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
KEGG概览。(via)
本周话题:他开发了基因界的百科全书,贡献却少有人知
之前在一期的话题是什么时候有生信诺奖。这篇来自知识分子的文章提供了一个实例可以让大家进一步思考和讨论。
2018年,日本京都大学金久实教授被美国咨询公司科睿维安列为可能获诺贝尔生理医学奖的人选之一,提名理由是 “对生物信息学的杰出贡献,特别是开发了京都基因和基因组大百科全书”。京都基因和基因组大百科全书英文全称是 “Kyoto Encyclopedia of Genes and Genomes”,简称KEGG。即使从事专业生物信息工作的人也未必知道金久实教授,但略微接触过生物信息的人都会知道KEGG。
生物信息要解决的问题是生物数据的产生、管理和挖掘。这种旷日持久的系统性推动与支撑,与通常意义上星光灿烂的概念和技术进展相比,似乎更容易被人们忽略低估。
生物信息确实在各个方向上有力地推动了生物学研究和应用的发展。其尴尬之处在于,作为实用工具缺乏深度,而概念和技术突破又非常依赖实验设计和数据质量。就诺奖而言,生物信息最大的痛点是自身很难闭环,很难达到普遍接受的高度。
生信作为交叉学科,涉及内容广泛。我们应该从事什么方向的研究?是否要为人熟知?未来是否能为诺奖添砖加瓦?
生信科技动态
1、Bioinformatics | MoNET:一个多组学网络分析R包
越来越多的多组数据可用性使得在不同规模上发现疾病生物标志物成为可能。了解多组生物标志物之间的功能相互作用正变得越来越重要,因为它具有提供潜在分子机制的巨大潜力。
R包地址:https://github.com/JW-Yan/MONET
2、Cancer Discovery | 31个胃癌组织的单细胞图谱
本文利用多个病人标本的单细胞测序数据,为我们呈现一个较为全面的细胞族系、肿瘤微环境和不同分型的特异性转录组表达情况的图谱。
日本的科学家近日研发出了一种新型口罩,如果佩戴者感染了新冠病毒,这种口罩就能在紫外灯下发出亮光。有了这款口罩,人们在家中就可以自测是否感染了新冠病毒。
文章
文章浏览一下四个工具的使用:
- CookieCutter
- PyScaffold
- PyBuilder
- Poetry
我自己之前使用过PyScaffold写过loon这个Pypi包,用的就是PyScaffold。
一篇名为Towards Causal Representation Learning的综述文章由因果领域领军人物马普智能系统所所长Bernhard Schölkopf及深度学习三巨头之一的Yoshua Bengio等人撰写。顾名思义,何为因果表征causal representation呢?其又拥有怎样优良的性质使我们想要学习因果表征呢?
工具
Tidy Data Tutor让你在浏览器中编写R和Tidyverse代码,并查看Data Frame在数据分析管道的每个步骤中如何变化。
JBrowse Jupyter是一个python包,它为JBrowse视图提供了一个python接口。
3、fastp
一个为FastQ文件提供快速一体化预处理的工具。这个工具是用c++开发的,支持多线程以提供高性能。
资源
R图书书签集合,大部分是免费的。
介绍R编程以及用于生物数据处理。
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)
issue 12
生信爱好者周刊(第 12 期):你的饮食模式需要改变吗?
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
禁食在能量限制饮食的反应中起着至关重要的作用。(via)
本周话题:你的饮食模式需要改变吗?
2021 年 10 月 18 日,国际期刊《自然医学》公开发表一篇研究论文,探讨饮食模式和改善生理健康之间的关系。研究将小鼠分为5组:(1)自由取食、(2)限制 30% 的热量摄取,单没有禁食期、(3)限制 30% 的热量摄取,半天内给食三次,另外半天禁食、(4)限制 30% 的热量摄取,每天只给食一次,另外半天禁食、(5)热量摄取总量不变,但每天禁食 21 小时。
研究运用代谢组学与转录组分析等方法,发现仅仅「禁食」而没有减少摄取的总热量,就足以得到在限制热量的饮食模式时出现的大部分代谢与核酸转录组特征,以及延长寿命、防止衰弱等健康上的好处。
读者觉得这种饮食模式可以迁移到人吗?
从个人角度来看,如果每天只有3小时能自由吃饭,其他21小时无法进食,吃饭后6-8小时消化后带来的饥饿感对人的肠胃、精神带来的影响很难忽略。
生信科技动态
在文献和公共基因组学资源库中,单细胞组学是增长最快的基因组学数据类型。利用不断增长的标签数据集,并将标签从现有数据集迁移到新产生的数据集,将增强单细胞组学数据的探索。然而,目前的标签迁移方法性能有限,主要是由于细胞群的内在异质性和数据集之间的外在差异。在这里,作者提出了一个强大的图模型--单细胞图卷积网络(scGCN),以实现不同数据集之间的有效知识迁移。通过在总共30个单细胞组学数据集上与其他标签迁移方法的比较,scGCN在利用来自不同组织、平台和物种的细胞以及在不同分子层的细胞分析上始终表现出卓越的准确性。
2、Science Advanced | 机器学习通过分析水平基因转移,预测抗生素耐药性传播
我们熟悉的从父母遗传给孩子一般被称为垂直基因转移;水平基因转移,则是指的是一个或多个基因,通过父母遗传以外的方式进行传递。
水平基因转移常见于细菌之中,有些细菌主动同周围的细菌发生接合作用并共享基因,从而实现基因转移。即使它们是完全不同的种类,一些细菌收集从其他细胞释放出来的基因并将它们收为己用。如果外源基因适应良好,在增殖时细菌会将外源基因传递给后代;假如这个外源基因是抗生素抗性基因,将会给疾控带来了非常大的困扰。
系统发育距离、共享生态学和基因组约束通常被认为是控制水平基因转移(HGT)的关键驱动因素,尽管它们的相对贡献尚不清楚。
康奈尔大学的研究人员将机器学习算法应用于一组精选的不同细菌基因组,以梳理特定功能特征对 HGT 事件的重要性。
研究人员发现功能性内容准确预测HGT网络,涉及抗生素抗性基因(ARG)的转移的性能进一步提高,突出了HGT机制、生态位特异性和代谢功能的重要性。发现尚未检测到的高概率 ARG 转移事件,几乎是人类相关细菌所独有的。该方法在预测病原体的 HGT 网络方面是可靠的,包括鲍曼不动杆菌和大肠杆菌,以及在局部环境中,例如个人的肠道微生物组。
3、Cancer Cell | 基于小细胞肺癌单细胞图谱,鉴定与转移、免疫抑制及预后相关的细胞亚群
作为最具侵袭性的肺癌类型,小细胞肺癌(SCLC)患者的预后较差,并且大多数患者在诊断之时就已经发生了转移。被寄予厚望的免疫检查点阻断疗法也仅略微提高了患者的中位生存率。虽然SCLC在形态学上表现同质,但近期来自小鼠模型和人类肿瘤的数据表明,SCLC仍然存在显著的异质性。根据癌细胞中四种转录因子(ASCL1、NEUROD1、POU2F3和YAP1)的差异表达,研究人员对SCLC进行了分类。然而,这种分类下的不同亚型是否与特定的疾病阶段、转移潜能或免疫微环境相关,以及亚型之间是否存在可塑性等难题仍未得到解决。
近日,美国纪念斯隆·凯特琳癌症中心研究团队借助单细胞转录组和成像技术,构建了SCLC的单细胞图谱,鉴定出一组潜伏在肿瘤细胞周围、PLCG2高表达的干细胞样细胞亚群,这类细胞能够推动肿瘤的转移,并与患者的预后密切相关。该研究为小细胞肺癌的分子特征提供了支撑,为将来更加深入的研究提供了宝贵的数据资源,也为更为精准的治疗奠定了理论基础。
4、Bioinformatics | BioDynaMo:一个研究生物过程的新计算平台
基于代理的模拟 (ABS) 是一种强大的工具,可帮助生命科学家更好地理解复杂的生物系统。计算机模拟是一种快速测试有关细胞群、组织、器官或整个生物体的(病理)生理学假设的廉价且有效的方法。然而,此类计算机模拟对科学研究的有效性通常是有限的。
萨里大学、欧洲核子研究中心、纽卡斯尔大学等研究机构的研究人员合作,提出了一种称为 BioDynaMo 的新型模拟平台。研究人员证明 BioDynaMo 可用于模拟以下领域的用例:神经科学、肿瘤学和流行病学。对于每个用例,研究人员使用实验数据或分析解决方案来验证 BioDynaMo 的模拟发现。性能测试结果表明 BioDynaMo 的性能比当前最先进的基线快三个数量级。读者可以通过https://biodynamo.org/查看相关示例。
文章
1、tidyverse团队重新发布诸多包的许可协议,统一更改为MIT
tidyverse团队(包括r-lib、tidymodels)近十五年为R社区贡献了诸多的工具包和相关生态。但由于采取了多种不同的开源许可协议,使用者常常会感到混乱。本文总结了团队为重新制定许可协议作出的努力,全部更改为MIT协议。
峰峦图对于可视化随时间或空间分布的变化非常有用,本文介绍如果通过ggridges包进行相关图形的绘制。
工具
转录组学分析可能因此变得顺滑,后面如果有分析需求或者有时间学习文档我再单独分享。
提供了一整套表格展示语法,并支持Office。
资源
这里记录一段时间作者在互联网上看到的有意思的内容与信息,防止它们在我的脑袋里走丢了。
(感谢@mugpeng的投稿)
吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解深度学习,还适合机器学习从业者和研究者复习基本概念。
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
感谢以下读者的往期赞赏:
- 李浩
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)
issue 11
生信爱好者周刊(第 11 期):中科院近20年院士增选之数据分析
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
用热力图看中科院各个学部近20年的入选人数。(via)
本周话题:中科院近20年院士增选之数据分析
本周的话题是统计之都发布的文章《数说风云:中科院近20年院士增选之数据分析》。在此之前,还无人系统整理相关的数据。该文整理了2000-2021年共11次中科院院士增选信息以及相关单位地址和类型, 从人数、学部、单位、双一流大学、区域、单位类型、年龄等多个角度进行统计、可视化和比较分析。详细的信息可以通过网址https://costudy.gitee.io/cas-fellow/进行查看。
不知道各位生信看官对此次增选有何感触评价?是否参与了院士评选工作而所有经验感想?
生信科技动态
1、Nature & Science | 新疆出土四千年前遗骸完成DNA测序,证实并非移民而是土著
近期一个关于中国塔里木盆出土的数百具自然保存的遗骸考古研究,同时登上了著名学术期刊《自然》和《科学》的官网首页。
这一研究解决了困扰考古学界很长时间的问题,这些埋藏在塔里木盆地上千年的遗骸,究竟来自哪里?
根据基因测序,这些保存完好的遗骸可以追溯到大约9000年前生活在亚洲的石器时代狩猎采集者,并非来自其他地域的移民,而是长期居住在此的土著。这些遗骸在基因上是独立的,神奇的是,他们却学会了其他群体相同的饲养牲畜和种植谷物的方式。
圣路易斯华盛顿大学考古学家Michael Frachetti表示,这一发现表明,文化交流并不总是与遗传关系相伴而行。这些人仅仅是互通往来,但这并不一定意味着要结婚生子。
2、Nature | 基于45万样本WES数据揭示564个健康性状关联基因,有望开辟基因功能研究新航道
近期,来自美国“再生元”遗传研究中心的研究团队与UK Biobank团队合作,对45万名参与者进行了外显子组测序,利用生物信息分析研究了蛋白质改变带来的表型变化。
(什么时候中国有此规模、系统的计划和公开数据?)
3、NC | 网络分析揭示了生物组织的多个层次的罕见疾病特征
罕见的遗传疾病通常是由单个基因缺陷引起的。尽管基因型和表型之间有明确的因果关系,但在生物组织的不同层次上确定病理生物学机制仍然是一个实践和概念上的挑战。本文介绍了一种网络方法,用于评估罕见基因缺陷在生物尺度上的影响。本文构建了一个由超过2000万个基因关系组成的多重网络,这些基因关系被组织成46个网络层,跨越了基因型和表型之间的6个主要生物尺度。对3771种罕见疾病的综合分析揭示了不同的表型模块在各个层次。这些模块可用于机械分析基因缺陷的影响,并准确预测罕见疾病候选基因。结果表明,疾病模块形式可以应用于罕见疾病,并推广到物理交互网络之外。这些发现为应用基于网络的工具进行跨规模的数据集成开辟了新的途径。
4、Communications Biology | 基于深度学习算法的DIA数据处理方法,有效提升DIA蛋白质组学分析性能
数据独立采集(Data-independent acquisition,DIA)是当前蛋白质组学中应用范围较广的采集方式。与数据依赖采集(Data-dependent acquisition, DDA)的策略相比,DIA避免了仅对高丰度蛋白质信号采集的偏好性,转而采取“兼容并包”的策略,将一级质谱的荷质比范围分为数个窗口,在二级质谱中采集各个窗口内所包含的所有母离子碎裂所产生的子离子信号。正是如此,DIA具有相比DDA更好的重现性与定量准确性,在样本数量较大时能够获得更加准确而稳定的蛋白表达矩阵,因而更加适用于大规模的定量蛋白质组学研究。
本文,研究团队开发了基于深度学习算法的DIA数据处理方法DreamDIAXMBD,通过对DIA谱图库以及数据的分析,设计了包含上百种色谱峰类型的新型谱图数据结构代表性谱图矩阵(representative spectral matrix,RSM),使用深度学习算法提取DIA肽段谱图中的洗脱特征,有效提升了DIA数据处理算法的准确度,并在定性、定量等多个方面超越了目前广泛使用的开源DIA数据处理软件OpenSWATH、Skyline和DIA-NN。
文章
Linux的黑白命令行无法看R语言配色,本文推荐了一个工具并介绍如何使用。
2、远程运行jupyter notebook:密码登录和token登录
本文介绍如何使用密码和token登录Jupyter Notebook。
这是一个对标VS Code的软件,目前处于邀请测试中。
因为 Fleet,我们不再需要打开不同的 IDE 来获得特定技术所需的功能。使用 Fleet,一切都在一个应用程序中。
工具
easystats是一个组织,提供了一系列方便在R中处理统计分析与建模的工具包。
2、hardhat
hardhat是一个以开发人员为中心的包,旨在简化新的建模包的创建,同时促进良好的R建模包标准,这些标准是由R建模包的一组传统的约定所制定的。
3、BruceR - 一个统计检验的R包,可以很方便地进行简单效应检验和多重效应检验
(感谢知乎@谷雨
投稿)
资源
课件链接:https://www.aliyundrive.com/s/DjUaNNPxegL
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
感谢以下读者往期赞赏:
- 李浩
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)
issue 10
生信爱好者周刊(第 10 期):开放科学
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
愈加开放的科学是未来的潮流。(via)
本周话题:开放科学
联合国教科文组织(UNESCO)大会第41届会议于2021年11月9-24日召开。在经过一个包容、透明和多利益相关方的协商过程之后,会议审议通过《开放科学建议书》,标志着开放科学迈入全球共识的新阶段。
《开放科学建议书》旨在为开放科学政策和实践提供一个国际框架,即承认关于开放科学的观点存在学科和地区差异,考虑到学术自由、促进性别平等变革的方法以及不同国家特别是发展中国家的科学家和其他开放科学行为者所面临的具体挑战,并有助于缩小国家之间和国家内部存在的数字、技术和知识鸿沟。
「开放科学建议书.pdf」,点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。
链接:https://www.aliyundrive.com/s/zbYedF3XwRF
生信科技动态
DNA甲基化是胚胎发育、致癌和遗传调控等重要生物学功能的重要组成部分。准确评估基因组甲基化状态的方法对于其在许多情况下的有效使用至关重要,尤其是在疾病的检测和诊断中。甲基化对比器,如Bismark和bwa-meth,经常分配比所映射的区域的唯一性所支持的MapQ值高得多。这些不正确的高MapQ导致重复区域中不适当的甲基化定量检测。本研究为甲基化检测工具MethylDackel创建了一个新特性,以执行基于读段的过滤。这种新的甲基化调用方法将一些表面上的混合甲基化修正为0%或100%甲基化,并消除了许多可信的甲基化检测结果。
2、BIB|深度学习能在多大程度上提高癌症细胞系对药物反应的预测?
深度神经网络已被应用于1000多个癌症细胞和组织的多组学数据,以更好地预测药物反应。作者总结并研究了最近发表的最先进的深度学习方法。尽管深度学习方法在药物反应预测方面取得了重大进展,但深度学习方法在预测未出现在训练数据集中的药物反应方面显示出其弱点。特别是在药物盲测中,所有被评估的深度学习方法都比相似性-正则化矩阵分解(SRMF)方法表现差。作者概述了将深度学习方法应用于药物反应预测的挑战,并提出了将深度学习与已有的生物信息学分析相结合的方法。
3、Nature | 表型关联分析揭示罕见变异与上万种常见疾病的关系
全基因组关联研究发现了与人类疾病相关的数以万计的常见变异。然而,这些变异只能解释很少一部分疾病的发病原因。罕见变异(MAF<1%)在疾病的发生过程中发挥着重要的作用。但是,罕见变异对常见疾病的贡献仍然未知。英国生物银行(UK Biobank,UKB)纳入了约50万人的基因组数据及详细的电子病例信息,这为遗传学家提供了前所未有的机遇来评估罕见变异对常见疾病发生的影响。在本研究中,作者纳入了UKB中269171个具有欧洲血统的人群,分析了17361种二元表型(如是否为精神分裂症)和1419种定量表型(如血糖等指标)与罕见突变的关系。以基因为单位(Gene-based collapsing)的关联分析显示,存在1703个具有统计学意义的基因-二元表型关联,中位数比值比(odds ratio)为12.4。另外,83%的关联通过单一变异关联分析无法检测到,这强调了基于基因的collapsing分析在高等位基因异质性下的检出效力。重要的是,与表型相关的基因显著富集于FDA已批准的药物靶点上。最后,作者进一步从UKB中纳入了具有非洲、东亚和南亚血统的11933名人员的外显子组测序数据,进行了谱系特异性和泛谱系collapsing分析。总之,本研究阐述了罕见变异在常见疾病发生过程中的重要作用。
文章
批次效应表示样品在不同的批次处理和测量时引入的与生物状态不相关的系统性的技术偏差。很多因素都可能导致批次效应的产生,如不同实验条件、不同操作者、不同公司的试剂、不同批的试剂、实验开展的时间、检测设备、不同的测序批次等。
高维数据在机器学习问题中非常普遍,要从大量数据中提取有用信息(例如,哪些变量对于预测或解释结果更重要),必须使用统计技术来减少噪声或冗余。挑选重要变量的方法有很多,本篇简介一个R包,Boruta,它是围绕随机森林分类算法构建的包装器,用于捕获数据集中所有与结果变量相关的重要、有趣的变量。
人体微生物组成了一个复杂的多界群落,在多个身体部位与宿主共生互作。宿主-微生物的互作影响多种生理过程、是多种多因素疾病的条件。在过去10年,微生物群落被认为影响多种癌症的发生、发展、转移和对治疗的反应。然而微生物对癌症生物学存在影响的因果证据才刚刚被揭示,因此解析微生物对癌症的调节以及对癌症治疗产生影响在分子层面上的机制,具有重大的科学价值和临床意义。
在这篇综述中,研究者描述了不同促进癌症发生发展的微生物生态位共同具有的分子致病机制;强调了对相关问题理解的进步性、局限性、挑战和前瞻,这些问题包括微生物如何影响癌症和癌症对治疗的反应、微生物或其分泌的具有生物活性的代谢物如何具有潜在的利用价值、如何成为癌症治疗的精准靶标等等。
工具
pins包发布数据、模型和其他R对象,使得跨项目和与同事共享它们变得容易。你可以把对象钉到各种不同的钉板上,包括文件夹(在网络驱动器上共享或与DropBox等服务共享)、RStudio Connect、Amazon S3、Azure存储和微软365 (OneDrive和SharePoint)。可以自动对引脚进行版本控制,从而可以直接跟踪更改、对历史数据重新运行分析和撤消错误。
方便生成规范优雅的代码变更日志信息。
System Monitor(Sysmon)是一个系统服务和设备驱动程序,一旦安装在系统上,就会在系统重启时保持驻留,以监控并记录系统活动到事件日志。它提供有关进程创建、网络连接和文件创建时间变化的详细信息。通过使用事件收集或 SIEM 代理收集它产生的事件,并随后对其进行分析,用户可以识别恶意或异常活动。
资源
数据下载地址:https://zenodo.org/record/5186413
3、网易云课堂引进亚马逊AWS近百门IT类课程,向社会免费开放
钛媒体10月26日消息,专注于成人职业技能提升的网易云课堂,正式宣布上线亚马逊云科技(以下简称“亚马逊AWS”)中文在线培训课程,并承诺向全社会免费开放。
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
感谢以下读者往期赞赏:
- *啥
- 李浩
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)
issue 9
生信爱好者周刊(第 9 期):统计建模之道和术
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
(via)
本周话题:统计建模之道和术
我认为一个更基本的对统计建模的二分是其原理与技术。中国人会把前者称为道 (“路线”、“原理”或“整体思想”),而把后者称为术(“技术”、“技巧”或“方法”)。想要准确地描述统计建模的这两个方面并不容易。以下是我的大致想法:
术:在这种观念下,统计分析始于一些由其他人准备好的数据集。我们的目标是尽可能好地分析数据集,但具体的任务通常取决于分析方法的复杂程度。这个方法可以是一个简单的线性回归或者一个有十亿个参数的神经网络。
道:在这种观念下,统计分析始于科学、工程或商业问题。我们的目标是了解问题背后的机理,并利用统计结论来更好地进行决策。这个问题可能是估计某种干预的因果效应,或是理解已有数据集的局限性。
(来源:公众号「统计之都」)
生信科技动态
1、Nature|可解释深度学习用基因组图谱预测前列腺癌转移状态
麻省理工学院、哈佛大学等高校联合在Nature发表了Biologically informed deep neural network for prostate cancer discovery。该研究提出可解释深度学习P-NET模型,该模型能够在前列腺癌症患者基因属性的基础上结合生信中的层次信息预测癌症的状态。
P-NET的生物学可解释性揭示了已建立的基因与新基因变异的相关候选基因,如MDM4和FGFR1,这些基因与预测晚期疾病有关,并在体外进行验证。
广泛的来说,生物学上知情的完全可解释的神经网络使前列腺癌的临床前发现和临床预测成为可能,并可能在各种癌症类型中具有普遍的适用性。
2、Transformer新玩法登Nature子刊:DeepMind用新变体读取DNA长序列,瞄准遗传病高发区域
DeepMind与谷歌旗下生物科技公司 Calico 的一项研究登上了国际顶级方法学期刊Nature Methods。在这篇论文中,他们引入了一种叫做 Enformer 的神经网络架构,大大提高了根据 DNA 序列预测基因表达的准确性。为了进一步研究疾病中的基因调控和致病因素,研究者还公开了他们的模型及其对常见遗传变异的初步预测。
3、国家生物信息中心在核酸研究发表单细胞DNA甲基化数据库—scMethBank
DNA甲基化是表观遗传研究的一个重要层面,且与发育、衰老和疾病的发生发展密切相关。为了更好地利用已公开的海量甲基化数据,此前,中国科学院北京基因组研究所国家基因组科学数据中心(以下简称基因组数据中心)已经发布了一个DNA甲基化的综合性数据库MethBank(https://ngdc.cncb.ac.cn/methbank/),涵盖了多物种高质量的全基因组单碱基精度甲基化图谱、健康人参比甲基化组以及人工审编的甲基化分析工具集。这里,我们介绍基因组数据中心最新发布的单细胞甲基化数据库——scMethbank(https://ngdc.cncb.ac.cn/methbank/scm/)。
该项研究成果以scMethBank: a database for single-cell whole genome DNA methylation maps为题于2021年9月在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。
文章
正则表达式只不过是匹配文本或文本文件中的模式的字符序列。在许多编程语言中,它被用于文本挖掘。在所有语言中,正则表达式的字符都非常相似。但在不同的语言中,提取、定位、检测和替换的功能是不同的。本文介绍在R中如何使用和操作正则表达式。
XGBoost算法已经成为许多数据科学家的终极武器。这是一种高度复杂的算法,强大到足以处理各种不规则数据。使用XGBoost构建模型很容易。但是,使用XGBoost改进模型是困难的。该算法使用多个参数。为了改进模型,必须进行参数优化。很难回答一些实际问题,比如:应该调优哪一组参数?为了获得最佳输出,这些参数的理想值是多少?
3、R-操作数据库
本文介绍如何通过RSQLite操作关系型数据库。
工具
1、r-script
一个简单的小模块,用于将数据从NodeJS传递给R(并返回)。
RestRserve是一个R web API框架,用于构建高性能和健壮的微服务和应用后端。在类unix系统上使用Rserve后端,它被设计成并行的。
3、ggh4x
ggh4x包是ggplot2扩展包。它提供了一些实用功能,这些功能并不完全符合“图形语法”的概念——它们可能有点笨拙——但在调整你的ggplot时仍然有用。示例包括调整facet的大小,将多种美学映射到颜色,以及为facet指定单独的比例。除此之外,它也是geoms, facets, positions, guides和stats的集合。
GitHub代码空间配置的R和Shiny。
资源
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
感谢以下读者往期的赞赏:
- *林
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)