本次测评CircRNA-seq上游分析的两大最新工具CIRCexplorer3及CIRIquant。CIRCexplorer3是2019年发表在Genomics Proteomics Bioinformatics(2020 IF=7.69)上,目前引用量是22次;CIRIquant2020年发表在nature communications上,目前引用量是54次。
不考虑算法的前提下比较这两款软件:两款软件运行均比较慢,40个线程下双端测序的一个样本约需2小时。其中CIRCexplorer3运行更慢一些,且需要安装非常多的依赖包。但是,CIRCexplorer3github官网并没有列出这些依赖包,且git clone安装后,也没有提供依赖包的list文件;尽管这款软件可用一句代码即可完成所有模块,且得到最终计算出的表达矩阵,但是在缺少部分依赖包的情况下,这款软件把能运行的部分运行完毕,但一遇到当前模块缺少对应依赖包时,便报错停止运行,且报错信息给的非常不明确。这样的话,造成了软件给出什么报错,我们苦苦debug,对应的装当前模块缺少的依赖包。但由于软件本身运行非常耗时,哪怕漏一个依赖包,都得从头再来......最后需要注意的是,这款软件对依赖包的版本有限制(笔者血泪教训得到的经验),这一点github官网也没有明确说清楚,我是看了issue部分才知道的。
ps:笔者前期并未试用过CIRCexplorer1和CIRCexplorer2,笔者推测使用过这两个旧版本的用户更适合上手CIRCexplorer3。
而相比之下,CIRIquant非常贴心,不仅提供一键式下载,还有示例数据及官方的文档,见https://ciri-cookbook.readthedocs.io/en/latest/index.html。
因此,笔者推荐Linux熟练度不够的同学,不建议尝试CIRCexplorer3。另一个角度考虑的话,CIRIquant发表在NC上,且是最新的软件。当然,想要折腾一下,尝试不同算法的同学,两个软件均可做尝试。
接下来,是两款软件的测评情况。我们先从示例数据的下载开始。
一. 示例数据下载此模块对于有过RNA-seq经验的同学来说可以略过。
Step0. 数据下载前的准备:软件下载使用conda和mamba:
注:mamba是conda的一个超级加速软件
代码语言:javascript复制conda create -n circrna python=2mamba install -y -c bioconda sra-tools #GEO官方推荐下载工具mamba install -y -c bioconda fastq-dump #SRR转fq工具mamba install -y -c bioconda fastp #质控与修剪mamba install -y -c bioconda fastqc #fq文件质控mamba install -y -c bioconda trim-galore #fq文件修剪Step1. 首先是获取SRA ID:笔者使用的数据为项目数据,这里我们以GSE108505为例:
点击上图的SRA Run Selector按钮,到达下图界面,点击下载Metadata即为表型信息,点击Accession List即可获得SRA ID。
根据表型数据可知,9个数据为双端数据,且9个样分为3组处理。开始下载数据:
代码语言:javascript复制mkdir 1.sra_datacd 1.sra_data###1.Raw_data: 下载SRR数据cat >cirRNA.id #注:随后键入Enter键,输入如下内容:SRR6417989SRR6417990SRR6417991SRR6417992SRR6417993SRR6417994SRR6417995SRR6417996SRR6417997#注:快捷键ctrl+C即可结束当前的输入##批量下载cat cirRNA.id |while read id;do (nohup prefetch -c -p $id 1> $id.log &);done # 后台下载##把所有下载好的SRR移动到当前目录mv SRR*/* ./rm -r SRR*/##检查文件下载的大小和完整性##cat nohup.out | grep "failed"Step2. SRR转fastq文件代码语言:javascript复制###2.SRR转fastqmkdir cd ../2.raw_fastq/cd ../2.raw_fastq/##做一个软连接文件ln -s ../1.sra_data/*.sra ../2.raw_fastq/##创建文件转换fastq.sh脚