在现代生物科学研究中,生物数据库扮演着至关重要的角色。从基因组数据到蛋白质序列,从生物图谱到表达谱,数据库为研究人员提供了丰富的数据资源。而Linux作为一个强大、灵活且高度可定制的操作系统,成为了许多研究人员的首选平台。接下来,我们将探索如何在Linux上下载和管理生物数据库,让你的研究工作更加高效和便捷。
在下载生物数据库之前,你需要明确所需的数据库类型。是基因组数据还是蛋白质序列?
确定好数据库类型后,你还需要检查你的Linux系统配置和依赖项,以确保你的系统具备下载和处理数据库所需的资源和工具。



当下载生物数据库时,我们通常会选择使用HTTP协议或FTP进行下载。许多人习惯先将数据下载到本地Windows系统,然后再将其使用xftp等传输软件传输到服务器上。然而,事实上我们可以直接在服务器端使用命令进行下载,这样不仅节省了传输的步骤,还减轻了本地硬盘的反复读写消耗。
我们也可以在Linux系统下利用命令行进行数据下载,这样可以直接将数据下载到服务器中。Linux系统提供了许多命令行下载工具,例如系统自带的wget和curl命令,也可以自行下载axel等工具。wget非常方便,只需提供链接地址即可进行下载。同时,wget和curl都支持多种协议(如HTTP、FTP等),为科研工作者带来更多便利。这里以wget命令为例:
#如果要下载名为"example_db.tar.gz"的数据库文件
wget http://www.example.com/example_db.tar.gz
#如果需要将文件下载到特定目录,可以在wget命令后面指定目标目录,例如:
wget -P /path/to/directory http://www.example.com/example_db.tar.gz
-P, --directory-prefix=PREFIX:指定下载文件保存的目录。
#所有选项参数介绍
-O, --output-document=FILE:将下载的文件保存为指定文件名。
-q, --quiet:安静模式,减少输出信息。
-c, --continue:继续下载未完成的文件。
-r, --recursive:递归下载,下载指定链接中的所有文件。
-N, --timestamping:仅在本地文件较新时才下载文件。
-np, --no-parent:不追溯至父目录,用于限制递归下载的深度。
-nc, --no-clobber:不覆盖已存在的文件,避免重复下载。
-b, --background:后台下载文件。
-i, --input-file=FILE:从指定文件中读取下载链接。
--limit-rate=RATE:限制下载速度。
-S, --server-response:显示服务器的响应头信息。
-A, --accept=LIST:只下载符合指定扩展名列表的文件。
-r, --reject=LIST:拒绝下载符合指定扩展名列表的文件。
-U, --user-agent=AGENT:设置用户代理标识。
FTP(File Transfer Protocol,文件传输协议)相比于HTTP协议更稳定、传输速度更快。许多网站提供FTP协议的数据下载服务。
NCBI的FTP地址为:ftp://ftp.ncbi.nlm.nih.gov/
EMBL的FTP地址为:ftp://ftp.ensembl.org/pub/
访问FTP服务器需要4个要素:
在Linux系统中,可以使用ftp命令进行FTP操作,但由于ftp命令不支持文件夹下载,因此更推荐使用lftp工具,它功能更强大。
#首先conda安装lftp
conda install lftp
#然后,使用以下命令连接到FTP服务器并下载文件或目录:
lftp ftp://ftp.example.com # 连接到FTP服务器,
cd path/to/directory # 切换到要下载的目录
mirror --use-pget-n=8 # 使用多线程下载(可选)
#下载完成,退出lftp
exit
#所有选项参数介绍
-u, --user USER[:PASS]:指定登录FTP服务器的用户名和密码。
-p, --port PORT:指定连接的端口号。
-e, --execute CMD:在连接建立后执行指定的命令。
-c, --cmd COMMANDS:在连接建立后依次执行多个命令。
-d, --debug LEVEL:设置调试等级。
-v, --verbose:显示详细输出信息。
-f, --file FILE:从文件中读取命令并执行。
-e, --env-var VAR=VALUE:设置环境变量。
--no-ssl-verify:禁用SSL证书验证。
--parallel[=N]:启用并行传输模式,可指定最大并行连接数。
--use-pget-n=N:使用多线程下载,指定线程数量。
--mirror:递归下载整个目录。
--only-missing:仅下载缺失的文件。
--delete-first:在下载之前先删除目标目录中的文件。
--continue:断点续传,继续上次未完成的下载。
Aspera是一家提供数据传输解决方案的公司,其核心技术是Aspera FASP(Fast, Adaptive and Secure Protocol)传输专利技术,能够极大地提高数据传输效率。Aspera被IBM公司收购后,继续致力于提供高效、安全的数据传输解决方案。
Aspera FASP协议利用现有的广域网(WAN)基础架构和通用硬件,在传输速度上比传统的FTP和HTTP快数百倍。该协议不仅提供企业级安全性和出色的可靠性,还具备卓越的带宽控制能力。测试显示,原本需要超过10小时才能完成的数据传输,在使用Aspera后仅需8.4秒即可完成。因此,可以说Aspera在数据传输速度方面具有非常显著的优势。
目前,诸如NCBI和EBI等机构的数据都支持使用Aspera进行下载,进一步证明了Aspera在科学研究和数据交换领域的重要性和实用性。安装地址:http://asperasoft.com/
#安装aspera
wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz
tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz
#使用aspera下载数据库
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nt.gz /your/local/directory/
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nr.gz /your/local/directory/
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:pub/COG/ /your/local/directory/
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/swissprot.tar.gz /your/local/directory/
当你需要下载来自多个物种的不同基因序列时,可以使用 Batch Entrez 工具来实现批量检索和下载。Batch Entrez 是 NCBI 提供的一种工具,用于批量检索数据库中的数据,非常适合需要获取大量基因序列数据的情况。
使用 Batch Entrez 工具,即使不懂编程也能方便地批量检索和下载基因序列数据。这种方法对于大规模获取来自多个物种的基因序列非常有效。
#NT库
ftp.ncbi.nlm.nih.gov:/blast/db nt*.tar.gz
#NR库
ftp.ncbi.nlm.nih.gov:/blast/db nr*.tar.gz
#COG/KOG
ftp://ftp.ncbi.nlm.nih.gov/pub/COG/
#基因组数据库
ftp://ftp.ncbi.nlm.nih.gov/genomes/
#质粒数据库
ftp://ftp.ncbi.nlm.nih.gov/genome s/Plasmids/
#病毒基因组:
ftp.ncbi.nlm.nih.gov/refseq/release/viral
#Swissprot
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/swissprot.gz
#物种分类数据库
ftp://ftp.ncbi.nih.gov/pub/taxonomy/下期内容:转录组上游分析
此文是在自己的理解和参考网络资料后完成的,若有侵权,请联系删除。

END

扫码加入我们的交流群(免费)

——往期推荐——
R语言可视化(第 4 期):密度图 Density plot
TCGA转录组实战:使用TCGAbiolinks包下载乳腺癌病人数据并整理
揭秘Linux在生物信息学中的神秘力量,探索科学之门的奇妙世界!
干货 | RNA-seq之R语言富集分析,KEGG、GO和GSEA实战详解
如果对您有帮助,请帮我们点一个在看,或者转发关注哦~这对我们真的很重要
