当前位置：首页>Linux>Linux中的生物数据库下载指南:总有一款适合你!

Linux中的生物数据库下载指南:总有一款适合你!

2026-06-28 12:55:21

在现代生物科学研究中，生物数据库扮演着至关重要的角色。从基因组数据到蛋白质序列，从生物图谱到表达谱，数据库为研究人员提供了丰富的数据资源。而Linux作为一个强大、灵活且高度可定制的操作系统，成为了许多研究人员的首选平台。接下来，我们将探索如何在Linux上下载和管理生物数据库，让你的研究工作更加高效和便捷。

数据库下载前的准备

确定所需的生物数据库类型

在下载生物数据库之前，你需要明确所需的数据库类型。是基因组数据还是蛋白质序列？

检查Linux系统配置和依赖项

确定好数据库类型后，你还需要检查你的Linux系统配置和依赖项，以确保你的系统具备下载和处理数据库所需的资源和工具。

常见生物数据库的下载方法

下载网址

NCBI数据库：ftp://ftp.ncbi.nih.gov/genomes/Homo_sapiens
http://www.ncbi.nlm.nih.gov/projects/genome/guide/human/

ENSEMBL数据库：http://ensemblgenomes.org/

UCSC数据库：https://genome.ucsc.edu/

网页端下载

当下载生物数据库时，我们通常会选择使用HTTP协议或FTP进行下载。许多人习惯先将数据下载到本地Windows系统，然后再将其使用xftp等传输软件传输到服务器上。然而，事实上我们可以直接在服务器端使用命令进行下载，这样不仅节省了传输的步骤，还减轻了本地硬盘的反复读写消耗。

Linux命令行下载

我们也可以在Linux系统下利用命令行进行数据下载，这样可以直接将数据下载到服务器中。Linux系统提供了许多命令行下载工具，例如系统自带的wget和curl命令，也可以自行下载axel等工具。wget非常方便，只需提供链接地址即可进行下载。同时，wget和curl都支持多种协议（如HTTP、FTP等），为科研工作者带来更多便利。这里以wget命令为例：

#如果要下载名为"example_db.tar.gz"的数据库文件
wget http://www.example.com/example_db.tar.gz
#如果需要将文件下载到特定目录，可以在wget命令后面指定目标目录，例如：
wget -P /path/to/directory http://www.example.com/example_db.tar.gz
-P, --directory-prefix=PREFIX：指定下载文件保存的目录。
#所有选项参数介绍
-O, --output-document=FILE：将下载的文件保存为指定文件名。
-q, --quiet：安静模式，减少输出信息。
-c, --continue：继续下载未完成的文件。
-r, --recursive：递归下载，下载指定链接中的所有文件。
-N, --timestamping：仅在本地文件较新时才下载文件。
-np, --no-parent：不追溯至父目录，用于限制递归下载的深度。
-nc, --no-clobber：不覆盖已存在的文件，避免重复下载。
-b, --background：后台下载文件。
-i, --input-file=FILE：从指定文件中读取下载链接。
--limit-rate=RATE：限制下载速度。
-S, --server-response：显示服务器的响应头信息。
-A, --accept=LIST：只下载符合指定扩展名列表的文件。
-r, --reject=LIST：拒绝下载符合指定扩展名列表的文件。
-U, --user-agent=AGENT：设置用户代理标识。

FTP下载

FTP（File Transfer Protocol，文件传输协议）相比于HTTP协议更稳定、传输速度更快。许多网站提供FTP协议的数据下载服务。

NCBI的FTP地址为：ftp://ftp.ncbi.nlm.nih.gov/

EMBL的FTP地址为：ftp://ftp.ensembl.org/pub/

访问FTP服务器需要4个要素：

FTP地址
用户名和密码（可以匿名访问，即使用"Anonymous"作为用户名，一般不需要密码）
端口号（FTP默认端口号为21，通常无需手动填写）
连接工具

在Linux系统中，可以使用ftp命令进行FTP操作，但由于ftp命令不支持文件夹下载，因此更推荐使用lftp工具，它功能更强大。

#首先conda安装lftp
conda install lftp
#然后，使用以下命令连接到FTP服务器并下载文件或目录：
lftp ftp://ftp.example.com  # 连接到FTP服务器，
cd path/to/directory  # 切换到要下载的目录
mirror --use-pget-n=8  # 使用多线程下载（可选）
#下载完成，退出lftp
exit
#所有选项参数介绍
-u, --user USER[:PASS]：指定登录FTP服务器的用户名和密码。
-p, --port PORT：指定连接的端口号。
-e, --execute CMD：在连接建立后执行指定的命令。
-c, --cmd COMMANDS：在连接建立后依次执行多个命令。
-d, --debug LEVEL：设置调试等级。
-v, --verbose：显示详细输出信息。
-f, --file FILE：从文件中读取命令并执行。
-e, --env-var VAR=VALUE：设置环境变量。
--no-ssl-verify：禁用SSL证书验证。
--parallel[=N]：启用并行传输模式，可指定最大并行连接数。
--use-pget-n=N：使用多线程下载，指定线程数量。
--mirror：递归下载整个目录。
--only-missing：仅下载缺失的文件。
--delete-first：在下载之前先删除目标目录中的文件。
--continue：断点续传，继续上次未完成的下载。

Asprea高速下载

Aspera是一家提供数据传输解决方案的公司，其核心技术是Aspera FASP（Fast, Adaptive and Secure Protocol）传输专利技术，能够极大地提高数据传输效率。Aspera被IBM公司收购后，继续致力于提供高效、安全的数据传输解决方案。

Aspera FASP协议利用现有的广域网（WAN）基础架构和通用硬件，在传输速度上比传统的FTP和HTTP快数百倍。该协议不仅提供企业级安全性和出色的可靠性，还具备卓越的带宽控制能力。测试显示，原本需要超过10小时才能完成的数据传输，在使用Aspera后仅需8.4秒即可完成。因此，可以说Aspera在数据传输速度方面具有非常显著的优势。

目前，诸如NCBI和EBI等机构的数据都支持使用Aspera进行下载，进一步证明了Aspera在科学研究和数据交换领域的重要性和实用性。安装地址：http://asperasoft.com/

#安装aspera 
wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz 
tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz
#使用aspera下载数据库
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nt.gz /your/local/directory/
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nr.gz /your/local/directory/
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:pub/COG/ /your/local/directory/
.aspera/connect/bin/ascp -i /path/to/your/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/swissprot.tar.gz /your/local/directory/

批量下载

当你需要下载来自多个物种的不同基因序列时，可以使用 Batch Entrez 工具来实现批量检索和下载。Batch Entrez 是 NCBI 提供的一种工具，用于批量检索数据库中的数据，非常适合需要获取大量基因序列数据的情况。

首先，准备一个包含要检索的基因列表的文本文件，例如 gene_list.txt，每行包含一个基因名或基因ID。
访问 NCBI 的 Batch Entrez 网页：https://www.ncbi.nlm.nih.gov/sites/batchentrez
在 Batch Entrez 页面上，选择相应的数据库（如 Nucleotide for nucleotide sequences）和输入数据类型（如 Gene Symbol）。
将准备好的基因列表粘贴到相应的输入框中。
点击 "Retrieve" 按钮进行检索。
在结果页面上，你可以选择下载检索到的数据，通常会提供下载选项或导出功能。

使用 Batch Entrez 工具，即使不懂编程也能方便地批量检索和下载基因序列数据。这种方法对于大规模获取来自多个物种的基因序列非常有效。

其他数据库下载

#NT库
ftp.ncbi.nlm.nih.gov:/blast/db nt*.tar.gz
#NR库 
ftp.ncbi.nlm.nih.gov:/blast/db nr*.tar.gz
#COG/KOG
ftp://ftp.ncbi.nlm.nih.gov/pub/COG/
#基因组数据库
ftp://ftp.ncbi.nlm.nih.gov/genomes/
#质粒数据库
ftp://ftp.ncbi.nlm.nih.gov/genome s/Plasmids/
#病毒基因组：
ftp.ncbi.nlm.nih.gov/refseq/release/viral
#Swissprot
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/swissprot.gz
#物种分类数据库
ftp://ftp.ncbi.nih.gov/pub/taxonomy/