引言
各位 Rust 爱好者,今天给大家分享一个非常硬核的开源项目 —— Pyscan。
这是一个用 Rust 编写的 Python 依赖漏洞扫描器。作者 ohaswin 是一位还在上大学的开发者,三年前他发布了这个工具的第一个版本,当时扫描 200 个依赖需要 6 分钟。如今 v2.1.0 版本可以在 5 秒内扫完 1000+ 个依赖,内存占用甚至比一个浏览器标签页还小。
如果你正在学 Rust,又想看看 Rust 在系统工具领域到底有多能打,那么这篇文章绝对不要错过。我们一起来看看这个项目背后的工程思路与性能优化技巧。
一、问题背景:为什么需要 Pyscan?
在生产环境的 CI/CD 流水线中,传统的 Python 安全工具(比如 pip-audit、Safety)有两个明显痛点:
- 1. 速度慢:开发者为了让 CI/CD 跑得快,往往会主动放弃这些慢吞吞的安全扫描工具,反而留下了安全隐患。
- 2. 内存占用高:在内存受限的 CI 环境里,单独跑一个扫描工具的成本可能比业务本身还高。
Pyscan 的目标很明确:用 Rust 把这两个问题一起解决。
它会自动遍历 Python 项目,从各种打包格式(uv、poetry、pip、pdm、requirements.txt、SBOM 文件,甚至直接从源码)中提取依赖列表,然后与 OSV(Open Source Vulnerabilities)漏洞数据库进行比对。
二、Benchmark:数据说话
作者在 88 个依赖的项目上做了对比测试,结果非常直观:
特别值得关注的是内存数据。pip-audit 跑一次要吃 433 MB,在内存受限的 CI 环境里,这笔账算下来真的不便宜。而 Pyscan 只需要 53 MB,相对而言相当克制。
更有意思的是,Pyscan 的运行时复杂度是 O(vulns),而不是 O(deps)。也就是说:扫描一个有 10000 个依赖的干净项目,和扫描一个只有 15 个依赖的项目,耗时差不多。瓶颈在于发现的漏洞数量,而不是依赖数量。
三、v2.1.0 的三大新特性
1. 可达性启发式分析(Reachability Heuristics)
Pyscan 现在会扫描你的源码,找出你究竟在哪些文件里 import 了存在漏洞的依赖包,并把这个信息直接显示在诊断输出中。
举个例子,如果你的项目里 Django 存在漏洞,Pyscan 会精准告诉你:
GHSA-8p8v-wh79-9r56: `URLField.to_python()` in Django calls
`urllib.parse.urlsplit()`, which performs NFKC normalization on
Windows that is disproportionately slow for...
[/home/aswin/college/casvdy/manage.py:14:1]
13 | try:
14 | from django.core.management import execute_from_command_line
| └── vulnerable dependency imported here
15 | except ImportError as exc:
help: Update 'django' to >= 6.0.3
作者非常坦诚:这只是基于正则表达式的启发式扫描,并不是完整的调用图分析,也不能称为静态分析。它只能识别 import 层面的使用,而无法做深层的传递可达性分析。但对于快速定位问题来说,它已经非常好用了 —— 知道是哪个文件引入了漏洞依赖,就已经解决了一半的问题。
完整的基于 DAG 的可达性分析在路线图中。
2. SBOM 原生支持
Pyscan 现在原生支持解析 CycloneDX(bom.json)和 SPDX(spdx.json)这两种 SBOM 格式。
依赖解析的优先级顺序如下:
- 1. SBOM 文件(bom.json、spdx.json)
只要 SBOM 存在,Pyscan 就把它当作唯一可信源,跳过其他所有解析逻辑。如果你的 CI/CD 流水线已经在生成 SBOM(强烈建议你这么做),Pyscan 可以直接消费它。
3. 全局并行网络请求 Wave(架构优化)
这是作者最自豪的一项改造。
之前的版本虽然也用了并行去查询 OSV 数据库,但效率并不高 —— 不同的依赖包可能共享同一个漏洞 ID,于是产生了大量冗余的网络请求。v2.1.0 把请求逻辑重构成了一个去重后的并行 Wave:一次批量请求,零冗余,延迟显著降低。
这也是内存占用始终保持平稳的原因 —— 没有飞行中的请求堆积,也没有缓冲响应的累积。作者还顺手优化了一些字符串分配,并学会了如何正确使用 BufReader 来解析文件。
下面给大家写一个简化的伪代码示例,演示这种「去重 + 并行 Wave」的思路:
use std::collections::HashSet;
use futures::future::join_all;
// 模拟从依赖列表中收集漏洞 ID
async fn collect_vuln_ids(deps: &[&str]) -> HashSet<String> {
// 这里仅做示意,实际会请求 OSV API
let mut ids = HashSet::new();
for dep in deps {
// 假设每个依赖返回一组漏洞 ID
ids.insert(format!("GHSA-{}-demo", dep));
}
ids
}
// 并行批量获取漏洞详情,自动去重
async fn fetch_vulns_parallel(deps: Vec<&str>) {
// 第一步:收集所有漏洞 ID 并去重
let unique_ids = collect_vuln_ids(&deps).await;
// 第二步:把去重后的 ID 列表打成一个并行 Wave
let tasks = unique_ids.iter().map(|id| async move {
// 模拟向 OSV 发起一次请求
println!("正在请求漏洞详情:{}", id);
// fetch_osv_detail(id).await
});
// 第三步:等待所有请求完成
join_all(tasks).await;
}
#[tokio::main]
async fn main() {
// 示例依赖列表
let deps = vec!["django", "flask", "requests"];
fetch_vulns_parallel(deps).await;
}
这种「先去重再并行」的模式,对任何需要批量查询外部 API 的场景都很有借鉴意义。
四、安装方式
Pyscan 提供了三种安装方式,任意一种都可以:
# 方式一:使用 pipx 安装(官方推荐)
pipx install pyscan-rs
# 方式二:使用 pip 安装
pip install pyscan-rs
# 方式三:使用 cargo 直接从源码构建
cargo install pyscan
PyPI 和 crates.io 上累计下载量已经超过 40000 次,还登上过 Real Python Podcast。而维护它的,依然只有那位「在课间编码的穷大学生」。
五、未来路线图
作者公布的下一步计划包括:
- 1. 更好的 CI/CD 体验:结构化输出格式、退出码、GitHub Actions 集成
作者也在文章里非常诚实地说了一句话:「如果你已经在用 uv,那你不需要 Pyscan,uv audit 表现相当,有时甚至更快。Pyscan 是给所有还没用上 uv 的人准备的。」
这种坦诚的态度,本身就值得我们学 Rust 的人尊敬。
总结
Pyscan v2.1.0 是一个值得每个 Rust 学习者认真研究的项目,原因有三个:
- 1. 真实场景的性能优化范例:从 6 分钟到 5 秒,从 433 MB 到 53 MB,这种数量级的提升不是靠语言切换就能实现的,更多是工程思路上的胜利 —— 网络请求去重、BufReader 的正确使用、字符串分配的精细控制。
- 2. 架构清晰:依赖解析的优先级、并行 Wave 的设计、可达性启发式的妥协与诚实,都是非常好的工程实践教材。
- 3. 文档与开源态度:作者直接告诉用户「有 uv 就不需要我」,这种不夸大、不掩盖局限的写作风格,是开源世界里最稀缺的品质。
如果你正在学 Rust,又苦于找不到合适的项目去练手,不妨去看看 Pyscan 的源码。从一个简单的工具开始,把性能榨到极致 —— 这正是 Rust 最迷人的地方。
参考文章
- 1. Pyscan: Python Dependency Vulnerability Scanner with SBOM Support and Reachability Heuristics:https://ohaswin.github.io/blog/pyscan-v2/
书籍推荐
这本《Rust权威指南》中文版第二版是由 Rust 核心开发团队编写的权威学习资料,由中国 Rust 社区成员翻译。它适合所有希望评估、入门、提高和研究 Rust 语言的软件开发人员,被视为 Rust 开发工作的必读书目。
本书由浅入深地介绍了 Rust 语言的基础概念到独有实用工具的方方面面,涵盖了所有权、trait、生命周期、安全保证等高级概念,以及模式匹配、错误处理、包管理、函数式特性和并发机制等实用工具。书中包含三个完整的项目开发实战案例,手把手教读者从零开始开发 Rust 实践项目。
特别值得注意的是,本书已更新至 Rust 2021 版本内容,既能满足初学者系统学习需求,也适合有经验的开发者作为参考指南,是构建扎实 Rust 技能的最佳入口。