你有没有遇到过这种情况?
从各种网站下载了一大堆论文PDF,打开文件夹一看,全是"1-s2.0-S1674987118301634-main.pdf"、"10.1016@j.gsf.2018.08.001.pdf"这种鬼名字。
想找某篇论文?只能一个个点开看。想按作者或年份整理?根本无从下手。
好一点的情况下,大概下载到的是标题的,那大概如下所示
可是,有的时候可能需要三个作者的名字,有的时候可能需要完整的全名,就总之还是很麻烦。
我之前就是这样,下载了几百上千篇论文,弄得什么工具软件从网上检索获取作者信息有时候又不一定都能查到,结果全堆在一个文件夹里,每次找文献都像大海捞针。
我是真不习惯去自己一个个瞅。。。
后来实在受不了了,就写了个小工具来解决这个问题。
这个工具叫"瞅"(Chou),功能很简单:自动读取PDF里的标题、作者和年份,然后把文件名改成类似"Yu et al. (2019) - GeoPyTool A cross-platform software solution.pdf"这种引用格式。
整个过程是全自动的。你只需要告诉它论文在哪个文件夹,它就会自己去分析每一篇PDF,提取出作者姓名、发表年份和文章标题,然后生成规范的文件名。对于中文论文也没问题,"某某人 et al. (2024) - TAS-PF基于大数据概率场的TAS扩展图解.pdf"这种格式同样支持。
这样一眼就能看出是谁写的、哪年发表的、大概讲什么内容。

如果PDF是扫描版的图片,工具也能处理。它会自动调用OCR识别文字,然后再提取信息。目前支持好几种OCR引擎,包括Surya、PaddleOCR、EasyOCR等,可以根据自己的情况选择。
安装特别简单,打开终端或命令行,输入:
pip install chou
就装好了。如果你需要处理扫描版PDF,可以额外装一个OCR引擎,比如:
pip install chou[ocr-surya]
装完之后,用起来也很直接。假设你的论文都在Downloads/papers文件夹里,先预览一下会怎么改名:
chou -d ~/Downloads/papers
这时候它只会告诉你打算怎么改,不会真的动你的文件。确认没问题之后,加个 -x 参数就会真正执行重命名:
chou -d ~/Downloads/papers -x
如果你不习惯命令行,也有图形界面版本。装好之后运行 chou-gui 就能打开一个窗口,拖拽文件夹进去就行。
然后就能得到类似下面的结果:
默认情况下,文件名里只会显示第一作者加"et al.",如果你想显示全部作者,可以用 -f all_surnames 参数。
如果想显示前三位作者,用 -N 3。这些都可以根据自己的习惯调整。
工具在重命名之前会自动检查有没有重名的情况,如果有的话会在文件名后面加个数字区分,不用担心文件被覆盖。
对于搞科研的朋友来说,把文献管理好真的能省很多时间。
以前找一篇论文可能要翻好几分钟,现在按作者名时代和标题关键词帮忙,几秒钟就能找到。
这样写论文引用的时候,看着文件名就知道该引哪篇,效率高了不少。
如果你也被乱七八糟的PDF文件名困扰,不妨试试这个工具。
代码是开源的,放在GitHub上,有问题可以直接提issue。希望能帮到有同样烦恼的朋友。
GitHub: https://github.com/cycleuser/Chou