在 AI 时代,你会越来越频繁地和各种工具链打交道。很多效率差距,不是来自你会不会某个模型,而是来自你能不能一眼判断该用什么文件格式来存、来传、来训练、来部署、来交付。文件格式就是数字世界的通用接口。先把常见格式摸清楚,你的工作流会更稳,踩坑更少,协作更顺。
下面是完整版日常文件格式速查,包含图片、视频、文档、网页、数据交换、编程工程化,以及 AI/机器学习常见格式。
最常用的速选规则
- • 可点可搜可交互报告:HTML + CSS/JS
- • 照片:JPG;截图/透明:PNG;网页资源:WebP
- • 通用动图:GIF;更清晰省体积:MP4/WebM
1) 图片与图形
.jpg / .jpeg
.png
.webp
.gif
- • 建议:通用动图用 GIF;追求画质和体积用 MP4/WebM
.svg
.tiff
.heic
- • 作用:手机高压缩高质量照片(iPhone 常见)
设计源文件:.psd / .ai / .fig / .sketch / .xd
- • 建议:内部留源文件,对外导出 PNG/SVG/PDF
2) 视频与音频
.mp4
.mov
.mkv
.webm
.mp3
.wav
.flac
3) 文档与网页交付
.pdf
.doc / .docx
.ppt / .pptx
.xls / .xlsx
- • 建议:要算要表用 XLSX;交换数据用 CSV
.md
.txt
.html
- • 能做:目录跳转、搜索、交互(配 .js)、离线报告
- • 缺点:常依赖 css/js/图片;版式不如 PDF 固定
- • 建议:要“可点可搜可交互”用 HTML;要“定稿印刷”用 PDF
.css / .js(网页配套)
4) 数据交换与配置
.csv
.json
.jsonl
- • 作用:一行一个 JSON,适合流式、批量、超大文件
.yaml / .yml
.toml
- • 适合:Python 项目配置(pyproject 等)、工具配置
.ini / .conf
.xml
.parquet
.feather
.sqlite / .db
5) 压缩与打包
.zip
.7z
.tar / .tar.gz / .tgz
6) 编程与工程化文件
代码
- • .py:Python 源代码(脚本、服务、ETL、训练、推理、自动化)
- • .ipynb:Notebook(交互实验、可视化、研究记录;不适合大型工程部署)
- • .js / .ts:前端/Node(网页交互、BFF 中转、工具脚本)
- • .java / .go / .rs / .cpp:后端与高性能模块(推理服务、数据服务)
依赖与可复现
- • requirements.txt:pip 依赖清单
- • pyproject.toml:现代 Python 项目配置
- • poetry.lock / uv.lock / Pipfile.lock:锁依赖,保证可复现
- • package.json / pnpm-lock.yaml:Node 依赖与脚本
环境与部署
- • .env:环境变量(API Key、数据库连接),不要公开
- • docker-compose.yml:多服务编排(API + 向量库 + DB)
自动化与工程习惯
- • Makefile:命令封装(build/test/run)
- • .sh / .ps1 / .bat:脚本自动化
- • README.md / LICENSE:说明与协议
- • .editorconfig / pre-commit:统一风格与提交检查
7) AI/机器学习常见格式(重点)
数据集
- • .arrow:HF datasets 常见底层
权重与模型文件
- • .pt / .pth:PyTorch 权重/检查点
- • .safetensors:更安全的权重格式(分享与加载更可靠)
本地大模型量化与推理
- • .gguf:llama.cpp / Ollama 常用(本地跑大模型你会经常碰到)
向量与索引
- • .index / .ann / .hnsw:不同向量检索库的索引文件(按实现不同)
分词器与配置
- • tokenizer.json / vocab.json / merges.txt / sentencepiece.model
- • .yaml / .json:训练、推理、服务配置
- • 建议:模型能否复现,tokenizer 和 config 和权重一样重要
8) 可执行与安装包
9) 字体与电子书
- • .epub / .mobi / .azw3:电子书(epub 通用,mobi/azw3 偏 Kindle)
转发给正在使用ai的人
