MarkItDown 微软开源 Python 工具真好用
MarkItDown 是一款轻量级的 Python 工具,用于将各种文件转换为 Markdown 格式,以便与大语言模型和相关文本分析流程配合使用,重点在于将重要的文档结构和内容(包括:标题、列表、表格、链接等)保留为 Markdown 格式。虽然输出结果通常比较美观,便于阅读。
MarkItDown 目前支持从以下格式进行转换:
PDF文件
PowerPoint演示文稿
Word文档
Excel表格
图片文件(可提取EXIF元数据和进行OCR文字识别)
音频文件(可提取EXIF元数据和进行语音转录)
HTML网页文件
基于文本的格式(如CSV、JSON、XML等)
ZIP压缩包(会遍历包内所有文件)
YouTube视频链接
EPub电子书
我为啥用Markdown?
Markdown格式目前非常接近纯文本,使用的标记或格式极少,但仍能表示重要的文档结构。主流的LLM,如 OpenAI 的 GPT-4o,本身就能理解Markdown,并且常常会在回答中自发地使用Markdown格式。
比传统转换工具更轻量、更高效,且 token 利用率高。
支持 OCR 文字识别、语音转录、YouTube 链接解析
还是可以的;