MarkItDown 是一个轻量级的 Python 实用程序,用于将各种文件转换为 Markdown,以便用于 LLM 和相关的文本分析流程。在这方面,它与textract最为相似,但更侧重于将重要的文档结构和内容(包括标题、列表、表格、链接等)保留为 Markdown 格式。虽然输出结果通常相当美观且人性化,但它旨在供文本分析工具使用——对于需要高保真文档转换以供人类使用的情况,可能并非最佳选择。
目前MarkItDown支持:
- 微软幻灯片软件
- 单词
- Excel
- 图像(EXIF 元数据和 OCR)
- 音频(EXIF 元数据和语音转录)
- HTML
- 基于文本的格式(CSV、JSON、XML)
- ZIP 文件(迭代内容)
- YouTube 网址
- 电子出版物
相关导航
没有相关内容!