MarkItDown 是一个轻量级的 Python 实用程序,用于将各种文件转换为 Markdown,以便用于 LLM 和相关的文本分析流程。在这方面,它与textract最为相似,但更侧重于将重要的文档结构和内容(包括标题、列表、表格、链接等)保留为 Markdown 格式。虽然输出结果通常相当美观且人性化,但它旨在供文本分析工具使用——对于需要高保真文档转换以供人类使用的情况,可能并非最佳选择。

目前MarkItDown支持:

  • PDF
  • 微软幻灯片软件
  • 单词
  • Excel
  • 图像(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML
  • 基于文本的格式(CSV、JSON、XML)
  • ZIP 文件(迭代内容)
  • YouTube 网址
  • 电子出版物

相关导航

没有相关内容!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注