MinerU是一款开源的智能文档解析工具,专注于将PDF等文档高效转换为Markdown和JSON等结构化格式。它特别适用于处理包含文本、图片、表格和公式等多模态内容的复杂布局PDF文件,尤其适合多语言文档和批量处理需求。
功能特点
- 语义一致性:支持移除页眉、页脚、脚注、页码等内容,确保语义连贯。
- 人类可读性:输出文本按照人类阅读顺序排列,支持单列、多列及复杂布局。
- 结构保留:保留原始文档的结构,包括标题、段落、列表等。
- 多样化内容提取:支持提取图像、图像描述、表格、表格标题及脚注。
- 公式转换:自动识别并转换文档中的公式为LaTeX格式。
- 表格转换:自动识别并转换文档中的表格为HTML格式。
- OCR功能:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。
- 多种输出格式:支持多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。
- 可视化结果:支持布局可视化和跨度可视化,便于高效确认输出效果与质检。
- 多种运行环境:支持纯CPU环境运行,并支持GPU(CUDA)/NPU(CANN)/MPS加速。
- 跨平台兼容性:兼容Windows、Linux和Mac平台。
使用场景
- 学术文献:从复杂的学术文献中提取高质量数据,用于AI模型的训练和微调。
- 财务报告:从财务报告中提取关键数据,用于财务分析和预测。
- 法律文件:从法律文件中提取关键条款和条款,用于法律研究和合规性检查。
- 电子书籍:从电子书籍中提取文本和图像,用于内容管理和知识提取。
开发背景
MinerU由上海AI实验室开发,旨在解决AI研究者从大量文档中提取高质量数据的挑战。该工具在2024年7月4日的WAIC 2024科学前沿主论坛上开源,属于OpenDataLab团队的一部分。

MinerU - 大模型时代的文档提取,转换神器
数据统计
数据评估
关于MinerU特别声明
本站1001导航提供的MinerU都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由1001导航实际控制,在2025-04-13 21:17收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,1001导航不承担任何责任。
相关导航
暂无评论...