一个一站式开源高质量数据提取工具,将PDF、网页和多格式电子书转换为机器可读的格式,如Markdown和JSON。
能够高效地提取文本、图像、表格及公式,并保持文档的原始结构和语义连贯性。
适合处理包含复杂元素的科学文献,解决了符号转换的问题。还具备OCR功能,能够处理损坏的PDF文件。
开源地址:https://github.com/opendatalab/MinerU
一个一站式开源高质量数据提取工具,将PDF、网页和多格式电子书转换为机器可读的格式,如Markdown和JSON。
能够高效地提取文本、图像、表格及公式,并保持文档的原始结构和语义连贯性。
适合处理包含复杂元素的科学文献,解决了符号转换的问题。还具备OCR功能,能够处理损坏的PDF文件。
开源地址:https://github.com/opendatalab/MinerU