OpenDataLab 引领AI大模型时代的开放数据平台
中国
AI大全办公AI

OpenDataLab 引领AI大模型时代的开放数据平台

OpenDataLab 引领AI大模型时代的开放数据平台

标签:

一个一站式开源高质量数据提取工具,将PDF、网页和多格式电子书转换为机器可读的格式,如Markdown和JSON。

能够高效地提取文本、图像、表格及公式,并保持文档的原始结构和语义连贯性。

适合处理包含复杂元素的科学文献,解决了符号转换的问题。还具备OCR功能,能够处理损坏的PDF文件。

开源地址:https://github.com/opendatalab/MinerU

数据统计

相关导航