olmOCR:比传统OCR精度更高、比GPT-4o省钱30倍
在数字时代,高质量文本数据的获取对于推动语言模型的发展至关重要。
现代人工智能系统依赖于万亿级别的标记数据集来提高其准确性和效率。尽管大量数据来源于互联网,但其中相当一部分以PDF等格式存在,给内容提取带来了独特的挑战。
PDF处理的主要问题在于,这些文档存储信息是为了视觉呈现而非逻辑阅读顺序。许多PDF在字符级别编码文本,记录每个字母的位置和字体属性,而没有保留句子结构。
这使得在多栏布局或包含嵌入式表格、图像和公式的文档中重建连贯的叙事变得困难。
此外,扫描的PDF引入了额外的挑战,因为它们包含的是图像格式的文本而非机器可读字符。从这类文档中提取结构化和有意义的内容需要专门的工具来理解文本和视觉元素。
为了解决从PDF中提取文本的问题,研究人员已经开发出多种方法。
另一方面,端到端模型如Nougat和GOT Theory 2.0试图使用深度学习将整个PDF页面转换为可读文本。然而,许多系统成本高昂、不可靠或效率低下,不适合大规模应用。
艾伦人工智能研究所的研究人员推出了️olmOCR,这是一个开源的Python工具包,旨在高效地将PDF文件转换为结构化纯文本,同时保留逻辑阅读顺序。
此工具包整合了文本信息和视觉信息,与传统的OCR方法相比,能够实现更高的提取精度。该系统基于一个70亿参数的视觉语言模型(VLM),该模型在从超过10万份独特文档中收集的260,000页PDF数据集上进行了微调。
与将PDF视为普通图像的传统OCR方法不同,olmOCR利用嵌入的文本及其空间位置来生成高保真的结构化内容。该系统针对大规模批量处理进行了优化,能够以成本效益的方式转换大量的文档库。其最显著的优势之一是,它只需190美元就能处理一百万页PDF,而同样的任务在GPT-4o上需要6,200美元,便宜了32倍。
olmOCR背后的核心创新是文档锚定技术,这是一种将文本元数据与基于图像的分析相结合的技术。与仅依赖于光栅化图像的端到端OCR模型不同,这种方法直接从PDF嵌入的数据中提取文本元素,并将它们与相应的视觉表示对齐。
此外,该系统采用微调技术来提高提取精度,利用专门为各种文档布局定制的数据集。模型训练过程涉及10,000次优化步骤,使用4个批次大小和1e-6的自适应学习率。olmOCR已被设计为可以无缝与推理框架如vLLM和SGLang一起运行。
该系统与其教师模型实现了0.875的对齐得分,超过了GPT-4o Mini等小型模型。在与其他OCR工具的直接比较中,olmOCR在准确性和效率上始终优于竞争对手。在人工评估中,该系统在领先的PDF提取方法中获得了最高的ELO评分。
此外,当使用olmOCR提取的文本对OLMo-2-1124-7B语言模型进行中期训练时,它在多个AI基准任务中平均提高了1.3个百分点的准确率。在ARC Challenge和DROP等数据集中观察到具体的性能提升,其中基于olmOCR的训练数据对语言模型理解能力的提升贡献显著。
️olmOCR研究的主要收获包括:
olmOCR基于一个70亿参数的视觉语言模型构建,并在10万个PDF文档的260,000页上进行微调,确保了跨不同文档类型的强大提取能力。
利用文档锚定技术将文本元数据与基于图像的信息相结合,显著提高了结构化内容的提取精度。
处理一百万页PDF仅需190美元,而使用GPT-4o则需要6,200美元,这使得它在大规模应用中成本效率提高了32倍。
实现了对齐分数0.875,超过了小型模型,并在重建逻辑阅读顺序方面展现了更高的准确性。
通过在AI基准数据集如ARC Challenge和DROP上提高1.3个百分点的准确性,改进语言模型训练。
与vLLM和SGLang等推理引擎兼容,允许在各种硬件配置上灵活部署。
仓库地址 https://github.com/allenai/olmocr