词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
| 来源 | 内置(默认安装) |
| 路径 | skills/productivity/ocr-and-documents |
| 版本 | 2.3.0 |
| 作者 | Hermes Agent |
| 许可证 | MIT |
| 平台 | linux, macos, windows |
| 标签 | PDF, Documents, Research, Arxiv, Text-Extraction, OCR |
| 相关 skill | powerpoint |
python-docx(解析实际文档结构,远优于 OCR)。powerpoint skill(使用 python-pptx,完整支持幻灯片/备注)。web_extract:web_extract(urls=["https://arxiv.org/pdf/2402.03300"])
web_extract(urls=["https://example.com/report.pdf"])web_extract 失败,或需要批量处理。| 功能 | pymupdf(约 25MB) | marker-pdf(约 3-5GB) |
|---|---|---|
| 基于文本的 PDF | ✅ | ✅ |
| 扫描 PDF(OCR) | ❌ | ✅(支持 90+ 种语言) |
| 表格 | ✅(基础) | ✅(高精度) |
| 公式 / LaTeX | ❌ | ✅ |
| 代码块 | ❌ | ✅ |
| 表单 | ❌ | ✅ |
| 页眉/页脚去除 | ❌ | ✅ |
| 阅读顺序检测 | ❌ | ✅ |
| 图片提取 | ✅(嵌入图片) | ✅(含上下文) |
| 图片 → 文本(OCR) | ❌ | ✅ |
| EPUB | ✅ | ✅ |
| Markdown 输出 | ✅(通过 pymupdf4llm) | ✅(原生,质量更高) |
| 安装体积 | 约 25MB | 约 3-5GB(PyTorch + 模型) |
| 速度 | 即时 | 约 1-14 秒/页(CPU),约 0.2 秒/页(GPU) |
"此文档需要 OCR/高级提取(marker-pdf),这需要约 5GB 用于 PyTorch 和模型。您的系统剩余 [X]GB 可用空间。可选方案:释放磁盘空间、提供 URL 以使用 web_extract,或我可以尝试 pymupdf——它适用于基于文本的 PDF,但不支持扫描文档或公式。"
# 仅摘要(快速)
web_extract(urls=["https://arxiv.org/abs/2402.03300"])
# 完整论文
web_extract(urls=["https://arxiv.org/pdf/2402.03300"])
# 搜索
web_search(query="arxiv GRPO reinforcement learning 2026")execute_code 或内联 Python:web_extract 始终是 URL 的首选方案--help 查看完整用法~/.cache/huggingface/pip install python-docx(优于 OCR——解析实际文档结构)powerpoint skill(使用 python-pptx)