Umi-OCR v2.1.5 全新发布:开源免费、功能强大的离线批量文字识别工具,支持图片/PDF/截图/二维码/公式识别!

在数字化办公和信息处理日益普及的今天,OCR(光学字符识别)工具已成为我们日常工作不可或缺的一部分。而作为一款备受关注的开源项目,Umi-OCR 以其 完全免费、本地运行、无需联网、功能全面 的特点,在全球范围内积累了大量忠实用户。
Umi-OCR v2.1.5 全新发布:开源免费、功能强大的离线批量文字识别工具,支持图片/PDF/截图/二维码/公式识别!
今天,我们迎来了一个意义非凡的版本更新 —— Umi-OCR v2.1.5!正值项目三周年之际,开发团队带来了多项实用功能与细节优化,进一步提升了用户体验与功能性。


📦 软件简介

Umi-OCR 是一款基于 Python 和 PaddlePaddle 开发的 离线 OCR 图像识别工具,支持 Windows / Linux / macOS 多平台使用。它不仅能够识别常规图片中的文字内容,还支持 PDF 文档识别、截图识别、二维码解析、数学公式提取等高级功能。

✅ 主要特性

功能类型 支持内容
输入格式 图片(JPG/PNG/BMP)、PDF 文档、屏幕截图
输出能力 可导出文本、结构化 JSON 数据、生成单层可复制文本的 PDF
语言支持 中文、英文、日语、韩语、法语、西班牙语等多国语言
识别类型 普通文字识别、二维码识别、数学公式识别
批量处理 支持文件夹内批量识别,效率更高
运行方式 支持图形界面操作、命令行调用、HTTP 接口调用

🔧 v2.1.5 版本更新亮点

📝 新增功能

  • 实时日志机制:启动时可在命令行查看 OCR 引擎运行日志,默认保存 ERROR 级别以上日志至 Umi-OCR/UmiOCR-data/logs 目录,方便开发者调试。
  • 标签页布局切换:大部分设置标签页支持手动切换左右/上下双栏模式,提升阅读体验。
  • 快捷键优化:按下 Esc 键可快速隐藏主窗口,便于临时切换其他任务。
  • 二维码即时预览:调整二维码参数后自动刷新生成结果,所见即所得。
  • 配置重载指令:新增命令行参数 --reload,可用于重新加载配置文件,提升自动化流程灵活性。

🛠 功能修复

  • 修复了文档识别中 PDF 页面旋转导致文本提取错位的问题。
  • 修复了生成单层 PDF 时未保留原 PDF 文本内容的问题。
  • 修复了 OCR 结果列表展示及鼠标交互的一些 Bug。
  • 修复了标签页顺序变更后未及时保存的问题。
  • 修正了 HTTP 接口 /api/doc/download 参数 ignore_blank 的逻辑错误。
  • 针对 Linux 平台优化了截图功能:
    • 解决了因任务栏遮挡导致截图偏移问题;
    • 截图后主窗口位置恢复不一致的问题也已修复。

⚡ 性能优化

  • 优化了图片和文档的异步加载机制,现在即使打开包含数万个子文件的文件夹也能流畅运行,并且支持进度条预览加载状态。

📦 第三方依赖库升级(Windows 版)

  • PyMuPDF 1.24.11
  • fontTools 4.56.0
  • Pillow 10.4.0
  • psutil 10.4.0
  • pynput 1.8.0
  • zxing-cpp 2.3.0

🌍 新增语言支持

  • 俄语 (Русский):由 Вячеслав Анатольевич Малышев 和 Muhammadyusuf Kurbonov 翻译。
  • 泰米尔语:为更多地区用户提供便利。

💡 为什么选择 Umi-OCR?

  • 开源免费:所有代码公开,无任何广告插件,完全免费使用。
  • 离线运行:无需网络连接即可完成识别,保障数据隐私安全。
  • 功能全面:支持图像识别、PDF识别、截图OCR、二维码识别、公式识别等多种场景。
  • 高度灵活:既可通过图形界面操作,也可通过命令行或 HTTP 接口集成到你的程序中。
  • 持续更新:项目活跃维护,社区反馈响应迅速,功能不断迭代。

📥 如何获取 Umi-OCR v2.1.5?

你可以前往 Umi-OCR 的官方 GitHub 仓库下载最新版本:

🔗 https://github.com/hiroi-sora/Umi-OCR

提示:建议从官方渠道下载以确保安全性和完整性。


🎉 总结

Umi-OCR v2.1.5 不仅是三周年的纪念版本,更是功能与性能的一次全面提升。无论你是学生、教师、研究人员、程序员,还是日常需要处理大量文档的办公人员,这款工具都能为你带来极大的便利和效率提升。

立即下载体验,开启你的智能 OCR 之旅吧!

评论

昵称
邮箱
主页