Umi-OCR v2.1.5 全新发布:开源免费、功能强大的离线批量文字识别工具,支持图片/PDF/截图/二维码/公式识别!
在数字化办公和信息处理日益普及的今天,OCR(光学字符识别)工具已成为我们日常工作不可或缺的一部分。而作为一款备受关注的开源项目,Umi-OCR 以其 完全免费、本地运行、无需联网、功能全面 的特点,在全球范围内积累了大量忠实用户。
今天,我们迎来了一个意义非凡的版本更新 —— Umi-OCR v2.1.5!正值项目三周年之际,开发团队带来了多项实用功能与细节优化,进一步提升了用户体验与功能性。
📦 软件简介
Umi-OCR 是一款基于 Python 和 PaddlePaddle 开发的 离线 OCR 图像识别工具,支持 Windows / Linux / macOS 多平台使用。它不仅能够识别常规图片中的文字内容,还支持 PDF 文档识别、截图识别、二维码解析、数学公式提取等高级功能。
✅ 主要特性
功能类型 | 支持内容 |
---|---|
输入格式 | 图片(JPG/PNG/BMP)、PDF 文档、屏幕截图 |
输出能力 | 可导出文本、结构化 JSON 数据、生成单层可复制文本的 PDF |
语言支持 | 中文、英文、日语、韩语、法语、西班牙语等多国语言 |
识别类型 | 普通文字识别、二维码识别、数学公式识别 |
批量处理 | 支持文件夹内批量识别,效率更高 |
运行方式 | 支持图形界面操作、命令行调用、HTTP 接口调用 |
🔧 v2.1.5 版本更新亮点
📝 新增功能
- 实时日志机制:启动时可在命令行查看 OCR 引擎运行日志,默认保存 ERROR 级别以上日志至
Umi-OCR/UmiOCR-data/logs
目录,方便开发者调试。 - 标签页布局切换:大部分设置标签页支持手动切换左右/上下双栏模式,提升阅读体验。
- 快捷键优化:按下
Esc
键可快速隐藏主窗口,便于临时切换其他任务。 - 二维码即时预览:调整二维码参数后自动刷新生成结果,所见即所得。
- 配置重载指令:新增命令行参数
--reload
,可用于重新加载配置文件,提升自动化流程灵活性。
🛠 功能修复
- 修复了文档识别中 PDF 页面旋转导致文本提取错位的问题。
- 修复了生成单层 PDF 时未保留原 PDF 文本内容的问题。
- 修复了 OCR 结果列表展示及鼠标交互的一些 Bug。
- 修复了标签页顺序变更后未及时保存的问题。
- 修正了 HTTP 接口
/api/doc/download
参数ignore_blank
的逻辑错误。 - 针对 Linux 平台优化了截图功能:
- 解决了因任务栏遮挡导致截图偏移问题;
- 截图后主窗口位置恢复不一致的问题也已修复。
⚡ 性能优化
- 优化了图片和文档的异步加载机制,现在即使打开包含数万个子文件的文件夹也能流畅运行,并且支持进度条预览加载状态。
📦 第三方依赖库升级(Windows 版)
- PyMuPDF 1.24.11
- fontTools 4.56.0
- Pillow 10.4.0
- psutil 10.4.0
- pynput 1.8.0
- zxing-cpp 2.3.0
🌍 新增语言支持
- 俄语 (Русский):由 Вячеслав Анатольевич Малышев 和 Muhammadyusuf Kurbonov 翻译。
- 泰米尔语:为更多地区用户提供便利。
💡 为什么选择 Umi-OCR?
- 开源免费:所有代码公开,无任何广告插件,完全免费使用。
- 离线运行:无需网络连接即可完成识别,保障数据隐私安全。
- 功能全面:支持图像识别、PDF识别、截图OCR、二维码识别、公式识别等多种场景。
- 高度灵活:既可通过图形界面操作,也可通过命令行或 HTTP 接口集成到你的程序中。
- 持续更新:项目活跃维护,社区反馈响应迅速,功能不断迭代。
📥 如何获取 Umi-OCR v2.1.5?
你可以前往 Umi-OCR 的官方 GitHub 仓库下载最新版本:
🔗 https://github.com/hiroi-sora/Umi-OCR
提示:建议从官方渠道下载以确保安全性和完整性。
🎉 总结
Umi-OCR v2.1.5 不仅是三周年的纪念版本,更是功能与性能的一次全面提升。无论你是学生、教师、研究人员、程序员,还是日常需要处理大量文档的办公人员,这款工具都能为你带来极大的便利和效率提升。
立即下载体验,开启你的智能 OCR 之旅吧!
评论