AI-OCR识别

AI-OCR识别 公开 已发布

如何安装动作?

适用于
分类(旧)
OCR AI
关键词
AI; OCR;

YOUQY 用户690377509746788 设计4号线 就是看看 oooocoooo 7 人赞了这个动作

3 个动作单 收藏了此动作。

更多信息
分享时间 2025-01-13 13:40
最后更新 2025-03-19 15:37
修订版本 8
用户许可 可自己使用或修改,不可再分享
Quicker版本 1.43.63
动作大小 69 KB

分享到

「使用大模型的多模态能力进行OCR识别」

简介

🚀 推荐配置

视频演示效果使用的是 gemini-2.0-flash
有条件的可以尝试阿里最新的 qwen-vl-max
(复杂文本识别请务必使用能力强的多模态模型)

🔥 相比其他 OCR 的核心优势

多语种通吃: 无需特殊配置,精准识别主流语言。
公式识别强: 数学公式还原度极高。
All in One: 一次性配置,开箱即用。

1. 硅基流动 (SiliconFlow)

默认Demo

支持自定义更换模型,注册即送免费额度。

2. 智谱清言

包含免费的 glm-4v-flash 模型。

3. 通义千问 (Aliyun)

多模态大模型质量相当不错。

4. Mistral OCR

⚠️ 微小图片识别较弱

效果媲美谷歌和阿里,支持 Markdown 格式输出。支持 Cloudflare AI Gateway 代理。

5. Google Gemini 配置

需自行解决网络问题。

步骤1:获取 API Key
步骤2:参考 Quicker 文档填写
作者所声明的动作特征:
  • 依赖第三在线服务

最近更新

修订版本 更新时间 更新说明
8 2025-03-19 15:37 - 更新支持了Mistral OCR
- 硅基流动的默认模型更改为Qwen/Qwen2.5-VL-72B-Instruct
- 通义千问的默认模型改为qwen-vl-ocr-latest
7 2025-03-07 20:18 增加了通义千问
6 2025-02-08 22:20 更新了图片的上传方式,以适应更多平台,比如gemini

最近讨论

功能建议 · 121
savior 22天13小时前 车站里的守望者 22天13小时前
功能建议 · 302
零度_ 2025-06-15 21:26 零度_ 2025-06-16 10:36
使用问题 · 339
用户6903775097... 2025-06-10 23:49 用户6903775097... 2025-06-13 10:51
功能建议 · 412
零崎玖识 2025-04-29 20:32 零崎玖识 2025-04-30 11:23