以后类似于ocr这种功能性的软件，会不会成为给ai打工的工具？

296 16

[1 楼] lhy02 [泡菜] 1-5 09:01 比如现在的生成式ai，应该本身没有ocr能力，但做为一个入口，似乎已经替代纯ocr软件。那么以后会不会没有ocr软件了，都是通过ai调用ocr？
[17 楼] lhy02 [泡菜] 1-6 21:19 今天想了一下，题目应该改成：给聊天工具打工。
[16 楼] lhy02 [泡菜] 1-6 15:42 闲聊状态发表于 2026-01-06 15:37 那是另外一个问题以下这俩我在用，但是没有用他家提供的，就我用的那俩来说这俩还可以，我是比较信任它们的不能说是另外一个问题吧，生成式ai的特点就是生成，或者叫无中生有，而识别这块，是不能无中生有的。
[15 楼] lhy02 [泡菜] 1-6 15:37 臭手发表于 2026-01-06 15:33 表格识别对于传统OCR来说也是个难题，在换wps之前用过多种OCR，对于表格识别都是非常一般，有些OCR干脆直接免责明告诉你说不能识别表格。那些没有免责的也基本是把表格线都识别成乱七八糟的字符数字，好在表格内的文字基本能识别个大差不差的而且基本能集... 识别表格不行在我意料中，问题是kimi无中生有多生成了一列
[14 楼] 闲聊状态 [泡菜] 1-6 15:37 lhy02 发表于 2026-01-06 15:15 我用kimi（1.5视觉理解）识别表格里的数，我给的提示词有表格字样，它识别结果不少错误，这倒没啥。我和它持续对话后，它忽然凭空多出来一列，我看了一下这列的数，就是无中生有。所以我对现在的生成式ai的识别持不信任态度。那是另外一个问题以下这俩我在用，但是没有用他家提供的，就我用的那俩来说这俩还可以，我是比较信任它们的闲聊状态编辑于 2026-01-06 15:38
[13 楼] 臭手 [老坛泡菜] 1-6 15:33 lhy02 发表于 2026-01-06 15:15 我用kimi（1.5视觉理解）识别表格里的数，我给的提示词有表格字样，它识别结果不少错误，这倒没啥。我和它持续对话后，它忽然凭空多出来一列，我看了一下这列的数，就是无中生有。所以我对现在的生成式ai的识别持不信任态度。表格识别对于传统OCR来说也是个难题，在换wps之前用过多种OCR，对于表格识别都是非常一般，有些OCR干脆直接免责明告诉你说不能识别表格。那些没有免责的也基本是把表格线都识别成乱七八糟的字符数字，好在表格内的文字基本能识别个大差不差的而且基本能集中在一起，所以都是凑合能用。后来换成wps会员之后就没再用过第三方的ocr，wps对于表格的识别也不错，文本识别更是基本不会错几个字。再后来各家软件app都开始插手这个领域，手机拍照、输入法、浏览器之类的也都加了这功能，传统的单一OCR软件基本是没活路了。
[12 楼] lhy02 [泡菜] 1-6 15:15 闲聊状态发表于 2026-01-06 07:41 AI当然要给提示词，你必须让它知道你要他干什么 OCR是隐含了你要他干什么，自然不用单独给提示词就我个人的使用体验来说，AI的识别要比OCR好，全方面的好，除了资源占用大，没别的缺点我用kimi（1.5视觉理解）识别表格里的数，我给的提示词有表格字样，它识别结果不少错误，这倒没啥。我和它持续对话后，它忽然凭空多出来一列，我看了一下这列的数，就是无中生有。所以我对现在的生成式ai的识别持不信任态度。
[11 楼] huhuzz [泡菜] 1-6 10:50 臭手发表于 2026-01-06 08:34 其实AI这个概念本事就没有什么固定的、精准的含义，所以前面说它是个筐什么都能往里装。目前对于人工智能到底是什么、要干什么、能干什么、想要它干什么貌似都是在摸着石头过河，你出个概念他出个解释谁都能出来聊几句，什么东西算ai、什么不算ai，分界线在哪儿... 其实楼主说得很清楚了，是生成式AI 发布自 iOS客户端
[10 楼] 臭手 [老坛泡菜] 1-6 08:34 lhy02 发表于 2026-01-05 19:49 ocr宏观上讲应该也是ai范围，但不一定是大模型范围。我其实想说的是给生成式ai打工。其实AI这个概念本事就没有什么固定的、精准的含义，所以前面说它是个筐什么都能往里装。目前对于人工智能到底是什么、要干什么、能干什么、想要它干什么貌似都是在摸着石头过河，你出个概念他出个解释谁都能出来聊几句，什么东西算ai、什么不算ai，分界线在哪儿貌似也没什么明确的区分。好像都是脚踩西瓜皮滑到哪儿算哪儿，或者说先打※※再去画靶子，都没谱儿。所以您要说ocr是ai范围的大概齐是没错的，除了那些if A then B，else C这种一清二白的控制软件，但凡有点功能的您都能算成ai范围，包括PS、LR这种软件您要算它是ai貌似也没人能反驳吧。要说OCR是给AI打工的貌似也没错，个人理解“现在”这水平的AI可能就是三个环节：一是获取信息（语言、图像、文字）、二是分析需求、三是计算分析并按照需求输出结果。其中获取的信息可用于训练、资料积累、或者是对输出的要求和请求。OCR对于AI来说只是第一环节获取信息中的一小部分功能，大约能归到图像识别中的那一支里，所以对于整个AI来说，要说OCR只是个打工的貌似也没错，它就是个接收信息输入的收发室大爷。
[9 楼] 闲聊状态 [泡菜] 1-6 07:41 lhy02 发表于 2026-01-05 23:09 生成式ai，我总怀疑会不按图片识别，而是看了几个像素之后就开始瞎猜，玩概率了。或者根据提示词不同，识别结果也不同——这就有点扯了。当然，对生成式ai视觉模型完全不了解，纯粹凭以前经验瞎想。 AI当然要给提示词，你必须让它知道你要他干什么 OCR是隐含了你要他干什么，自然不用单独给提示词就我个人的使用体验来说，AI的识别要比OCR好，全方面的好，除了资源占用大，没别的缺点
[8 楼] bird3000 [陈年泡菜] 1-6 06:48 AI比传统的OCR聪明，各种模糊，彩色，甚至是验证码的文字都能识别。那些图文混排的更是AI的长项。
[7 楼] lhy02 [泡菜] 1-5 23:09 闲聊状态发表于 2026-01-05 20:53 OCR的话现在的视觉模型干的其实都不错，比如qwen3-vl glm-4.3 Gemma 3等等个人感觉他们的OCR能力都要强过普通的OCR软件但是他们本地运行时占用也比OCR大太多太多了 8b 级别的好几个G的模型文件与加载到内存，与普通OC... 生成式ai，我总怀疑会不按图片识别，而是看了几个像素之后就开始瞎猜，玩概率了。或者根据提示词不同，识别结果也不同——这就有点扯了。当然，对生成式ai视觉模型完全不了解，纯粹凭以前经验瞎想。 lhy02 编辑于 2026-01-05 23:13
[6 楼] 闲聊状态 [泡菜] 1-5 20:53 OCR的话现在的视觉模型干的其实都不错，比如qwen3-vl glm-4.3 Gemma 3等等个人感觉他们的OCR能力都要强过普通的OCR软件但是他们本地运行时占用也比OCR大太多太多了 8b 级别的好几个G的模型文件与加载到内存，与普通OCR那点体积和资源占用来说实在大的不可想象以后纯粹的文本模型可能会退居“专业领域”，个人电脑上搞的那些啥本地AI助手很有可能都会用这类多模态的大模型毕竟他们不光认字，还能认图。。这样更接近普通人理解中的“智能”的样子
[5 楼] lhy02 [泡菜] 1-5 19:49 臭手发表于 2026-01-05 10:43 理论上应该是吧，现在的AI就是个筐，啥都能往里装。个人感觉但凡是跟电脑有关的东西差不多它都能涵盖进去并且包办了，现在还没对OCR下手只是还没顾得上罢了。 OCR大概是AI还没充分发展起来那个阶段，对于文字识别专门搞出来的一个专项AI，OCR本质上就是... ocr宏观上讲应该也是ai范围，但不一定是大模型范围。我其实想说的是给生成式ai打工。
[4 楼] lhy02 [泡菜] 1-5 19:46 huhuzz 发表于 2026-01-05 11:10 有视觉模型，也有视觉+语言的多摸态模型，应该不需要调用ocr，甚至可能ocr会调用视觉模型。生成式ai的视觉模型如果目的是从图片生成其它内容，不一定会精确识别吧。
[3 楼] huhuzz [泡菜] 1-5 11:10 有视觉模型，也有视觉+语言的多摸态模型，应该不需要调用ocr，甚至可能ocr会调用视觉模型。发布自 iOS客户端
[2 楼] 臭手 [老坛泡菜] 1-5 10:43 理论上应该是吧，现在的AI就是个筐，啥都能往里装。个人感觉但凡是跟电脑有关的东西差不多它都能涵盖进去并且包办了，现在还没对OCR下手只是还没顾得上罢了。 OCR大概是AI还没充分发展起来那个阶段，对于文字识别专门搞出来的一个专项AI，OCR本质上就是对扫描件的明暗区域加以界定、提取（文字和白纸的区别），然后将提出出来的暗部形状与现有的字库形状做比对，符合率达到一定比例时就“认为”是这个字。其中的文字提取应该是比较简单的过程，无非是标记然后提出矢量数值。大量的和错误率高的工作应该是提取的矢量形状与现有字库的比对部分，这大约也是AI的强项，AI这玩意比原来的电脑程序强的地方也在这里，通俗点说就是AI更会含含糊糊的和稀泥，过去的电脑程序A就是A、B就是B，参数不对AB都不像的就报错死机。AI的强项却是它能象人一样的在AB之间和稀泥打马虎眼，如果这次打马虎眼没蒙过去被你指出了，它还会自己记住并举一反三的整改，下回不再犯错。所以从OCR的原理上说这好像更是AI的强项，属于正好搔到AI的痒处了。现在各家AI好像也都包含了OCR的功能，估计专业OCR公司的寿命已经开始倒计时了。