清华紫光OCR(TH-OCR)是一款专业的图像汉字识别软件,它可以帮助你直接把图片信息“挖”出来,软件支持从TIF、BMP和PCX图片格式中读取文字内容,支持简/繁体中文、英文和手写中英文,虽然不敢保证全部能读取,但至少大部分能读取正确。
清华紫光OCR软件介绍
清华紫光OCR(TH-OCR)是一款拥有完全知识自主产权的图像汉字识别软件,本软件由清华大学1985年开始研发,对中日韩文与英文混排文档的识别水平超过国外同行效果。它的使用很简单,用鼠标框住你要“挖”出来的文字,点“识别(就是那个眼镜一样的图标)”,文字就这样简单的出来了,你可以直接复制或者是保存为文本文档,还是很方便的。
清华紫光OCR可以自动对扫描的版面进行分析,把应识别的文字区域划分出来,之后进行识别。对于被划分区域内的文字有很高的识别率,而且速度同样很快。
清华紫光OCR软件功能
1.识别率高、速度快:对于被划分区域内的文字有很高的识别率,而且速度同样很快
2.导出功能:可以将带有表格的文当导出成为RTF格式的文件,从而允许用户在Word等应用程序中继续进行编辑
3.版面自动分析:对图文混排的文件具有版面自动分析功能,它自动对扫描的版面进行分析,把应识别的文字区域划分出来,之后进行识别
4.转换图像格式:将扫描进来的图像格式转换成TIFF、BMP或PCZ等格式,具有很大的灵活性
5.批量识别:可以让用户一次把多页文稿全部扫描之后再进行识别,避免了扫描一页识别一页带来的麻烦,这一版本最多可实现10000页的批量识别
6.手写体识别:手写的信件或文件就可以扫描到计算机中,识别出来后用电子文档的方式进行保存
7.自学习:当遇到有生僻字时,可以通过键盘输入进行学习,用户就可以自由地添加一些本来不“认识”的字,大大拓宽了中文OCR系统的识别字符集。
清华紫光OCR软件特色
1.汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
2.汉字识别率最高。文通TH-OCR经过“863”智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
3.是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
4.支持多种环境接口。文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。
清华紫光OCR使用方法
1.文件->打开,选择要识别的文件,可以是tif、bmp、jpg格式的
2.命令->识别,会自动识别的
3.识别完成后,软件左边的树状栏里会有图像文件名,用鼠标点开哪个加号,就是识别后的文本文件
4.单击它,软件右边上方是识别后的文本,下方是被识别的图像文件
5.这时用键盘移动光标,就能查看图像和对应文本,并能直接改动文本
6.二值图像就是只有黑白两色的图像,用windows自带的画图软件就能做出来
7.先用画图打开图像,图像->属性,将颜色改成黑白,再存盘就得到二值图像了