清华TH-OCR是一款功能强大、简单好用的文字识别软件,该软件是由清华紫光研发推出OCR文字识别软件,该软件支持图文识别功能,可以对图片进行扫描提取图片文字,通过这款OCR图文识别软件用户可以轻轻松松将笔记、图片、书籍等文本内容进行提取并导入到本地进行文本保存;清华TH-OCR支持自动识别器内容功能,用户只需将图片或者文本添加到软件上即可进行内容扫描提取,该软件可以将纸质的内容提取并输出为可以编辑的电子文档,是一款非常方便哈用的OCR图文识别软件,该软件拥有非常快速高效且精准度非常高的识别功能,可以帮助用户快速完成图文识别,非常方便实用。
图文识别
对于被划分区域内的文字有很高的识别率,而且速度同样很快。
导出功能
可以将带有表格的文当导出成为RTF格式的文件,从而允许用户在Word等应用程序中继续进行编辑。
版面分析
对图文混排的文件具有版面自动分析功能,它自动对扫描的版面进行分析,把应识别的文字区域划分出来,之后进行识别。
转换图像
将扫描进来的图像格式转换成TIFF、BMP或PCZ等格式,具有很大的灵活性。
批量识别
可以让用户一次把多页文稿全部扫描之后再进行识别,避免了扫描一页识别一页带来的麻烦,这一版本最多可实现10000页的批量识别。
手写体识别
手写的信件或文件就可以扫描到计算机中,识别出来后用电子文档的方式进行保存。
自学习
当遇到有生僻字时,可以通过键盘输入进行学习,用户就可以自由地添加一些本来不“认识”的字,大大拓宽了中文OCR系统的识别字符集。
软件特色1、清华TH-OCR功能强大、简单易用,可以轻松将笔记、书信、书籍、文章等扫描到电脑中
2、支持自动识别内容,将纸质内容输出为可以编辑的电子文档
3、支持快速完成识别,拥有非常高识别准确率
4、支持汉字和英文混排、日文和英文混排、韩文和英文混排同时识别
5、是目前唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优
6、支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码
7、适合全球各个地区使用
8、TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集
软件安装1 系统的运行环境
a) 奔腾II以上微机;
b) 64MB以上内存;
c) 100MB以上硬盘;
d) 支持TWAIN标准的扫描仪;
e) 中文Windows 95以上版本或使用带有中文之星、四通利方等汉字环境的西文Windows95以上版本(包括Windows95、Windows98、Windows2000、Windows Me、 Windowes XP 、Windows NT4.0)。
2 系统软件的安装
装入OCR光盘后,系统自动启动安装程序。按系统提示输入所需内容,然后按 NEXT键,开始安装。或者运行SETUP.EXE进行安装。
3 系统硬件的安装
在正式使用TH-OCR V9.0系统前,必须将随同软件发送的加密锁(对软件的一种硬件加密方式,只有安装了加密锁,系统才能对所扫描的图像进行识别处理)安装在计算机上。安装前应关闭电源,加密锁可直接接在主机外打印机接口上。
根据加密锁的接口方式不同可分为并口与USB接口两种。并口加密锁安装前应关闭电源,并口加密锁不占用硬件端口资源,后可再接打印机设备。(注:有些打印机可能不能与之兼容,视具体情况而定)。USB接口加密锁,没有不兼容现象发生,支持热插拔,但会占用一个硬件端口。
官方教程操作流程
一 TH-OCR V9.0系统 操作流程分为五步。
二 系统主界面的构成:
图像编辑界面
文本编辑界面
1 系统设置
使用系统前应根据应用环境及需求设定系统参数。打开【命令】中的【设置】项,可对系统、识别、后编改、语音校稿及其它参数进行设定。设定结果系统会自动记录并保持,不必每次操作都重新设置。
2 获取所要识别文件的图像
对于磁盘上原有保存好的图像文件,可以直接用【打开】命令或工具条上的打开;如果要获取新的图像文件,则应选择【扫描】命令或工具条上的扫描按钮,对所要识别的文件进行扫描。
注意:
◆ 扫描仪的操作应遵照随同扫描仪发送的操作手册的指导。
◆ 对普通书本的印刷质量,字号在5号以上的印刷材料,可适当选择其扫描分辨率为300,扫描亮度为0。
◆ 对已有的图像文件,要注意其图像存储格式是否符合TH-OCR V9.0系统的要求(TIFF格式、BMP格式JPG格式或PCX格式)。
3 进行图像版面处理
对扫描所得图像文件根据需要进行处理(旋转、反转、剪裁、倾斜校正、版面分析……等等),为识别做好必要的准备。注意选择要进行文字识别的区域,如果不选择,则认为是对整篇图像进行识别。在对整篇图像进行识别时,识别区域中不能包含有插图。
4 进行识别及修改
选择识别命令完成文字的识别。完成识别后,点击工程管理窗口中相应的TXT文本文件进入编辑修改即校对状态。
5 识别结果输出
识别结果经修改编辑后,可根据需要通过【导出】命令输出到其它应用程序中或直接存盘。
设置 [S]
打开【命令[C]】菜单,选择【设置[S]】后,屏幕上显示【设置】对话框。如图所示,它包括了对系统、识别、扫描、后编改、语音校稿及其它等六项设置的选择。
上图还表示了选择【系统】设置时的情况。【系统】设置包括【英文提示[E]】、【自动进行版面分析[A]】、【自动进行识别[R]】、【显示全局窗口[G]】、【显示跟踪窗口[T]】等项。注意:当选择【英文提示[E]】时,系统全部菜单均用英文表示;当选择【自动进行版面分析[A]】、【自动进行识别[R]】时,只要装入图像,系统就自动完成整个识别过程。建议对于复杂版面不选用此项。
【扫描】设置中包括【文件名】、【扫描图象格式】、【图象压缩格式】。用户可以根据实际工作情况自行选择。
【识别】设置中包括【输出全角字符[F]】、【汉字后加空格[N]】、【输出文本式框线[O]】、【后处理[P]】。用户可以根据自己的需要自行选择。
【后编改】设置中包括【浮动跟踪窗】与文本的位置关系、前景色、背景色及可疑字颜色,建议全部选用。
【语音校稿】设置中包括【阅读回车字符】、【阅读标点符号】、【阅读单个数字】及阅读的速度、音量、性别选项。用户可以根据自己的需要自行选择。
【其它】设置中包括【版面分析[A]】中的【杂志[M]】与【报纸[N]】选项,用户可以根据自己的需要自行选择。