时间: 2021-08-01 00:18:04 人气: 31 评论: 0
随着泄密情况的愈演愈烈,保密检查显得尤为重要。而在传统保密检查中,并没有专门针对图片的涉密信息检索系统,这就留下了一个泄密隐患。因此,本文针对特定格式的图片文件,实现一个针对图片的涉密信息检索系统,以期满足保密检查在新时代的应用需求。该系统使用递归算法在用户选定的文件夹内检索指定格式的图片文件,而后调用Tesseract-OCR引擎识别图片内容,再用模式匹配算法将识别出的内容与用户输入的关键字进行匹配,找出其中含有关键字的图片文件,并允许用户通过双击结果栏打开原文件。
【关键词】递归算法 Tesseract-OCR 模式匹配
搜索目标文件夹及其以下各级文件夹中的JPG、PNG、BMP这三种格式的图片文件,在文件搜索结果栏显示出完整路径并排序。而后利用Tesseract-OCR引擎,对筛选出来的图片文件进行文字识别,结果将显示在识别结果栏中。最后,根据刚开始用户输入的关键字,对识别结果进行模式匹配,找出含有关键字的图片,在模式匹配结果栏显示关键字后的部分结果,并允许用户通过双击结果行打开原图片文件。允许用户随时中断任意模块进程。
目 录
前 言 1
1绪论 3
1.1国内外研究现状和发展动态 3
1.1.1OCR技术的发展历程 3
1.2论文主要工作及结构 3
2技术基础 5
2.1磁盘文件搜索技术 5
2.1.1WIN32_FIND_DATA 5
2.1.2递归算法 5
2.2OCR 6
2.2.1Tesseract-OCR发展经历 6
2.2.2Unicode字符编码 6
2.2.3汉字字体的特点 7
2.2.3OCR识别过程 7
2.3模式匹配算法 7
2.3.1模式匹配算法 7
2.3.2BF算法 8
2.3.3 KMP算法 8
2.3.4模式匹配算法的选用考量 10
2.4章节小结 10
3系统的设计与实现 11
3.1系统需求分析 11
3.2系统架构 11
3.3系统设计 12
3.4文件搜索模块 12
3.4.1文件搜索模块实现 12
3.5OCR识别模块 13
3.5.1Tesseract-OCR引擎的调用 13
3.5.2字符转码 14
3.6模式匹配模块 14
4综合测试及评价 17
4.1测试环境 17
4.2综合测试 17
4.2.1OCR模块对不同字号汉字的识别差异 17
4.2.2总系统测试 19
4.3系统评价 21
4.4本章小结 21
结 论 23
本文主要工作 23
存在的不足 23
未来展望 24
致 谢 25
参考文献 27
196
198
82