针对PDF和Office文档的涉密信息搜索系统研究与实现


时间: 2021-08-01 00:10:41 人气: 7 评论: 0

近年来,随着硬盘技术持续更新,成本的持续下降,个人电脑中的硬盘存储容量变得越来越大。同时,伴随互联网的普及,人们需要处理越来越多的信息,便会在个人电脑中存储更多的文件。特别是在政府以及相关涉密部门,主机中的敏感文件存在着极大的安全隐患。因此,本文设计了针对PDF和Office文档的涉密信息搜索系统,对PDF文件、Office系列文档进行涉密关键词检索,针对可能携带秘密机密信息的文件进行检测,及时发现失密泄密漏洞,维护国家和政府相关部门的安全。通过为期十六周的学习和研究,我已实现了针对PDF和Office文档的涉密信息搜索系统,且本系统能够高效地对PDF和Office word、Excel、PPT进行关键词搜索,做到高效地完成检测任务。

【关键词】格式解析 内容提取 模式匹配算法 

本文主要将对针对PDF和Office文档的涉密信息搜索系统的各个方面、各个层面进行研究。大致结构如下:

第一章为“绪论”,介绍了关于该课题的国内外研究现状、本文的主要工作和论文组织结构。

第二章为“技术基础”,介绍了NTFS文件系统,分析了PDF文档、Office系列文本信息提取技术、模式匹配算法。

第三章为“系统总体设计”,详细介绍了本系统的需求分析、总体架构、设计思路。

第四章为“系统功能实现”,详细介绍了本系统实现文件遍历的方法思路、完成文本信息内容提取以及搜索字符串的具体实现过程。

第五章为“系统测试”,对本系统进行了全面的测试,包括系统的功能和性能测试等内容。

 

    目   录

前   言 1

1 绪论 2

1.1国内外研究现状和发展动态 2

1.1.1 Office的发展历程 2

1.1.2 PDF的发展历程 2

1.1.3信息检索技术的发展历程 3

1.2论文的主要工作及结构 4

2 技术基础 5

2.1 NTFS文件系统简介 5

2.1.1 NTFS的概念 5

2.1.2 NTFS的特点 5

2.1.3 NTFS的目录结构及文件 6

2.2文档格式解析技术 7

2.2.1 Office Open XML格式介绍 7

2.2.2 Word文档部件结构 9

2.2.3 PPT文档部件结构 10

2.2.4 Excel文档部件结构 11

2.2.5 PDF文档格式解析 12

2.3模式匹配算法 16

2.3.1 概念 16

2.3.2 BM算法原理 17

3 系统设计与功能实现 20

3.1总体需求分析与设计 20

3.2系统架构 20

3.3文件遍历模块 21

3.4文档内容提取模块 21

3.4.1 Word文档内容提取 21

3.4.2 PPT文档内容提取 23

3.4.3 Excel文档内容提取 24

3.4.4 PDF文档内容提取 25

3.5搜索字符串模块 27

3.5.1查询字符串只有一个字符的情况 27

3.5.2 BM算法的设计 28

3.5.3获取用于显示的涉密信息上下文 30

4 系统测试 31

4.1测试环境 31

4.2对各类文档的搜索测试 31

4.3区分大小写测试 33

结   论 36

致  谢 37

参考文献 38


评论
188083800