时间: 2021-08-01 00:07:28 人气: 8 评论: 0
在信息技术及计算机网络高速发展的今天,涉密信息丢失案件的发生屡见不鲜,信息安全的重要性与日俱增。压缩文件作为网络传输和本地存储的重要文件形式,也常常被用来存储一些涉密信息。传统的保密检查工具主要是针对现有文本进行涉密信息检索,针对压缩文件内的涉密信息检索是一个新的突破。本文主要是针对常用压缩格式文本的解析还原以及搜索系统的模式匹配算法两个方面进行研究,对比研究系统搜索引擎的模式匹配算法并采用效率较高的BM模式匹配算法,设计并实现了基于Zip、7-Zip、RAR格式的涉密信息搜索系统。最后经过测试验证,系统能够很好地搜索出常用格式压缩文件中含有的涉密信息,并且支持加密压缩文件密码破解、磁盘遍历搜索等功能,能安全有效的保护计算机数据安全。
【关键词】数据压缩 文本解析 信息检索 BM模式匹配算法
总体需求分析与设计
针对压缩文件的涉密信息搜索系统是用于对计算机终端存储的压缩文件内涉密敏感信息的搜索检查,属于保密检查工具的一种。利用本系统可以直接搜索出经过压缩的文本文件里的文本信息,免去了人工的低效率检查,能为用户和信息管理人员提供一种更为安全和方便的信息搜索途径。通过对系统功能需求的分析,我们拟将整个系统的设计大致分为两个主要模块:压缩文本提取还原模块和信息检索模块。
由于在日常工作生活中所使用到的压缩文本格式主要是ZIP、7-ZIP、RAR三种格式,因此压缩文本提取模块需要支持这常见的三种压缩格式的内容解析还原。其次,为了保护信息的安全性,在存储压缩文件时我们有时会给文件添加密码进行加密,尤其是含有涉密信息的压缩文件。因此还需实现对加密的压缩文件进行破解,实现涉密关键信息的准确搜索。
同时在进行信息检索时,我们不仅要针对单一的压缩文件内容进行搜索,还有可能遇到一个文件夹下含有多个压缩文件的情况,因此系统还需实现选择文件夹对其进行压缩文件的搜索。在进行涉密检查工作时,我们往往需要针对更大信息量的搜索,希望可以直接搜索出整个电脑终端内含涉密关键字的压缩文件,所以我们还设计了选择磁盘进行压缩文件搜索的功能。对于含有涉密信息的压缩文件,我们在搜索到之后需要对其进行方便直观的查看,因此系统还要实现对搜索到的压缩文件进行解压输出并标记涉密关键信息的功能。
目 录
前 言 1
1 绪论 2
1.1研究背景及意义 2
1.2 国内外研究现状 3
1.2.1数据压缩发展及现状 3
1.2.2信息检索发展及现状 3
1.3本文章节安排 4
2 技术基础 5
2.1数据压缩技术 5
2.1.1基于概率统计模型的压缩算法 5
2.1.2基于字典模型的压缩算法 6
2.2终端文本信息检索技术 7
2.2.1文本内容提取技术 8
2.2.2模式匹配算法 8
3 常用压缩文件格式分析 12
3.1 ZIP压缩文件格式分析 12
3.1.1压缩源文件数据区 12
3.1.2压缩源文件目录区 13
3.1.3压缩源文件目录结束标志 13
3.2 RAR压缩文件格式分析 14
3.2.1标记块 14
3.2.2压缩文件头 15
3.2.3文件头 16
3.2.3结尾块 17
3.3 7-ZIP压缩文件格式分析 17
3.3.1前文件头 18
3.3.2压缩数据区 19
3.3.3尾文件头 19
4 系统功能模块设计与实现 20
4.1总体需求分析与设计 20
4.2压缩文本提取还原模块实现 21
4.2.1ZIP格式实现 21
4.2.2RAR格式实现 24
4.2.37-ZIP格式实现 26
4.2.3破解加密压缩文件实现 26
4.3 信息检索模块实现 27
4.3.1BM算法实现 27
4.3.2其他功能实现 28
5 系统测试 30
5.1选择单个文件搜索功能 30
5.2选择路径搜索功能 32
5.3对加密压缩文件搜索功能 34
结 论 36
致 谢 38
参考文献 39
197
199
82