python新华网新闻标题语料库系统设计

时间: 2021-08-10 01:25:53 人气: 70 评论: 0

当今社会网络发达，全世界的生活、工作甚至是衣食住行均与网络有关。这其中自然不乏关注新闻的民众，而现在正处于大数据时代，随着信息量的增多，为用户提供便捷的搜索服务也更加具有挑战性[1]。大规模存储信息并精确搜索的代价是巨大的，人们需要在信息搜索的快捷性与成本中找到平衡，网络新闻标题的抽取已经成为了信息抽取和网络爬虫不可避免的一个环节。因此设计并实现一个具有良好健壮性和扩展性的系统非常有必要。

二、课题意义

该课题可以很大程度上增加用户搜索相关新闻关键词的准确度，减少用户的搜索时间，提高效率。可以从大量的载体中快速准确地抽取出对用户有价值的少量信息，随着网络的发展, 人类的日常生活方式已经发生了巨大的变化，这些变化使得许多信息都通过互联网上的网页来传递和展示。而网页新闻的标题能较好地揭示网页主题信息，因此，对网页新闻的真实标题进行自动抽取是一项非常有意义和有挑战性的任务[2]。

四、研究目标

通过设计数据库以及网络爬虫抓取数据形成一个相对完整的标题语料库，实现基本的数据库功能，以及对新闻标题的归类总结，最大化的方便用户搜索新闻，了解新闻。

五、研究内容

新华网是中国最具影响力的网络媒体和具有全球影响力的中文网站，研究新华网新闻标题的网络抓取技术，研究标题语料库的数据库设计方法和用户接口设计实现方法，标题语料的字词处理方法，实现标题语料字词检索、增删改查、统计、图表展示等功能。该系统主要研究内容可分为三大类：数据抓取，数据处理以及数据展示。

(1)数据抓取，也叫数据收集模块，即新华网新闻标题的网络抓取技术，这是整个系统的基础所在，使用Python语言利用网络爬虫动态获取新闻网的标题，然后对得到的源新闻标题数据进行人工处理，构建新闻网标题语料库，insert语句插入搜索结果内容，create语句创建数据库表格等内容。

(2)数据处理：标题语料库的数据库设计方法和用户接口设计实现方法，标题语料的字词处理方法，和对数据库内容的增删改查；

数据库设计：以表格Table形式存储，存储至少包括所抽取的标题内容，标题关键字，抽取次数，文章浏览次数，原文链接等，查询结果创建接口显示视图View，数据增加主要通过爬虫获取，尽量避免人工获取，可以人为删除，修改无效标题内容，查询功能主要是在数据展示模块。

(3)数据展示：可以根据关键词搜索查询完整的标题，或者查询同一关键词在某时间段的出现次数，帮助用户更快的了解当前热点话题，也可以显示网址让用户自己去了解文章具体内容。后台使用select/from/ where条件语句查询信息，通过视图View显示给用户，展示形式包括表格，或者图表；

在展示模块，会在后台统计用户搜索的关键词，同步记录进相关关键词的搜索次数。

六、研究方法

通过知网、百度学术搜索、bing 学术搜索、图书馆等学术资源，查阅国内外与题目相关文献，综合分析国内外研究现状，利用通用网络爬虫算法爬取新闻网数据,并对这些数据进行预处理;构建语料库,实现对语料按日期范围查找的功能;针对新闻语料做关键词检索,用可视化的方法呈现话题分布趋势,结合Bing搜索引擎搜索关键词更多相关内容并通过Carrot2进行话题聚类分析，实现每日新闻监测,提取并展示当日新闻热点话题[12];利用NLPIR分词工具对每日新闻进行命名实体提取以及新词识别[13],结合TF-IDF算法[14,15]对提取效果做优化,将最终结果通过可视化图表展现，通过调试，试运行，验证设计的有效性[16]。

七、进度安排

查阅文献 2022.1.1~2022.1.15

撰写开题报告 2022.1.16~2022.2.1

需求分析，功能模块设计 2022.2.2~2022.2.15

数据库设计，系统设计 2022.2.16~2022.2.28

编写代码实现系统 2022.3.1~2022.3.20

撰写毕业论文 2022.3.21~2022.4.10

优化设计，修改论文，准备答辩 2022.4.10~2022.5.20

分享链接