基于Python的网络爬虫的设计与实现

时间: 2021-07-03 22:40:04 人气: 36 评论: 0

摘要网络爬虫是一种按照一定的规则自动搜集互联网信息的程序或者脚本，通过网络爬虫不仅能够为搜索引擎搜集网络信息，还可作为定向信息采集器定向采集某些网站下的特定信息。

本课题是基于Python设计的面向主题的网络爬虫程序，目的是设计出能爬取某一站点中用户感兴趣的内容且进行存储的爬虫，并阐述了为何使用面向主题的爬行策略以及网络爬虫的原理。

关键词: Python;网络爬虫;面向主题

第一章：概述。介绍并分析了本文研究内容的背景和开发系统的意义，以及所要做的工作，通过分析现阶段网络爬虫的状况以及面临的主要困难，来提出一些有建设性的解决手段。

第二章：网络爬虫概述。介绍了Python爬虫开发环境的搭建，分析面向主题的网络爬虫相对于通用性网络爬虫的优势所在，并介绍现阶段面向主题的网络爬虫模型。

第三章：网络爬虫关键模块的研究与设计。介绍了本网络爬虫的系统设计，阐述了页面请求、文档解析、格式转换以及cookies支持等系统关键模块的研究与设计方法，以及BeautifulSoup4、requests、html2text等相关引用库的介绍。

第四章：系统功能介绍。从功能方面介绍本系统的获取问题信息模块、获取答案信息模块、获取用户信息模块、获取收藏夹信息模块等进行详细的分析。

第五章：系统配置与实现。对本系统的基本配置以及实验效果进行详细的介绍，并以截图的方式体现出系统的最终效果。

第六章，最后，总结了本文的主要研究内容和研究成果，分析了存在的问题，并对今后的发展方向进行了展望。

最后是参考文献和致谢。

众所周知，现阶段我们正处于一个“大数据“时代，从互联网上大量的数据中找到自己想要的信息变得越来困难，搜索引擎的商业化给市场带来了百度和谷歌这样的商业公司。网络爬虫便是搜索引擎的重要组成部分。

网络爬虫大致可分为通用网络爬虫、增量式网络爬虫、主题网络爬虫、基于Agent的网络爬虫、迁移的网络爬虫、基于元搜索的网络爬虫等。目前市场的流行的搜索引擎，比如百度、谷歌等，由于主要是面向全体大众，所以一般都是采用通用网络爬虫，通用网络爬虫会对整个互联网的页面进行采集，并且不会对页面进行分类、分类，最后会反馈回来大量的信息，在准确度上有很大的牺牲。本文中我们主要讨论的是主题式网络爬虫的研究，主题网络爬虫只搜寻与特定的主题相关的或者比较有联系的页面，所以主题网络爬虫采集信息的时候是有选择性的，传统网络爬虫没有对用户的检索需求进行分析考虑，只是对关键词进行机械式的匹配，而不同的领域和语义中同一个关键词也会有很多歧义性的存在，即使有大量匹配程度的算法支持，按语义识别仍是一个难题；因此，针对不同领域内的特定用户的检索需求，主题式的网络爬虫就成为了行之有效的方法。主题式网络爬虫只会选择与主题相关的特定页面，跟主题无关的页面会被大量舍弃，这样就导致爬虫不必去采集大量无关的页面，极大地节省了网络资源和硬件需求，而且由于页面数量比较少会使的刷新速度有极大的提高，页面的利用率也会有显著的提高，极大的满足了不同的人群在不同领域内的搜素需求。

分享链接