python_Scrapy框架的易车网站数据采集系统

时间: 2021-08-10 01:23:12 人气: 55 评论: 0

近些年来，突飞猛进的互联网技术将我们带入了大数据时代，各行各业都受到了不小的影响，不断渗透到我们日常的工作、生活和学校当中，影响着社会的不断前进和发展。

许多普通家庭都拥有了属于自己的汽车，中国现在已成为全球最大的汽车生产国及全球最大的汽车消费国之一。在网络信息时代，汽车网站有很多，易车网想在其中脱颖而出，是不容易的，相比其他汽车网站，易车网界面简洁明了，绝大多数用户可以清楚看到车辆信息，但如何从海量的信息中筛选出符合自己需要的好车是一个难题。

本文使用Scrapy框架设计网络爬虫提取易车网的价格、级别、燃料、厂商和配置等数据，详细介绍数据采集系统的设计与实现，该方法可以为数据分析项目提供数据采集及分析支持。数据查看部分主要包括对数据的信息查看、类别分类查看和直方图查看等。为了提高数据分析的质量，采用数据预处理方式对数据做分词、去除停用词等，并把分析的结果可视化展示出来，使用户可以直观且清晰的查看数据。

主要研究内容

1.js数据采集：Scrapy实现爬取易车网的相关数据，提取结构性数据，我们只需要实现少量的代码，就能快速的抓取。使用了Twisted 异步网络框架，可以加快我们的下载速度，使用Pandas进行数据的清洗。

2.js数据展示：Django是用Python语言写的开源web开发框架(open source web framework)，获取数据库中的易车网数据用Pandas进行不少于五个方面的分析最后进行展示进行展示给用户观看。ECharts，底层依赖轻量级的矢量图形库 ZRender，提供直观，交互丰富，可高度个性化定制的数据可视化图表。用于提升数据可读性，将易车网数据可视化后图表形式在Django中展示，可以让用户更加明显的观察到数据背后的规律等。

3.js测试计划：

使用reuqests测试url是否可以进行爬取的url测试，使用对整个系统进行功能测试确保系统功能的完整性的黑盒测试，利用黑盒的错误推测法，把可能出现的错误或者特殊情况罗列出来测试功能是否完备。

研究方法

1.js主要研究方法

(1)数据获取:

通过对互联网上杂乱的数据进行提取和分类完成数据采集的任务。

(2)数据处理和分析:

采集得到的数据中会有‘空’数据等无效数据，需对采集得到的数据进行数据处理去除这些无效数据。对处理后的数据进行价格涨幅预估、燃油效率等分析。

2.js通用研究方法

调查法：通过同类系统研究、百度、知乎、论坛教学等多种研究方法，搜集Scrapy数据采集和数据分析、设计技术及相同类型系统源码。对基于Scrapy框架的自定义爬虫获取页面内容，并通过Xpth正则表达式匹配所需要的手机进行数据采集和数据分析展示，通过对抓取的数据进行周密的、系统的规划，并对调查收集到的大量资料进行分析、比较、归纳，从而得出有价值的结论。

文献研究法：通过阅览大量文献，对相关文献进行分析获取有用的信息，从而全面的了解车辆的现状情况等。

分享链接