(1) 采用B/S模式进行开发,其优点是前台与大数据处理层次分明,而且符合众多已经习惯网页方式的用户。
(2)采用面向对象的开发与设计理念。运用面向对象爬虫和大数据的前提是对整体系统的高度和准确抽象,通过它可以保证系统良好的框架,进而带来产品较强的稳定性和运行效率。
(3) 采用模块化设计。模块化设计要求将整个系统划分成基于小的模块,有利于大数据代码的重载,简化设计和实现过程。
(4) 简单方便的系统界面。设计简单友好的系统界面,方便用户较快的适应系统的操作。
(5)速度优先原则。由于此工具最重要的评测标准就是速度,因此在设计过程中,具体过程尽量做到资源占用少,速度快。
( 6)在数据库的选择方面选择高效的MySQL数据库,这样可以长期稳定地存储和使用数据。而且最大的好处就在于当服务器端更换设备的时候,完全可以不用担心大数据代码因为MySQL数据库可以完美的并入拓展到其他的数据库。
(7)在程序开发的过程中选用B/S的开发结构,这样可以以模块化的开发方式进行发开,租车网站的数据分析系统的信息按应用功能的类别进行分离:租车网站的数据分析系统的信息逻辑和服务器相隔离,前台显示界面与租车网站的数据分析系统信息逻辑相隔离而且任何的变化都不会对其造成太大影响。
(8)在程序开发语言和开发平台的选择上,我选用 Pycharm 作为我的开发平台,采用python作为我开发本系统的编写语言,因为python语言高效稳定可编程度高,有利于系统环境的搭建。
本课题使用Python语言进行开发。基于web,代码层面的操作主要在PyCharm中进行,将系统所使用到的表以及数据存储到MySQL数据库中
技术栈
后端:python
前端:vue.js+elementui
框架:django/flask
Python版本:python3.7+
数据库:mysql5.7
数据库工具:Navicat
开发软件:PyCharm .
随着社会的不断发展,互联网数据时代的到来,数据的背后是什么,数据有什么用,怎么用庞大的数据来呈现出数据的价值,让我们一起去揭开它神秘的面纱。
本次以租车网站的数据分析系统爬取为例,介绍网络爬虫的基本原理,Python环境的搭建,PyCharm scrapy模块的爬虫数据的运用,把获取到的数据进行清洗、整合,储存数据到MySQL,然后进行数据可视化的呈现,简单对呈现的图进行数据分析。
关 键 词:Python;MySQL;PyCharm;爬虫;数据分析;数据呈现。
Abstract
目录
摘要 I
Abstrac II
1 绪论 1
1.1 背景及意义 2
1.1.1 背景 3
1.1.2 目标及意义 3
1.2 应用现状 4
1.3 主要板块 4
1.4 主要方法及技术路线 5
1.4.1 主要方法 5
1.4.2 技术路线 6
1.4.3实现途径 7
2开发环境及技术 8
2.1 软件硬件设备 8
2.1.1 其他 9
2.2 开发环境与工具 10
2.2.1 Python简介 10
2.2.2 爬虫简介 11
2.2.3 Django框架简介 12
2.2.4 MySqL数据库 13
2.2.5 hadoop简介 14
2.2.6 hive简介 14
2.2.7 数据可视化介绍 14
3 可行性分析与模块设计 15
3.1 可行性分析 15
3.1.1 技术可行性分析 16
3.1.2 数据可获得性分析 17
3.2 各功能模块设计 18
3.2.1 数据获取方法 19
3.2.2 数据预处理设计 20
5 系统设计 22
4.1系统功能结构图 21
4.2系统数据库设计 21
4.2.1数据库E-R图 21
4.3数据库表结构 21
5 系统实现与结论 22
5.1 前台功能的实现 25
5.2 管理员功能的实现 25
5.3 租车用户功能的实现 25
5.4数据可视化分析看板展示 25
5.5 结论 26
6总结 29
致 谢 30
参考文献 31