时间: 2021-07-03 22:35:02 人气: 8 评论: 0
摘要 近年来,伴随着大数据时代的到来,互联网所有领域几近乎都有涉足大数据。微博系统也包含其中。目前主流微博系统主要是基于MySQL数据库来实现数据存储。而其自身的并发性、扩展性和数据存储量上都有很大的局限性。
本文旨在 通过 构建和 设计基于Hadoop的 微博分布式 存储系统来解决这几个问题。首先Hadoop框架底层的HDFS分布式文件系统,具有很高的容错性和很高的传输速率,并且易于扩充。其次建立在HDFS之上的Hbase是基于列族的非传统性数据库,可以为用户提供更好的实时读写数据。最后通过对Hbase的设计来减少服务器的压力并实现负载均衡。
关键词:分布式; Hadoop; Hbase
本论文包括八个部分。
第一部分:概述,主要讲毕业设计相关开发背景及技术现状,开发目的与意义进行介绍与分析。
第二部分:介绍本文中所用到的HDFS、Hbase和MapReduce等关键技术。
第三部分:开发平台和环境搭建。包括开发平台、所需软件、环境搭建和环境监测。
第四部分:Hbase数据库的设计与实现。
第五部分:系统测试。对本毕业设计进行运行测试。包含文件上传测试、下载测试和删除测试。
第六部分:总结。对本次毕业设计的整个过程进行总结。
第七部分:致谢。
第八部分:参考文献。
目录
引言 1
1概 述 2
1.1背景及现状 2
1.2技术现状 3
1.3开发目的与意义 5
1.4论文组织结构 5
2关键技术 6
2.1 HDFS 分布式文件系统 6
2.2 HBase 分布式数据库 7
2.3 MapReduce 数据处理编程模型 10
2.4 Hadoop 与传统关系型数据库的比较 11
3开发平台和环境搭建 13
3.1开发环境形式 13
3.2所需软件和硬件 13
3.3集群环境搭建 13
3.4环境检测 18
4 Hbase数据库的设计与实现 19
4.1 Zookeeper的安装 19
4.2 Hbase的安装和配置 20
4.3 Hbase的设计 21
5 系统测试 23
5.1 HDFS测试 23
5.2下载测试 24
结论 26
致谢 27
参考文献 28
196
199
82