基于Hadoop的微博分布式存储系统的设计及构建


时间: 2021-07-03 22:35:02 人气: 8 评论: 0

摘要  近年来,伴随着大数据时代的到来,互联网所有领域几近乎都有涉足大数据。微博系统也包含其中。目前主流微博系统主要是基于MySQL数据库来实现数据存储。而其自身的并发性、扩展性和数据存储量上都有很大的局限性。

本文旨在 通过 构建和 设计基于Hadoop的 微博分布式 存储系统来解决这几个问题。首先Hadoop框架底层的HDFS分布式文件系统,具有很高的容错性和很高的传输速率,并且易于扩充。其次建立在HDFS之上的Hbase是基于列族的非传统性数据库,可以为用户提供更好的实时读写数据。最后通过对Hbase的设计来减少服务器的压力并实现负载均衡。


关键词:分布式; Hadoop; Hbase 

本论文包括八个部分。

第一部分:概述,主要讲毕业设计相关开发背景及技术现状,开发目的与意义进行介绍与分析。

第二部分:介绍本文中所用到的HDFS、Hbase和MapReduce等关键技术。

第三部分:开发平台和环境搭建。包括开发平台、所需软件、环境搭建和环境监测。

第四部分:Hbase数据库的设计与实现。 

第五部分:系统测试。对本毕业设计进行运行测试。包含文件上传测试、下载测试和删除测试。

第六部分:总结。对本次毕业设计的整个过程进行总结。

第七部分:致谢。

第八部分:参考文献。



目录

引言 1

1概 述 2

1.1背景及现状 2

1.2技术现状 3

1.3开发目的与意义 5

1.4论文组织结构 5

2关键技术 6

2.1 HDFS 分布式文件系统 6

2.2 HBase 分布式数据库 7

2.3 MapReduce 数据处理编程模型 10

2.4 Hadoop 与传统关系型数据库的比较 11

3开发平台和环境搭建 13

3.1开发环境形式 13

3.2所需软件和硬件 13

3.3集群环境搭建 13

3.4环境检测 18

4 Hbase数据库的设计与实现 19

4.1 Zookeeper的安装 19

4.2 Hbase的安装和配置 20

4.3 Hbase的设计 21

5 系统测试 23

5.1 HDFS测试 23

5.2下载测试 24

结论 26

致谢 27

参考文献 28


评论
188083800