用户行为分析大数据国内外研究现状

大数据国内外研究现状这些数据不仅数据量巨大，种类繁多，而且实时性强，商业价值非常大但隐藏很深，同时对这些数据的存储和挖掘也是一个巨大的挑战。针对这些挑战，人们研究各种分布式存储和分布式计算的方法解决大数据的存储、搜索、分析、共享以及可视化问题，2005年谷歌发布了第一篇关于大数据存储的文章，接下来又发布了关于Nosql的分布式数据库和MapReduce并行计算框架，这三篇文章加速了hadoop的诞生。《The Google File System》[5]、《MapReduce_Simplified Data Processing on Large Clusters》[6]、《Bigtable_A Distributed Storage System for Structured Data》[7]。2006年Hadoop基于三大论文的基础上，正式发布了第一个版本，今年正好是hadoop发布十周年，如今hadoop的性能已经越来越强大，可以很好的处理百PB级的数据，百度每天使用hadoop集群处理200T的数据，现在hadoop正越来越走进生产，互联网、金融、医疗、政府、交通、旅游等行业都开始运用hadoop进行开发自己的大数据平台。来挖掘行业内大数据的价值[8]。52407

Hadoop相对于传统服务器存储和传统型数据库分析有很多优点[9-11]。第一，从成本的角度上考虑，hadoop是apache旗下的顶级开源项目，面向用户完全免费，而且，hadoop对于硬件的要求并不高，只要能够运行linux系统的设备都可以安装hadoop框架，对于公司的使用成本大大降低。第二，hadoop使用非常灵活，不仅能够处理结构化数据，对于非结构化数据支持也非常好，并且能够很容易的处理GB、TB、PB以上的数据，以前只能使用单机处理相同数据需要花费几小时或者几天，现在使用hadoop只需要几小时或者几十分钟即可完成，而且开发者可以根据自己的需求编写MapReduce程序，并且设置启用更多的map节点和reduce节点，以达到更快速处理数据的要求，通过调用多台或几十台机器的cpu和内存进行计算，理论上说，通过增加节点数量，可以处理任意大的数据。并行计算，并且使用方便，成本低廉，这也就是hadoop的最大优点。

根据各种业务的需求，越来越多的分布式框架基于hadoop开发，Hadoop已经形成了一个完整的生态圈，不仅仅解决了大文件分布式存储、分布式计算，还解决了结构化数据存储、非结构数据存储、数据分析、数据挖掘、实时计算等问题。图1.1表达了完整的hadoop生态圈。从图1.1中很清晰的理解到，hadoop生态圈首先是有两个最基本的成员，HDFS和MapReduce，这两个属于hadoop的地基，hadoop其他组件功能也都是基于这两个组件功能的基础上开发出来。第三个重要的组件是HBase，Hbase是类似数据库，架构于HDFS上，决定了它可以无限扩展，列式数据库决定了它伸缩性强，可以随意伸缩列的内容，存放不同的数据。另外还有Hive,Sqoop,Flume,Mahout,Hue等组件，本文第二章将详细介绍各个组件的功能和应用。

hadoop生态圈核心框架简介

Hadoop生态圈主要功能和特点

HDFS Hadoop云计算的分布式存储系统，具有高可靠性，高并发，可扩展等特点MapReduce Hadoop云计算的分布式计算框架，具有分布式，高并发，可定制化等特点HBase Hbase是一个列式数据库，存放于HDFS上，可以随意扩展列的内容，任意存放Hive Hive可以通过类是SQL的语句进行分析，论文网每一个语句都能够转换为分布式计算任务Pig 运行于HDFS上的数据流语言，适合做数据分析和数据挖掘Zookeeper Zookeeper主要用于主节点的调节，还有HBase中的元数据信息存储等功能Sqoop 用户行为分析大数据国内外研究现状:http://www.youerw.com/yanjiu/lunwen_56283.html