关于数据仓库论文范文资料与基于Hadoop的油气信息分布式数据仓库的探究有关论文参考文献-论文写作网

《基于Hadoop的油气信息分布式数据仓库的探究》：该文是关于数据仓库论文范文，为你的论文写作提供相关论文资料参考。

摘要：油气田企业数据来源广泛,油气钻井作业分布在广阔的地区,因此数据量大而且种类相当复杂,进入数据爆炸时代,各种异构数据爆炸性增长,其中不仅包含很多内部信息,还包括很多有价值的外部信息,传统的关系型数据仓库只擅长处理结构数据,而且扩展能力差,导致新的异构数据难以被利用,这些已经不能满足新时期用户对数据管理的要求.基于Hadoop的油气信息分布式数据仓库运用HDFS存储各类同构或异构数据,通过Hive和HBase对海量异构数据进行管理,并且可以通过Sqoop工具与关系型数据库进行数据交换,最重要的是能够运行在廉价的机群上,不仅降低了成本,还具有更好的扩展性,而且实现对各类数据的充分利用,提高钻井决策的准确性.

关键词：油气信息；Hadoop；分布式数据仓库；Hive

中图分类号：TP2 文献标识码：A 文章编号：1009-3044（2017）28-0015-03

1 概述

油气钻井作业覆盖地域辽阔、分布广泛、导致钻井数据信息数据量大、种类繁多,因此构建合理有效的钻井数据仓库系统,高效协助钻井决策是油气企业领导层关心的主要问题.近年来油气钻井企业已经建设成一定规模的分布式数据仓库系统,而且大多都采用全局-局部的体系结构,数据仓库之间通过加密的网络进行连接,这些数据仓库都是依赖于高性能一体机充当节点,当数据量增加时,只能通过添加节点的方式扩容,成本高昂而且容易遇到单点故障和I/O效率问题,进入大数据时代,油气钻井信息呈现海量增长,传统数据仓库系统已经不能高效地存利用这些海量数据,各个油气企业迫切地需要一种新型的存储和管理这些异构数据的技术.

Hadoop是一个开源的分布式云计算平台,其核心是分布式文件系统（Hadoop Distributed File System } HDFS）和MapReduce,他的优点是可以运行在廉价的低性能硬件集群上,而且与传统数据仓库相比具有更强的运算性能,Hadoop的無限扩展能力突破了单节点存储的瓶颈,理论上具有无限的存储空间.Hive是建立在Hadoop上的数据仓库基础框架,它把海量数据存储在Hadoop的文件系统HDFS中,并且采用类似SQL的方式HQL查询,然后将HQL查询转换为Map/reduce程序,在廉价的硬件上轻松实现大规模数据查询任务.

现在用Hadoop来处理大数据已经不是新鲜的事情,不少企业已经运用Hadoop进行决策辅助,本文结合油气钻井行业,对基于Hadoop的油气信息数据仓库进行研究,旨在提高数据的ETL效率和异构数据处理能力,具有一定的经济意义.

2 传统数据仓库的缺点

传统数据仓库的工作原理如图1所示,首先从最原始的钻井信息中选取所需的主题数据,然后通过ETL过程将数据加载到数据仓库或者数据集市中去,数据集市可以直接通过OLAP服务器为用户提供服务,也可以将数据提供给数据仓库,数据仓库在通过OLAP服务器服务用户,用户也可以通过前端工具进行查询,制作报表或者数据挖掘.

油气钻井公司因为地域分布广泛,单节点的数据仓库或者数据集市不能满足需要,因此建立了分数据仓库系统,即各个地域分别建立自己的数据仓库,然后通过加密网络与总公司的数据仓库相连接,如图2所示,各个数据仓库都有自己的局部运作系统,总部不仅可以提取各个分公司的数据仓库,也可以分析总部的信息数据还有外部数据,所有的数据仓库模型是按照一定的规范定义好的.

分布式数据仓库很好地解决了钻井信息分布广泛的问题,减少了地区公司和总公司之间的频繁通信,地区公司对局部数据仓库拥有着一定的自治权,各种细节级数据分公司自己保留,向总公司提供的数据则都是轻度或者高度综合级数据,因为地区公司在处理自己的业务数据时效率更高,这样整个企业的数据处理效率都能保持在一个较高的水平.

然而随着技术不断发展,钻井信息的数量呈爆炸性增长,传统数据仓库的不足日益明显.

1）硬件成本高

传统数据仓库的建设通常依赖高性能硬件充当节点,各个节点相互连接.高性能一体机目前被广大企业采用,它不仅可以充当服务器、还可以存储数据,不过缺点也明显,比如数据仓库节点,因为要处理全局数据,数据吞吐率量非常大,遇到性能瓶颈时只能通过购买新硬件扩容,使得其成本非常高.

2）可扩展性低

传统数据仓库的扩展主要依靠增加硬件节点,计算能力全部依赖于服务器的硬件配置,遇到性能瓶颈时只能增加支出购买硬件,而这些硬件的都比较高.

3）数据利用率低

传统数据仓库只擅长处理人工输入的结构化数据,对于新时期大量出现的图片、日志、视频文件等异构数据难以利用,造成数据的利用率低.

3 基于Hadoop的油气信息数据仓库

3.1 Hadoop数据仓库

Hadoop是Apache软件基金会的开源项目,是一个基于ja的分布式秘籍数据处理和数据分析的软件框架.Hadoop中的Map/Reduce算法能够将一个任务分割成成百上千个子任务,然后将子任务分别发送到廉价的计算机集群中,每台计算机只负责运算自己的子任务,再将运算结果反馈回去,MapReduce迅速整合这些反馈,形成答案.这种方式能够很好地解决海量钻井数据运算的问题.Hadoop的HDFS文件系统可以以块序列的方式存储各种异构数据,而且可以运行在廉价的机器上,海量钻井数据存储问题也能得到解决.

Hadoop平台提供了一种高效可靠的数据传输工具Sqoop ,能够使得Hadoop和数据库之间进行数据交换和传输.而这些结构化数据可以存储在Hadoop的数据仓库Hive中,不同于传统数据仓库将数据存储在关系数据库中,Hive是直接依托Hadoop的分布式文件系统HDFS作为最基本的数据存储单元,Hive可以将开源的结构化的数据文件映射为一张数据库表,并提供了丰富的SQL查询方式来分析存储在HDFS中的数据；HQL经过编译转为MapReduce作业后通过自己的SQL 去查询分析需要的内容；这样一来,即使不熟悉MapReduce 的用户也可以很方便地利用SQL 语言查询、汇总、分析数据,而且速度更快.而MapReduce开发人员可以把己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析.图3介绍了一种传统数据仓库与Hadoop相互协作的方法,如图：

数据仓库论文参考资料：

结论：基于Hadoop的油气信息分布式数据仓库的探究为适合不知如何写数据仓库方面的相关专业大学硕士和本科毕业论文以及关于数据仓库论文开题报告范文和相关职称论文写作参考文献资料下载。