Hadoop理念下海量工程数值处理技术分析

时间: 2013-12-28 编号：sb201312281150 作者：蜂朝网
类别：工程硕士论文行业：字数：38450 点击量：982
类型: 收费费用: 0元

本站提供专业的[留学生论文]定制业务，如需服务请，联系电话：13671516250.

文章摘要：
本文主要针对工程领域海量数据特点，进行基于Hadoop技术的数据处理技术研究。首先研究Hadoop框架中的分布式文件系统HDFS，根据其内部结构以及存储原理，分析其在工程领域数据处理应用中的前景以及应用方法，设计并提出了基于HDFS的工程领域数据存储系统。

1绪论

1.1课题研究背景及意义

1.1.1 课题研究背景

随着计算机信息技术突飞猛进以及工业信息化的深入开展，现有的制造工业信息化水平紧紧追随计算机信息水平，大量的带有工程特色的结构化及非结构化数据，在各项工程实施的过程中面临存储困难以及分析处理不及时的问题，无法满足越来越高的工程需要。工程师在工程实施的过程中，不断地接触着各式各样的数据，这些数据需要及时地采集、存储、处理，随着工程的规模越来越大和信息技术走进工程实施的过程中，大量的、不同类型的工程数据随之产生，如何釆集、保存、处理这些数据就成了急需解决的问题数据与分析的业务价值己经毋庸置疑，甚至可以说分析的重要性从来没有像现在这样突出，很多的企业开始设法从海量工程数据中找到二次和三次商业机会。中国制造业的大型企业随着ERP[《7]、PLM[8]等信息化系统的部署完成，管理方式由粗放式管理转为精细化管理，新产品研发速度和设计效率也有了大幅提升。文献[9]指出企业在实现对业务数据进行有效的管理的同时，累积了大量的数据信息，产生了利用现代信息技术手段，管理和展示分析结构化和非结构化的数据和信息诉求，于是如何利用这些数据创造更大的价值，为领导决策提供有力支撑成为企业下一步思考的问题。虽然企业的决策者已经意识到其蕴含的价值，但是对于大多数企业来说，真正实现其中的价值还有很长的路要走。所以，企业需要信息化技术帮助决策者在存储的海量信息中挖掘出需要的信息，并且对这些信息进行分析，从而获取重要的信息。云计算?作为计算机信息发展历史上的一个新的里程碑，革命性地对计算机信息技术业乃至其他领域都产生了巨大的影响。云计算是由分布式计算技术、并行计算技术和网格计算技术组成，可以说是它们的延续发展，也可以说是这些科学理念应用于产业实践的具体实现。总的来说，云计算技术是以服务模式改变计算资源利用形式的技术实现。云计算技术是将现有的各种资源，利用虚拟化技术等多种技术，建立的由大量计算机组成计算集群，构成可以称之为“云”的资源池，资源池拥有很强的资源管理和监督协调能力，能够根据不同用户的需求来实时动态分配资源池中的各种虚拟化的资源。用户不用去了解资源池的具体原理与结构，只需要按格式制定自己的需求就可以获得云计算带来的快捷服务，它的概念模型如图1-1所示。

Google的GFS文件系统与MapReduce分布式计算模型从一出现，就引起了相关领域专家与学者的广泛关注。MapReduce与云计算所设想的模式非常匹配，MapReduce的关键特点是它能够对开发人员隐藏操作并行语义——并行编程的具体工作方式。近年来，Google以绝对的优势在搜索引擎领域占据领先地位。因此Google的数据处理技术一直备受业内人士关注和推崇。Hadoop[i6]作为GFS与MapReduce的Java语言实现，MapReduce编程模型对程序员屏蔽了复杂的并行应用程序开发细节。程序员只需关心应用逻辑，同时Hadoop平台只需部署在普通的PC机上，这就大大节约了实施分布式系统投入的成本。现代信息化制造企业产生的数据往往是很庞大的，用传统的分布式来处理这些数据，不仅实施系统复杂度高，投入的成本也随着数据量的增加而大幅度增加。Hadoop平台在数据分布式处理方面的优秀表现就吸引了制造企业数据处理研究组的兴趣，尤其是近些年来Hadoop平台技术发展越来越成熟，在数据的安全性和稳定性方面都有了很大的突破，这就增加了各个研究机构与企业对其研究与应用。工程领域信息化的建设离不开先进的信息技术，以Hadoop为代表的云计算技术是工程领域信息化建设的研究重点，本文致力于进行基于Hadoop的海量工程数据处理技术研究。

2 Hadoop技术分析

2.1 Hadoop 概述

HDFS中的文件一般具有规模大、数量大的特点，针对大文件存储，文件存储的单位是数据块（Block)，HDFS按照一定的策略，将这些Block散布在数据节点上存放。客户端要访问一个文件，首先从NameNode获得组成文件的数据块的位置列表，即数据块存储的位置在哪些DataNode上；然后用户端可以与对应DataNode建立连接，进行数据访问，而NameNode不负贵数据的传输。NameNode通过监视文件操作事件日志来管理HDFS的元数据，釆用管理映像文件的方式来为文件系统的空间命名，主要负责数据块到各个文件的命名映射、文件的属性等。事件日志和映像文件是HDFS的重要组成部分，都保存在NameNode的节点系统中。NameNode启动时，它从磁盘中读取映像文件和事务日志。SecondaryNameNode主要是帮助NameNode处理以上事务，它会定期从NameNode上拷贝事件n志和映像文件到临时目录，合并后归档再重新发送给到NameNode，NameNode会定期更新映像文件，删除事件Fl志，使得事件円志的大小保持在某个特定的限度内。下面分析MapReduce的体系结构。MapReduce是一种并行编程模式，这种模式使得软件开发者可以轻松地编写出分布式并行程序。在Hadoop的体系结构中，MapReduce是一个简单易用的软件框架，基于它可以将任务分发到由上千台商用机器组成的集群上，并以一种高容错的方式并行处理大量的数据集，实现Hadoop的并行任务处理功能。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个从节点上的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务；这些任务分布在不同的从节点上。主节点监控它们的执行情况，并且重新执行之前失败的任务；从节点仅负责由主节点指派的任务。

3 基于HDFS的海量工程数据存储......... 17

3.1 海量工程数据特点......... 17

3.2 系统需求分析......... 18

3.3 系统设计......... 20

3.3.1 设计原则与体系结构......... 20

3.3.2系统主要模块与算法设计......... 24

3.4小结......... 36

4 基于MapReduce的海量工程数据......... 39

4.1 计算模型需求分析......... 39

4.2 计算模型设计 .........40

4.3 小结 .........45

5 海量工程数据处理测试......... 47

5.1 实验环境安装与部署......... 47

5.2 海量工程数据存储测试......... 48

5.3 海量工程数据计算测试......... 54

5.4 小结......... 60

结论

本文提出一种新的面向工程领域，基于云计算理念的海量数据存储与计算模型，对Hadoop项目产生的背景、平台架构和核心部分进行了较为详细的分析，然后在研究Hadoop的核心技术HDFS分布式文件系统与MapReduce分布式处理模型的基础上，进行了基于HDFS的的工程数据存储系统设计并提出了基于MapReduce的城市海量噪声数据处理模型，解决了云仿真平台数据库存储仿真文件负载超载的问题，以及城市噪声监控系统中海量噪声数据分布式处理的难题。本论文的主要工作主要包括以下几点：

(1)从课题的研究背景出发，分析了当前工程领域海量数据处理技术的发展，对基于云计算理念的Hadoop项目进行了重点分析。在总结了国内外相关研究工作的基础上，重点分析了 Hadoop项目中的HDFS分布式文件系统的体系结构和MapReduce分布式处理模式处理原理，并且对这两项Hadoop核心技术在工程领域中的应用进行讨论，分析了文件目录监控技术、多线程调度技术等；

(2)基于上述研究，进行了系统的设计，制定了系统的设计原则，设计并实现了基于HDFS的工程数据存储系统。从分析工程数据存储的基本功能需求出发，明确了系统的要求，根据所制定的设计原则、目标以及方法，将存储系统分解为各司其职的功能模块结构，进一步对分解后的功能子模块进行需求分析，提出关键支持技术和实现方案。基于功能模块的设计方法，使得系统具有易用性、可移植性、灵活性等优势；

(3)进行了系统中各个具体功能模块的实现，利用Java7新的NIO文件系统功能实现了文件监控，提出了基于HDFS文件操作系统的文件操作信息识别算法，实现了远程文件同步功能，很好地提高了文件系统的操作性能，随后进行了文件监控器与文件同步的功能测试与性能测试，测试结果表明该系统具有很好的实用性；

(4)最后通过研究MapReduce分布式编程模式，针对城市噪声监控系统的数据特点，提出了基于MapReduce的城市海量噪声数据处理模型，将处理的过程进行细化，分别是数据清洗、数据预处理、数据处理和数据可视化，并对实际采集到的数据进行处理测试，测试结果表明该模型可以很好地完成海量的噪声数据处理任务。

参考文献

[1]王珊，王会举，覃雄派，等.架构大数据：挑战、现状与展望[J].计算机学报，2011,34(10):1741-1752.

[2]宫学庆，金澈清，王晓玲，等.数据密集型科学与工程：需求和挑战[J].计算机学报,2012,35(8):1563-1578

[3]王元,宋卫国，玄兆辉，等.科学应用科技统计指标和数据为决策提供扎实的依据[J].中国科技成果,2012，13(3):17-18

[4]罗伟其，刘永清.略论我国信息化建设系统的性质、要素及相互作用方式[J].系统工程与电子技术’1999,21(7):17-19.

[5]李伟光，李勇，黄文波，等?制造信息化的分析与研究[J].制造业自动化，2005，27(1):38-41，61.

[6]林健玲玲.ERP的未来发展趋势研究[J].系统工程理论与实践，2002,22(4):69-74.

[7]曾建光，王立彦，徐海乐,等.ERP系统的实施与代理成本——基于中国ERP导入期的证据[J].南开管理评论，2012,15⑶:131-138.

[8]李黎明,王黎辉?基于SOA的PLM系统架构[J].中国制造业信息化，2010,(10):59-61.

[9]白云川.迎接大数据时代[J].中国制造业信息化，2011,(12):39-44.

[10] Bhaskar Prasad Rimal，Eunmi Choi.A service-oriented taxonomical spectrum, cloudy challengesand opportunities of cloud computing[J] .International journal of communicationsystems,2012,25(6):796-819.

如需定做,工程硕士论文请联系我们专家定制团队，QQ337068431，热线咨询电话：021-62170626

分享到：

标签：工程硕士论文海量工程数据处理 Hadoop 文件监控