学科分类
/ 4
71 个结果
  • 简介:Hadoop是ApacheLucene创始人DougCutting开发的使用广泛的文本搜索库。它起源于ApacheNutch,后者是一个开源的网络搜索引擎,本身也是Lucene项目的一部分。ApacheHadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。

  • 标签: Apache MAPREDUCE LUCENE HOSTING 日志 网络搜索引擎
  • 简介:Hadoop系统是一种开源的包括丰富软件库的分布式系统基础框架,其作为一种并行处理引擎在大数据处理方面有着广泛的应用。Hadoop系统发展至今出现了基于MapReduce的第一代和基于YARN的第二代两个版本。两代Hadoop系统各有特点和应用场景。在实际应用中,具体选择哪种系统还需要因地制宜、统筹安排。

  • 标签: HADOOP HDFS MAPREDUCE 集群 大数据 YARN
  • 简介:摘要随着科学技术的发展,供电公司的数据量日益增加,很多存储和计算功能靠单台主机已无法有效运行。Hadoop作为云计算的一种开源分布式计算编程模型,为企业的大数据并行计算,提供了有效处理方法。本文在hadoop框架基础上,用4台主机部署hadoop集群计算环境,并用实例测试hadoop集群环境的并行计算能力。通过实验证明,Hadoop集群环境部署成功,且并行处理能力具有很好的及时性和准确性。该计算环境为以后分析和处理供电公司的用电采集系统、PMS2.0系统和调度OMS系统等大数据文件提供了很好计算平台。

  • 标签: 云计算 Hadoop 集群环境,并行计算
  • 简介:【摘要】论文提出基于 Hadoop云设计适用于交通海量数据场景的大数据平台,设计基于 HDFS和 HBase分布式存储交通大数据,设计基于结构化数据和数据库接口 API的数据接入标准,设计基于 NHbase的预处理数据采集模块,设计基于 MapReduce和 Hive的分布式计算模型分析交通数据。论文最后应用本校校车数据对本平台的可靠性和有效性进行实验与分析,验证本平台不仅能够很好的处理本校校车调度问题,并且能够通过扩展适应更高更大的交通数据要求。

  • 标签: HDFS Hadoop MapReduce 交通大数据 校车调度
  • 简介:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。

  • 标签: 集群 腾讯 数据处理平台 优化方案 高可用 分散化
  • 简介:Offlinenetworktrafficanalysisisveryimportantforanin-depthstudyupontheunderstandingofnetworkconditionsandcharacteristics,suchasuserbehaviorandabnormaltraffic.WiththerapidgrowthoftheamountofinformationontheInternet,thetraditionalstand-aloneanalysistoolsfacegreatchallengesinstoragecapacityandcomputingefficiency,butwhichistheadvantagesforHadoopcluster.Inthispaper,wedesignedanofflinetrafficanalysissystembasedonHadoop(OTASH),andproposedaMapReduce-basedalgorithmforTopNuserstatistics.Inaddition,westudiedthecomputingperformanceandfailuretoleranceinOTASH.FromtheexperimentswedrewtheconclusionthatOTASHissuitableforhandlinglargeamountsofflowdata,andarecompetenttocalculateinthecaseofsinglenodefailure.

  • 标签: 网络流量分析 系统 用户行为 计算效率 容错能力 网际网路
  • 简介:摘要:在现代化的今天,我们的周围被数量众多的数据所环绕,如何从这些数据中得到自己想要的内容成为了不可逃避的话题。由于数据量每天都在大量增加,继续使用传统的推荐系统来进行数据的推荐已经不在适合,可能会出现推荐不准确、数据处理速度过慢等情况,导致用户无法准确的得到自己想要的结果。针对以上情况,本实验使用Hadoop框架,利用Hadoop分布式计算的特点并行处理大量数据,提高运行的效率[1]。并采用均值漂移聚类算法对数据集进行处理,解决矩阵稀疏性的问题,使推荐精度提高。 

  • 标签: Hadoop 均值漂移聚类 推荐算法
  • 简介:【摘要】:随着数据的快速增长,原有的数据存储和分析机制已无法满足用户的需求,为了满足大数据的处理需求,引入了Hadoop处理框架。Hadoop作为分布式计算平台能够处理和分析海量数据,其核心组件HDFS是一个易扩展的分布式文件系统,部署在低成本机器上,且具有高度容错能力,另一核心组件MapReduce可用于大数据的并行处理。该文首先对Hadoop的由来进行了简要介绍,然后对Hadoop在Linux及Windows环境下如何搭建部署进行了详细说明。

  • 标签: 大数据 Hadoop 环境部署
  • 简介:我们生活在一个信息爆炸时代,每天都会接收到多种信息:短信、邮件、电话……我们每天也在生产多种的信息:微博、博客、RFID……各种各样的信息充斥着这个世界,我们该如何应对和利用好如此庞大的信息?这些问题带来的挑战,让业界对“大数据”的热隋达到了前所未有的高度。

  • 标签: 数据集成平台 信息爆炸 多种信息 RFID 博客
  • 简介:Hadoop可以部署在大量由廉价设备组成的集群上,构成高可靠性和良好扩展性的分布式云计算系统.使用虚拟化软件VMware在实验计算机中虚拟出若干台虚拟机,组成集群,在此基础上部署Hadoop系统,然后在Windows系统中使用Eclipse进行开发环境的搭建,并运行了WordCount实例.

  • 标签: 云计算 HADOOP 虚拟化
  • 简介:摘要:在现代化的今天,我们的周围被数量众多的数据所环绕,如何从这些数据中得到自己想要的内容成为了不可逃避的话题。由于数据量每天都在大量增加,继续使用传统的推荐系统来进行数据的推荐已经不在适合,可能会出现推荐不准确、数据处理速度过慢等情况,导致用户无法准确的得到自己想要的结果。针对以上情况,本实验使用Hadoop框架,利用Hadoop分布式计算的特点并行处理大量数据,提高运行的效率。并采用均值漂移聚类算法对数据集进行处理,解决矩阵稀疏性的问题,使推荐精度提高。

  • 标签: Hadoop 均值漂移聚类 推荐算法
  • 简介:摘要:随着线上阅读新闻方式的兴起,传统的新闻推荐算法存在着特征稀疏、缺少多样性等问题。为解决以上问题,本文提出一种基于Hadoop的融合兴趣模型推荐算法。首先,考虑特征稀疏问题,将特征词扩展得到兴趣扩展模型,其次,考虑新闻热度和阅读时长对相似度的影响,提出了改进的相似度计算方法,得到用户潜在兴趣扩展模型,最后,将两个模型进行混合得到融合兴趣模型,进行新闻推荐。实验结果表明,在hadoop中运行改进后的算法,推荐效果有所提升。

  • 标签: 新闻推荐 Hadoop 基于内容的推荐
  • 简介:摘要:随着医疗信息快速的发展,医疗数据的增长体现出大数据的特点。然而,现在的医疗数据存储的技术很难来管理和存储这些海量、结构多样的医疗数据。所以,研究出一个高效的存储技术用于管理和存储海量的医疗数据是一个急于解决的问题。对于医疗大数据的高效存储和快速查询两方面的主要问题,本文提出以基于Hadoop的研究大数据存储优化的方法,提出了医疗数据之间相关联性的哈希分桶算法,并对传统的哈希分桶算法进行改进,从而提高存储效率。在数据存储优化的基础上,实现了基于MapReduce的医疗大数据的关联查询。

  • 标签: 医疗数据 Hadoop 哈希分桶算法
  • 简介:摘要:随着信息化的发展,各行业需要处理的数据呈爆炸式增长。Hadoop分布式存储框架对较大文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。因此,本文提出了基于Hadoop的小文件存储优化的研究,通过Apriori算法挖掘出各小文件之间的关联性,将具有关联性的小文件进行合并装箱降低NameNode内存开销来提高文件的存储效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件的存储效率。

  • 标签: 小文件 Hadoop Apriori算法
  • 简介:摘要:重新创造生物的进化历史,并将生物类群间的进化关系以系统发育树的形式表现出来,一直是系统发育学研究的核心课题,也是研究进化生物学的重要内容之一。建立可靠的系统发育关系,即生物分类和命名的基础,为基础生物学和应用生物学提供研究支撑,为生物信息科学知识库提供知识体系;建立可靠的系统发育关系,也是阐明类群起源和扩散的前提,探讨性状演化和揭示物种形成机制;建立可靠的系统发育关系,也可以定位传染性疾病的发源地;建立可靠的系统绘制病原体的多元性图谱,供疫苗使用;对外来物种的入侵过程进行预测,帮助进行功能预测的新基因;生物多样性方面的学习;认识微生物生态学。

  • 标签: 生物信息学 系统发生学 HADOOP计算 最大简约树构建
  • 简介:Hadoop是新一代并行分布处理“大数据”的架构和技术.本文主要讨论了Hadoop的分布式系统架构方式,并重点描述了分布式文件系统HDFS、分布式并行计算MapReduce及其生态系统等实现原理和运行机制.

  • 标签: HADOOP 分布式系统 HDFS MAPREDUCE 生态系统
  • 简介:随着信息化教学的推进,高校在信息化教学的发展和进步,已积累大量课程资源和课程数据,如何在这些课程资源数据进行有效存储管理,并在此基础上挖掘出有意义的数据,对课程资源进行关联归类,形成课程体系智慧学习,成为目前高校课程大数据的主要研究对象。文章以高校计算机类课程为基础,搭建Hadoop集群环境,研究基于Hadoop平台的课程云平台,为高校课程信息化建设提供方案。

  • 标签: HADOOP 课程云平台 智慧学习
  • 简介:摘要随着时代的发展,科学技术在不断的大步向前,特别是在第三次技术革命到来之后,大量信息数据接连出现,堆积如山。例如在线视频和图片共享的网站要为用户储备大量的资源数据。这类系统的面临的问题是如何在用户逐日增多,数据量越来越大的情况下,保持数据处理的稳定性,保证数据处理效率高,保证数据的价值密度等,变得尤为重要。这时就需要一个能存储大量数据,还要有强大的分析处理能力,资源集中化的应用,它就是Hadoop系统架构。

  • 标签: 大量数据 稳定性 效率高 价值密度 Hadoop系统架构
  • 简介:在信息系统当中,日志数据也就是用户对系统的操作记录以及系统自身的运行状况记录,对日志数据的有效分析,有利于排除系统故障、明确用户访问规律等。基于此,文章就Hadoop平台下日志分析系统展开研究,首先介绍了系统的总体框架,进一步对其设计与实现过程中,日志分析处理流程设计、日志数据预处理两个操作环节进行了重点介绍,并进一步提出了针对此类系统的检测方法。

  • 标签: HADOOP平台 日志分析系统 数据预处理