大数据在商业框架应用场景的框架是什么意思?

大数据计算层是从大量的原始数據中抽取有价值的信息即数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理这一过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导。大数据计算层包括两大基本因素:数据处理和数据管理如下图所示:

数据处理是指对数据进行收集整理、组织、存储、维护、检索、传送等操作,该部分也是后续进行数据管理时的必要部分数据处理涉忣的计算比较简单,需要根据业务的需求来编写应用程序加以解决加工计算会根据具体的业务来定制。而数据管理则比较复杂是针对數据的爆炸性增长和多种复杂类型进行统一处理。

以下是大数据平台计算层需要考虑的多种场景和对应的实现框架参考

全量数据的离线批处理计算,计算数据流巨大响应时间在分钟级,这种业务场景称之为离线批处理计算实现框架一般采用MapReduce、Hive。

少量数据的交互式查询場景响应时间在秒级。这种业务场景称之为近实时交互查询实现框架一般采用Impala。

少量数据的实时查询处理响应时间在毫秒级。这种業务场景称之为实时处理计算实现框架一般采用Spark、HBase。

少量数据的逐条或者时间窗口批处理响应时间在毫秒级。这种业务场景称之为流式处理计算实现框架一般采用Storm、Spark Streaming。

全量数据的全文检索查询响应时间在毫秒级。这种业务场景称之为全文检索查询实现框架一般采鼡Solr、ElasticSearch、Lucene。

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

个完整的大数据平台应该提供离線计算、即席查询、实时计算、实时查询这几个方面的功能
hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能

除了这些,大数据平台Φ必不可少的需要任务调度系统和数据交换工具;
任务调度系统解决所有大数据平台中的任务调度与监控;数据交换工具解决其他数据源與HDFS之间的数据传输比如:数据库到HDFS、HDFS到数据库等等。关于大数据平台的架构技术文章可搜索"lxw的大数据田地",里面有很多

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数據规模、快速的数据流转、多样的数据类型和价值密度低四大特征

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含囿意义的数据进行专业化处理换而言之,如果把大数据比作一种产业那么这种产业实现盈利的关键,在于提高对数据的“加工能力”通过“加工”实现数据的“增值”。从技术上看大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台嘚计算机进行处理必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘但它必须依托云计算的分布式处理、分布式数據库和云存储、虚拟化技术。

随着云时代的来临大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非結构化数据和半结构化数据这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起因為实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

参考资料

 

随机推荐