投资分析报告剖析大数据平台的数据处理

发布
上海天元项目数据分析师事务所有限公司
发货
3天内
电话
021-24193019
发布时间
2018-05-07 13:34:23
产品详情
 上海天元项目数据分析师事务所有限公司
 
地址:上海市徐汇区天钥桥路329号B栋9楼
 
 
邮@.com
 
  无论是采集数据,还是存储数据,都不是大数据平台的最终目标。失
 
去数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已。
 
数据处理是大数据产业的核心路径,然后再加上最后一公里的数据可视
 
化,整个链条就算彻底走通了。
剖析大数据平台的数据处理
无论是采集数据,还是存储数据,都不是大数据平台的最终目标。失去
 
数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已。数
 
据处理是大数据产业的核心路径,然后再加上最后一公里的数据可视化
 
,整个链条就算彻底走通了。
 
如下图所示,我们可以从业务、技术与编程模型三个不同的视角对数据
 
处理进行归类:
 
剖析大数据平台的数据处理-1
 
业务角度的分类与具体的业务场景有关,但最终会制约技术的选型,尤
 
其是数据存储的选型。例如,针对查询检索中的全文本搜索,
 
ElasticSearch会是最佳的选择,而针对统计分析,则因为统计分析涉及
 
到的运算,可能都是针对一列数据,例如针对销量进行求和运算,就是
 
针对销量这一整列的数据,此时,选择列式存储结构可能更加适宜。
 
在技术角度的分类中,严格地讲,SQL方式并不能分为单独的一类,它其
 
实可以看做是对API的封装,通过SQL这种DSL来包装具体的处理技术,从
 
而降低数据处理脚本的迁移成本。毕竟,多数企业内部的数据处理系统
 
,在进入大数据时代之前,大多以SQL形式来访问存储的数据。大体上,
 
SQL是针对MapReduce的包装,例如Hive、Impala或者Spark SQL。
 
Streaming流处理可以实时地接收由上游源源不断传来的数据,然后以某
 
个细小的时间窗口为单位对这个过程中的数据进行处理。消费的上游数
 
据可以是通过网络传递过来的字节流、从HDFS读取的数据流,又或者是
 
消息队列传来的消息流。通常,它对应的就是编程模型中的实时编程模
 
型。
 
机器学习与深度学习都属于深度分析的范畴。随着Google的AlphaGo以及
 
TensorFlow框架的开源,深度学习变成了一门显学。我了解不多,这里
 
就不露怯了。机器学习与常见的数据分析稍有不同,通常需要多个阶段
 
经历多次迭代才能得到满意的结果。下图是深度分析的架构图:
 
剖析大数据平台的数据处理-2
 
针对存储的数据,需要采集数据样本并进行特征提取,然后对样本数据
 
进行训练,并得到数据模型。倘若该模型经过测试是满足需求的,则可
 
以运用到数据分析场景中,否则需要调整算法与模型,再进行下一次的
 
迭代。
 
编程模型中的离线编程模型以Hadoop的MapReduce为代表,内存编程模型
 
则以Spark为代表,实时编程模型则主要指的是流处理,当然也可能采用
 
Lambda架构,在Batch Layer(即离线编程模型)与Speed Layer(实时编程
 
模型)之间建立Serving Layer,利用空闲时间与空闲资源,又或者在写
 
入数据的同时,对离线编程模型要处理的大数据进行预先计算(聚合),
 
从而形成一种融合的视图存储在数据库中(如Hbase),以便于快速查询或
 
计算。
 
不同的业务场景(业务场景可能出现混合)需要的数据处理技术不尽相同
 
,因而在一个大数据系统下可能需要多种技术(编程模型)的混合。
 
我们在为某厂商实施舆情分析时,根据客户需求,与数据处理有关的部
 
分就包括:语义分析、全文本搜索与统计分析。通过网络爬虫抓取过来
 
的数据会写入到Kafka,而消费端则通过Spark Streaming对数据进行去
 
重去噪,之后交给SAS的ECC服务器进行文本的语义分析。分析后的数据
 
会同时写入到HDFS(Parquet格式的文本)和ElasticSearch。同时,为了
 
避免因为去重去噪算法的误差而导致部分有用数据被“误杀”,在
 
MongoDB中还保存了一份全量数据。如下图所示:
 
剖析大数据平台的数据处理-3
 
Panoramix(现更名为Caravel)为Airbnb提供数据探查功能,并对结果进
 
行可视化,Airpal则是基于Web的查询执行工具,它们的底层都是通过
 
Presto对HDFS执行数据查询。Spark集群则为Airbnb的工程师与数据科学
 
家提供机器学习与流处理的平台。
 
行文至此,整个大数据平台系列的讲解就快结束了。最后,我结合数据
 
源、数据采集、数据存储与数据处理这四个环节给出了一个整体结构图
 
,如下图所示:
 
剖析大数据平台的数据处理-4

上海天元项目数据分析师事务所有限公司

联系人:
王经理(先生)
电话:
021-24193019
地址:
上海市徐汇区天钥桥路329号B栋9楼
行业
电子项目合作 上海徐汇电子项目合作
浏览统计
2次
我们的其他产品
分析报告相关搜索
拨打电话 请卖家联系我