监控安装 ERP

系统集成论坛

 找回密码
 注册通行证

QQ登录

只需一步,快速开始

路由器交换机防火墙系统集成商城 优质产品采购平台
查看: 1437|回复: 0
打印 上一主题 下一主题

查询250PB数据仓库 Facebook亮出Presto引擎

[复制链接]
跳转到指定楼层
1
发表于 2013-6-13 21:40:48 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
华为金牌代理
周四,在Facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,该公司正在已经拥有250PB、十分庞大并还在不断增长的数据仓库中,使用称之为Presto的新的自主开发的查询引擎进行快速交互分析。

每天有超过850个Facebook员工使用Presto,每天扫描的数据达320TB,工程师Martin Traverso介绍说。

“以前,我们的数据科学家和分析人员依赖Hive进行数据分析”,Traverso说。“Hive的问题在于它是为批量分析设计的。我们有比Hive更快的工具,但是在功能上过于有限或过于简单,无法完成针对我们巨大数据仓库的操作。在过去数月中,我们一直致力开发Presto以从根本上填补这一空缺。”

Facebook于几年前开发了Hive,让Hadoop有了一些数据仓库和类似SQL的功能,但是因为依赖于MapReduce,Hive在速度方面显示出了不足。扫描整个数据集需要几分钟到几个小时的时间,如果你急于问答问题时,效果就不理想了。

但是如果使用Presto,查询只需数百毫秒,更复杂的查询将需要运行几分钟,Traverso介绍说。查询在内存内运行,绝不会写到硬盘上,他说道。



照片:Traverso解释Facebook新研发的Presto引擎的架构。

虽然看起来Presto如同Cloudera 的Impala SQL查询引擎的Facebook版本,或与Hortonworks在Stinger项目中所做的事情相似,但这是按照Facebook规模为实现更快操作而定制的版本。Presto并不与其他商业产品进行竞争,但是它会很快让大数据行业产生不小的震动。Traverso说,Facebook计划在今年秋天以开源方式发布Presto。

Facebook的工程经理Ravi Murthy介绍说,Facebook数据仓库规模的增长速度要快于其网站用户数量的增长速度。现在的规模是四年前的4000倍。“我们对未来几年的增长做了预测,我们很清楚,很快在某一时间点,数据仓库将达一个EB的规模”,Murthy说道。“考虑到这个EB的规模,我们必须要重新思考很多不同的事物。”

Presto就是需要重新考虑的众多事情之一。除了能让查询的速度更快,这个引擎使用CPU的效能要比Hive高七倍。

另一个研究中的项目是减少分析数据在Facebook数据中心的存储中占用的空间。工程经理Sambavi Muthukrishnan谈到了Facebook是怎样在维持数据高可用性的同时减少数据副本数量的。特别是在数据清冷、或者说访问频率更低的情况下,这是可以实现的。

作为一家卓越的网络规模公司,从交换机到服务器再到社交图谱,Facebook在硬件或软件上持续创新。在6月19日在旧金山召开的GigaOM结构会议上,当我的同事Stacey Higginbotham同Facebook负责基础设施工程的副总裁Jay Parikh坐在一起时,这些话题肯定会被谈起。Presto只是让这次会谈变得有吸引力的最新的一个原因。
我分享,我成长!系统集成 XTJC.COM
您需要登录后才可以回帖 登录 | 注册通行证

本版积分规则

联系我们| 手机版|系统集成论坛 ( 京ICP备11008917号 )

GMT+8, 2024-9-30 18:26 , Processed in 0.072979 second(s), 26 queries .

系统集成论坛

BBS.XTJC.COM

快速回复 返回顶部 返回列表