百度、阿里、腾讯三巨头开挖大数据 - 系统集成论坛

[attach]7997[/attach]

下面，就将三家公司的情况一一扫描与分析。

一、百度：含着数据出生且拥有挖掘技术，研究和实用结合

搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析，通过语义分析对搜索需求的精准理解进而从海量数据中找准结果，以及精准的搜索引擎关键字广告，实质上就是一个数据的获取、组织、分析和挖掘的过程。

除了网页外，百度还通过阿拉丁计划吸收第三方数据，通过业务手段与药监局等部门合作拿到封闭的数据。但是，尽管百度拥有核心技术和数据矿山，却还没有发挥出最大潜力。百度指数、百度统计等产品算是对数据挖掘的一些初级应用，与Google相比，百度在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力，还有很多事情要做。

2月底在北京出差时，写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此，仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。搜索引擎在大数据时代面临的挑战有：更多的暗网数据；更多的WEB化但是没有结构化的数据；更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过，搜索引擎在大数据上毕竟具备技术沉淀以及优势。

接下来，百度会向企业提供更多的数据和数据服务。前期百度与宝洁、平安等公司合作，为其提供消费者行为分析和挖掘服务，通过数据结论指导企业推出产品，是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧，该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后，根据受欢迎情况选中的。

百度还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索，如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管百度已经出发，其在大数据上可做的事情还有很多。

在数据收集方面，百度需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据，以及推进移动App、穿戴式设备等数据收集系统。

在数据处理技术上，百度成立深度学习研究院加强自己在人工智能领域的探索，在多媒体和中文自然语言处理领域已经有一些进展；云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战，百度等探索者还有很多待解问题，如：无监督式学习、立体图像识别。

在数据变现方面，百度需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品，进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。

百度的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面百度是聚集国内最多大数据相关领域顶尖人才的公司。听说百度前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛，包括一些学者和教授。例如Facebook科学家徐伟。

在挖人上，舍得花钱不够，还得用心。对于真正的大牛来说，钱只是一个影响因素。能否实现自己的梦想，公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见，得到答案是积极的，最终促成他作出决定。

总体来看，百度拥有大数据也具备大数据挖掘的能力，并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时，也注重实用性的技术产出。

二、腾讯：数据为产品所用，自产自销

微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久，天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现，“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。

腾讯拥有社交大数据，在企鹅帝国完成数据的制造、流通、消费和挖掘。腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报，增值服务占总收入的78.7%;电子商务业务占14.1%；网络广告收入占6.3%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。

在笔者看来，腾讯的思路主要是补齐产品，注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。那么如果腾讯要深入大数据挖掘缺少什么呢？笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了，就差模式，也就是找到需求或者能更深层次驱动大数据利用的产品，而不是用大数据改进自己的产品。腾讯还在观望，等其他人去试错验证出一套模式或者产品后，自己可以“站在巨人肩上”。这是腾讯的典型思维。

在人才方面，腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后，Google图片搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者，《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱，但被认定为一款无法承载腾讯重托的产品，最后这些大牛都走了。大都回Google了。

腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告，更不会向百度、阿里那样主动包装宣传技术大牛。其技术虽然低调，但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步，在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮，发现没数据挖掘能力呢？不会，腾讯搞不定数据挖掘，到时候依然可以挖到大牛，甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上百度，就难了。除非将百度的数据和众大牛一起倒腾过来。

总体来看，腾讯目前的大数据策略是先将产品补全，产品后台数据打通，形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品，则利用自家的社交及关系数据时，开展对大数据的进一步挖掘。