2016 年 1 月 22 日
对于阿里云数加你一定有很多问号
1月20日,云栖大会·上海峰会如约来到申城。
此次峰会上,阿里云对外发布了大数据平台数加。
随后在官微,我们发起了《兄弟们,今夜我不在乎暴风雪,只在乎阿里云大数据平台上到底有哪20款产品》霸屏活动,一夜阅读近2万。
同学们,小编跪谢啊。
今年的年终奖,不,军功章,有你们一半!
但对不差钱的程序猿、攻城狮和数据发烧友来说,大家最关心的并非MONEY,而是这集成阿里十年数据能力的平台,到底怎么愉快滴玩耍?
今天,特别邀请到数加平台背后的两大暖男来为大家解答。
常亮,阿里云数据事业部计算平台负责人。
别看他文质彬彬,书生气十足,实际上是资深海龟一枚。
在他的履历上,不仅有国际知名互联网大公司,还有《纽约时报》这样的传媒大亨。
好吧,其实他是上天派来抢小编饭碗的。
云栖大会常年驻场嘉宾,阿里云资深总监李津,是大家的老朋友了。
他文艺又直达技术本质的见解,横扫一切小清新。
雪那么大,咱们这就直奔主题啦。
问:“数加”是从什么时候开始研发的?
答:我们是2008年大概10月份准备要来做这件事,这套系统当初设计的时候是面向高总量的、数据密集型的一些应用,比如淘宝。
2009年春节开始敲代码,我们到2010年春节之前就开始服务阿里金融。在2013年,我们集群规模达到了5000台。当时全世界就这么两三家。到2015年,我们的规模已经上万台了。
问:云计算方面,阿里云已经优势明显,在大数据方面,阿里云是否具有同样的优势?
答:可以用算的起,算的快,算的准这三点来概括阿里云在大数据方面的优势:
算的起,是说性价比要好,相比 AWS 的EMR,我们要比他们的便宜很多,成本不到他们的20%。
算的快,在SortBenchmark的排序竞赛中,我们打破了四项世界纪录,比前年的速度要翻了三倍以上。目前是全球排名第一。
算的准,在这方面我们开放了多年来在电商和金融领域提炼的很多算法,但它们其实不是说只能用在电商和金融领域,很多地方都是相通的,比如交通领域,这些都会开放。
问:为什么选择发布“数加”这个平台,而非是将每个产品单独发布?
答:“数加”平台中的每一款产品单拿出来,都可能替代大数据产业链条上某个环节、某个企业。我们内部也经过很长时间思考,总体原则是不希望产品被割裂开来。由于时代在变迁,方法在变,效率也在变。
在美国一个数据分析流程可能需要七八家供应商,这是历史原因造成的,要在发展中不断添加工具。
但这种割裂是不利于行业的,需要整合。现在各种层次的整合已经开始了。
问:数加和其他平台的兼容性如何?
答:这方面我们保持了同其他系统的高度兼容,不用担心。“数加”平台兼容SQL,也兼容Hadoop、MapReduce等,走的是标准路线。
问:如何才能让客户敢于尝试“数加”?
答:这是个老问题,新事物有人敢尝试、有人不敢这太正常了。时间会改变一切。该醒的就会醒,不想醒的就让他睡着好了。
问:国内大数据应用的情况如何?
答:今天,我们很多数据都是被糟蹋了,他们仅仅变成了给老板看的报表而已,完全没有充分挖掘数据的价值。
中国的数据远远比美国丰富,中国今天对数据的理解,其实也并不比美国差。只是说今天还没有大量的数据公司冒出来。我们希望通过数加,输出阿里巴巴的大数据能力,让他们早一点涌现出来。
未来几年,中国可能会开始量产数据科学家,量产大数据技术。
问:制约大数据发展除了技术,还有一个关键是人才,阿里云在这方面有什么计划?
答:我们一直在持续的举办天池大数据竞赛。2015年累计参加的选手已经达到25494人。
除了国内,国外也有一些,大约40来个国家和地区的选手参与,大部分是90后,最年轻的有一位是15岁的。中国高校的学生潜力巨大。
我们还在协助高校建设大数据的环境,这个环境是包括两个方面,一方面就是提供真实脱敏数据源,比如说穿衣搭配算法、广东公交车路线规划、贵州红绿灯控制设计等。一方面就是计算能力。尽管我们才举办了两年多,但我们已经看到了一些职业选手,他们至少参加了半数以上的比赛。
同时,我们也有阿里云大数据人才的认证计划。可以通过参加阿里云的系列培训并完成考试,获得认证。
问:如何让客户放心的把数据存在云上?
答:这次“数加”的发布,我们再一次强调了“规矩”。去年7月份,我们发起了《数据保护倡议书》,承诺永远不动用户的数据,这是规矩!也希望全行业能够自律,共同迎接大数据产业的爆发。
规矩说出来之后,大家所有的眼睛都会盯着我,所有人都是我们的镜子。
我们还在推动国家相关法律法规的落地,把很多东西明确下来,变成行为准则。对很多公司来说,会认为这是约束,但我们自始至终认为今天只有在规矩之上才能做我们应该做的事情。
我们自己讲规矩,并且努力让所有人都遵循。如果没有规矩,这个市场就不会存在。
在技术上,我们天然就是多租户机制,有租户隔离和保护模式。阿里云上本身不存在超级账号,只有租户管理员有钥匙,阿里云没有钥匙。
在机制上,我们正在计划邀请第三方审计进来,对平台、对用户进行审计。
问:如果有黑客窃取客户数据呢?
答:整个数据安全分好几个领域,第一个领域就是通讯的安全,通讯全部要加密,这样数据存储的过程全部加密。
我们是国内第一个全站加密的,淘宝、天猫、聚划算、支付宝都是https加密,这与很多其他互联网公司只是某个业务加密有极大的不同。
第二安全意味着要做到不可回逆,你做了删除的动作就真正删除了,客户是否准备接受不可回逆?
还有,加密就会产生秘钥,密钥如何保障安全性?为什么我们要和中科院一起研究量子通讯?量子通讯其实就在安全的传输密钥。
不久前我们还联合江南天安推出了能让数据明文进去,密文出来的加密服务(AliCloud Data Encryption Service)。这是国内首款云数据加密服务。