新闻中心
所在位置:首页 > 专业新闻

张云健:亿贝自助式数据服务平台eBay Data Marketplace

  • 发布者:gaoning
  • 发布时间:2013/11/6
  • 浏览次数:

第四届中国云计算大会于2012年5月23-25日在北京国家会议中心隆重举行。本次大会由中国电子学会主办,北京市经济和信息化委员会协办,中国云计算技术与产业联盟、中国电子学会云计算专家委员会承办,CSDN与《程序员》杂志协办。在2012国内公共云全面开花、云计算实践元年之际,本次大会云集云计算核心专家,就国内外云计算核心技术 以及行业应用创新实践进行了深入探讨。

图:亿贝软件工程(上海)有限公司数据分析部资深产品工程师 张云健

亿贝软件工程(上海)有限公司数据分析部资深产品工程师张云健发表了主题为“自助式数据服务平台—eBay Data Marketplace”的演讲。他表示,到2011年底为止,亿贝分析平台每天要处理的数据量超过100个TB,其中50个TB都是新的数据。为用户提供365的在线服务,服务的用户总共有7500用户,每天达到百万级查询,达到99.98%的可靠性。

张云健说,自助式数据服务的出现是为了满足商业敏捷的需求。出于这些需求,对亿贝的业务分析提出了更高的要求。亿贝的数据分析平台目前具备了三个集群,这三个集群的数据源来自于亿贝以及相关子公司,这些数据包括了相关的辅助系统。亿贝的存储系统把亿贝所有的数据集中管理和整合起来,用户能够更好的应用系统当中的数据。亿贝的结构化数据,支持一些报表分析工作,主要用到的前端工具是Micro Strategy,很多技术分析人员可以用客户端来存取,这就是亿贝的自助服务。

以下为文字实录:

大家好,首先感谢各位专家和各位同仁,包括站着的同仁,你们辛苦了。很高兴今天有这个机会和大家分享亿贝的经验。我今天要讲的是自助式数据服务平台,为了实现这个服务,我们的做法。

亿贝对于我们中国用户来讲应该不算陌生,目前在全球很多国家提供了在线交易,除此之外,PayPal作为亿贝的重要组成部分,提供了在线安全支付,PayPal不仅支持亿贝自己的在线平台支付以外,也支持了很多在线专家。目前和中国的运营有合作。

大家可以看到右边,亿贝还有那么多小的子公司,在中国就没那么高。现在来讲,亿贝每秒在这个平台上每秒有3500元商品被销售,涉及商品超过五万种。说到亿贝很多人都不了解,亿贝最开始的时候是从一根坏掉的激光笔开始的,创始人开创了一个个人的网站,越做越大。这是2011年的一笔交易,竟然达到了390万。这是大家比较了解的,巴菲特的慈善午餐,超过了260万。

简单介绍一下亿贝平台的发展史。到2011年底为止,亿贝分析平台每天要处理的数据量超过100个TB,其中50个TB都是新的数据。我们的平台在为用户提供365的在线服务,我们服务的用户包括亿贝用户,当然也包括亿贝以外的用户,总共有7500用户,每天达到百万级查询,达到99.98%的可靠性。

看一下亿贝分析平台的进化图。我们的整个分析很简单,是基于一个存储,大家可以看到,2002年的时候亿贝采用了解决方案。他的特点在于对于大数据量处理有更大的能力。最后一个蓝色的框,在亿贝的2002年的时候终于也开始使用,因为我们的确发现对于非结构化的数据他也有更好的解决方案。

大家可以从这个图上看到,亿贝的数据分析平台目前具备了三个集群,这三个集群的数据源来自于亿贝以及相关子公司,这些数据包括了相关的辅助系统。这些数据可以加载到亿贝的数据分析师,最终提供给我们的用户。大家看到画面倒数第二行,一个很长的条,这个是亿贝前两年开始推广的一个存储,他的推出把亿贝所有的数据集中管理和整合起来,我们亿贝的用户能够更好的应用系统当中的数据。从这个图大家可以清楚的看到,亿贝三个处理的现状。到今年六月底,亿贝将会完成升级。在这个系统上主要处理的是结构化数据,支持一些报表分析工作,主要用到的前端工具是Micro Strategy,很多技术分析人员可以用客户端来存取,对他们来说存在自助服务。

大家可以看到绿色的框是SINGULARITY,进入用户行为。大家可以看到,左边圆顶的是资源保护,里面所存储的信息相当一部分是我们亿贝网上上所有的行为,都会进入当中。这个数据的存储方式是半结构化的方式,或者是一维和多维数据的结构方式。在这个平台上我们更多的会对半结构化数据接触。对于前端工具也有数据分析。这个平台主要是用来存储数据,这个系统它的存储主要用户是从事研发工作的。最典型的两个用户,一个是做研究性前瞻性工作的。另外一个是奢侈品。

接下来讲一下重点,自助式数据服务。基于我们亿贝特点的,亿贝很重视自助式,为什么?举一个例子大家就明白了。亿贝中国(上海)公司里边只有(人名)一个人有秘书的,这就意味着公司从上到下所有的事情你都要自己来,所以亿贝相当重视自助服务。自助式数据服务它的出现是为了满足商业敏捷的需求。就我个人理解,有三方面的要求,我们的业务人员一旦有了新构想,能够尽快投入到使用当中,很多情况下构想能够成功的不多。商业敏捷,提升分析和运作效率。一个业务人员有一个idea,之前可能需要几个月的时间,对于现在竞争激烈的市场环境的话,可能几周都是难以接受的,我们需要这个变化在几天内就在我们的系统环境里得到体现。

出于这些需求,对于我们的业务分析提出了更高的要求,要实现这个愿望其实我们还是有不少阻碍的,我这边粗略列了一下,亿贝分析平台有三个,意味着我们要每天三个数据,而且这三个系统虽然各有所长,他们分别是能够处理结构化的、半结构化的和非结构化数据,但是由于处理数据的时候不能跨平台的,要把一部分数据拷贝当中。这是数据一致性的问题。目前我们团队也在为实现数据一致性,达到高效存储的目标,也在努力。

第二个问题,我们现在的数据分析平台有六万多数据级,对于我们用户来讲根本不能指望他自己去找他们需要的数据,对于我们专业部门来讲是很困难的。亿贝有两个非正式的角色,这两类人会针对这些数据及所处的业务核心,他是这些业务核心的权威解释人,SA是解释这个数据是怎么来的。

第三点是快速变换的商业需求,快速变化也是一个难点,这些难点对于我们来讲,需要我们配合用户不断的去调整我们的工作。这里面提到了Stories,亿贝经过这样的工作模式,我们的时间是两周,问题是每两周我们的客户都会说,我原先的数据要做什么,每个中心给你搞一下,整个团队就陷入重复性工作。

平台分析用户,一个是在线分析业务,一个是离线分析业务。我们的客户用各种工具,直接连结到我们的数据平台进行交互,对于离线分析业务,很多产品在我们其他的在线系统当中,这是自动化的过程。这个过程必须是我们数据分析团队实现的。

对于我们设计的EDM框架来讲,用户可以在我们这上面提交他的需求,我们的业务部门能够对他的需求进行验证,整个平台就会自动生成,我们这个平台有个Tracker工具。这个平台可以跟我们的数据分析进行数据交互。大家可以看到系统集成知识系统,API数据服务,找到他的数据说明,最下面一个Wiki,根据自己的知识,不断丰富这个Wiki,他的内容会更新,我们现在正在使用的一个企业级的措施。

围绕着亿贝数据形成这样的生态圈,通过这个平台实现了我们工作流程的重构,我们通过这个平台,让用户能够自己去迭代2,系统能够自动的来做他们的业务。