据悉,在今天的“电商新机遇—京东分论坛”中,京东集团高级总监王晓提出,我今天讲的题目是大数据助力“智慧”京东,京东大数据平台如何促进业务发展。
王晓表示,智慧京东,从我们技术角度来说,是用大数据或者相关新的技术对我们的相关的系统,我们相关的一些业务流程进行深层次改造。这个当中有相应的策略如何实现和落实在系统上,这是需要底层技术平台,和研发团队,业务团队共同协助的平台。这个当中,大数据平台在整个业务环节的智慧化的升级过程中,起到了一个升级服务作用。
据了解,本次中国电子商务创新发展峰会的主题为“新使命,新视野,新动力”,由开幕式、主论坛、年度盛典、《对话》、八场分论坛构成。
其中,“电商新机遇——京东分论坛以“发掘电子商务新的驱动力”为主题,贵阳市人民政府领导、京东集团高层负责人均出席论坛,并围绕京东大数据技术应用及IT技术革新等方面进行专题演讲。
(温馨提示:本文为速记初审稿,保证现场嘉宾原意,未经删节,或存纰漏,敬请谅解。)
以下为京东集团高级总监王晓演讲速记:
王晓:谢谢主持人。
各位领导、各位来宾:
上午好。
我今天讲的题目是大数据助力“智慧”京东,京东大数据平台如何促进业务发展。我们讲的智慧京东,从我们技术角度来说,是用大数据或者相关新的技术对我们的相关的系统,我们相关的一些业务流程进行深层次改造。这个当中有相应的策略如何实现和落实在系统上,这是需要底层技术平台,和研发团队,业务团队共同协助的平台。这个当中,大数据平台在整个业务环节的智慧化的升级过程中,起到了一个升级服务作用。我是王晓,我是大数据平台的负责人。
第一个 我们先讲一下大数据的战略。京东从2010年建立大数据平台的时候,就已经建立了一个中长期的发展战略。第一步骤是要建立一个平台,技术平台本身是所有大数据包括相应的系统智能化的基础,在建立基础的技术平台的过程中,我们提供了一个大数据从抽取,到数据的存储,大数据的处理,大数据的可视化,包括大数据的分发,一整个技术链的整体服务过程。而这个过程通过我们从2010年到2014年整个几年的发展下来,我们相应的产品线、技术线相应成熟。成熟的技术平台帮助了像零售、配送、机器人,其他的所有系统环节,可以提供一个智慧化发展的过程。
第二步 大数据的数据洞察。仅仅有大数据的处理是提供了一个大数据的基本价值。我们希望真正从大数据挖掘出来的知识,和专业人士的技术的专业能力,我们希望变成系统当中的一些功能,包括变成一个实际的系统。这个当中都需要我们通过我们的技术平台和我们相应的一些技术研发团队、业务团队,对现有平台的数据进行深度挖掘。只有深度挖掘出来的知识,在后续系统当中被广泛利用,我们平台才能发挥这样的价值。基于这样的平台,京东在大数据上面,建立了京东的数据挖掘平台,建立了相应的数据挖掘技术,深度学习的技术,人工智能的应用。待会儿同事也会有一些深层次的延展,但是新的技术在平台上的使用都需要有一个边际成本下降的过程,这就需要平台在技术落地的过程中,如何降低相应的使用成本,如何提升相应技术使用的效率,这是平台最近一两年在数据洞察方向,在不断的一个积累。
第三个阶段是商业价值。我们知道技术应用,包括知识挖掘,数据洞察,最终如果不能带来商业价值层面的体现,这样的技术没有发挥很好的价值。所以今年,特别是未来,我们会把更多的技术平台的能力,相应的在大数据层面的一些知识洞察,应用到我们的智慧物流,个性化商城,智慧卖场,智慧制造,这样的京东全体系的业务过程。我们再来看一下京东大数据平台的“大”。
从三方面来看。第一个是集群规模。京东大数据平台通过这几年的发展,达到超过万台的现状,包含了离线的实时数据处理的集群,包括实时在线的数据处理的集群,包括机器学习,数据挖掘的集群。这些互相的资源可以协同共用,共同分享,保证相应的计算能得到最大程度的利用。第二个层面是计算能力。可以看到每天平台上的任务数超过20万,每天实时的数据处理行数超过150亿。从对接上下游的系统来看,从大数据来看,数据是在大数据平台,既是大数据平台的来源,也是下一类的消费方。所以我们对接了京东上千的系统,每天有数十万的表,数据库,日志的体系进入这个平台。通过几十万的任务和百亿行的数据量进入相应的平台,处理完之后,通过相应的策略,使用起来。第三个层面是数据的规模。总体的数据量超过100PP,今年年底会超过200PP每天都是2个P的体量。我们京东对接了全国过亿的消费者用户在京东浏览、消费,包括售中、售后的一系列的行为数据,这对后续的用户画像,相应系统的智能化起到了一个非常基础的稳定作用。
下面我们看一下整个平台的架构。为什么京东这几年大数据这一块能发展非常顺利?很重要一点是整体的技术架构非常统一。我们平台周边一系列的上游系统或者是下游系统,和我们平台之间都是统一的数据结构,统一的接口,统一的方案,统一的产品截面,这样我们平台的升级不会影响到下游的平台,同样下游的升级也不局限于平台的发展。双方都能快速前景。整体上来看,左边的图是京东大数据平台的一个逻辑的示意图。通过京东直通车进入数据平台,我们直通车可以提供给所有业务单元的数据产品,上报到我们的平台上面。上报上来的数据一般会有两个使用方式,一种方式是我们实时的使用,就是我们可能在线生产的一些监控、实时的一些报表,实时的一些业务策略的计算。这个其实都是需要一个秒级的数据处理能力。另外一个是有大量的后台算法,大量的仓库的业务,大量的跨天的数据业务,通过离线的数据平台提供服务,保证上下游的系统都能按照各自的需求拿到相应的数据,并且处理它们。右边是一个简单的大数据平台的一个逻辑的架构图,这个架构图,从红色可以看出来,实时这一块的技术架构和离线这一块如何实现。整体的架构,我们基本上大量的采用了一些开元的技术,同样有京东自己沉淀的新的模块,或者是对开元技术的改造,比如有自己研发的京东版本的实时数据平台的体系。
这一页是我们京东内部,包括相应合作的厂商能看到的产品举证。从产品层面是三大块。一大块是数据工厂。这是面向技术人员使用的数据,从数据抽取,数据存储,数据加工,数据可视化的一系列的体系,包括了一系列的数据。第二方面是数据应用。除了以前的报表性的数据,京东大数据提供了大量的数据产品给商家和供应商,以及相应的一些数据服务,提供我们一些合作的厂商,这个当中也沉淀下来大量的一些数据类的应用和服务体系。这个我也不在这里做一一介绍。然后,我们也有自己平台的一个整体的运营管理体系,当我们的平台超过万台以后,整体的数据平台本身也变成非常复杂的一块业务,如何保证平台的业务每年在百分之百的增长的情况下,人员效率能逐渐提升,容错,可用性能逐渐保持我们更好的水平,这是需要在平台管理能力上,需要不断提升的过程。同样,我们通过流程中心、调度中心,把平台用户上面的业务,这些上面的流程能串联起来,通过流程驱动整体业务的发展。
刚才提到一点就是平台的内部管理自动化。这一块也是相应走在超前的位置,因为整体的平台超过万台以后,智慧化的能力体现了平台发展的一个很重要的水平。比如说智能的数据质量检测。因为我们相应的平台,上游对接了上千个系统,每天都会有这样那样可能的异常发展,但是下游消费平台数据的时候,他们不知道这样一些信息。如何在数据的行数会发生异常变化,相应的核心指标发生异常范围之外的突变,如何让这样的结果,并不是用户看到数据的时候才知道这样的数据发生了异常。而是说当程序跑的过程中,我们的程序自动识别,这样的指标发生了异常,这个自动识别的过程帮助运营体系做到非常好的一个智能化,而不是通过人工去看这些数据报表或者是相应的数据的结果。
第二个是集群的自动部署和维护,和后续资源的自动适配。我们面向不同的分公司,不同的业务,下面分了很多的单元和业务,它们的资源并不是足额分配下去的,因为这样对整个公司来说,运营成本非常高,相应的业务,使用资源都是相互共享的。如何在互相共享的资源之间,保证第一平台的产出效率最大化,第二是业务的产出也能达到理想的水平。我们需要针对不同的业务,不同的时间,不同的业务发生不同情况的时候,对相应的资源进行智慧化的调整,保证最重要的业务,最关键的是,把资源用来跑最关键的业务,这是平台管理智能化的方向。
然后说一下第二的方向,就是数据洞察。数据洞察是在大数据当中发现大的智慧,大的价值。大的价值从我们平台层面,我们不断建设用户画像的体系,商品画像的体系和店铺画像的体系。这些画像的体系既是说我们所有京东在不同业务上,对业务知识的沉淀。这样的沉淀过程,这样的标签建立过程是帮助新的业务在发展的时候更快、更强。在这个基础上建立了京东的数据挖掘平台,使用了最新的数据挖掘技术,包括一些深度学习,包括通用的技术。这些技术本身都相应的实现和平台的架构做到统一,不用新建的技术平台来实现这样的架构和算法,所以可以提供统一的技术服务。最后提供给相应的研发单元以后,利用这些建立自己的挖掘体系,可以应用在我们的运营,智慧物流、智慧零售、广告、推荐等各个方向。
我们一直在说大数据助力智慧京东,整个运作过程是通过这一页PPT来介绍。本身京东的系统建设过程是通过一系列的业务单元沉淀下来的知识和经验。经验体现在网站智能化,精准营销,精准选体,搜索推荐,这相当于京东的大脑。我们最终用在京东的系统,帮助京东提升创新。
第一个例子是我们大数据减少拆单。大家对这一块业务不是很了解的话,我们虽然用户下单是很随机的,但是库房是有品类的需求的。这样会导致同样的定单会拆成很多份,导致配送效率的提升。为了提升我们的效率,降低成本,在大数据层面做了很多的工作,我们可以通过相应的一些消费品类的一些增加,包括我们一些搜索推荐,相应的促进用户尽可能的在同样的库房的下单,包括库房的数量的管理,包括一个扩建的过程。我们大数据应用以后,导致大家可以看到,我们所有的拆单率从原来的百分之十几,降到百分之六点几,另外一个指标也降到百分之五点几。
第二个是通过大数据建立商品画像和用户画像,我们通过用户的行为和商品的特色,我们知道现在买什么的产品,我们希望厂商生产什么的商品,这样我们的厂商、用户都能得到最大的收益。这是智慧制造的过程。后面是大数据优化配送路径。也是我们可以帮助整个配送的过程的效率的提升。同时我们大数据提供了相应的数据产品,服务于我们的商家和供应商。现在面向商家的产品是数据罗盘和揽客计划。还有我们相应的大数据也和金融合作,推动了金融层面的创新。基本上来说,金融发展新的业务,完全可以借用商城对大数据的积累,快速对风控体系,画像体系,很快应用到金融的业务上。
最后用一些图来完整的介绍一下,就是我们大数据在整个共,在业务积累和数据创新过程中的一个价值。大家可以看到,我们相应的在数据上报的平台过程中,京东的各个环节的业务知识,业务能力都沉淀在平台上。通过平台的加工、处理、再分发,又产生了一些新的创新需求和新的创新点。这些点反过来应用到我们的机器人、搜索推荐、网站体系当中,同时在这个过程当中产生新的创新,譬如说金融。我们原来是做商城,但是我们发现金融业非常快速。
最后讲一下大数据的发展。从我们现在来看,未来想做的几件事。第一个就是京东大数据的沉淀,通过京东云的方式向社会开放。第二个就是我们在一些电商和相应的业务方面,沉淀出来的知识洞察,通过我们的数据产品,通过我们和第三方的合作,开放给厂家和第三方。第二个就是通过我们对用户的行为不断积累,不断挖掘,可供一个更极致的用户体验,这是一个永无止境的过程,也是我们不断
努力的方向。我今天讲的是这些,谢谢大家。