拼多多CTO陈磊：「分布式AI」给了我们一个超前的想法〡IF19 ...

渃氺三汘 · 发表于 2019-1-19 15:59:29

作为一家零售企业，拼多多也在探索如何利用新技术，布局后流量时代，服务消费者。

2018 年以来，「技术落地」成为人工智能领域讨论的热词。
在诸多应用场景中，电商平台拥有不同人群、地域、维度的消费数据，是 AI 天然可以发挥作用的主流场景之一。从搜索式购物、效率型购物再到逛街式购物，用户的消费习惯在改变，基于社交的应用场景变得更加重要。新消费时代，电商平台该如何利用 AI，有效实现技术赋能？
在 2019 极客公园创新大会上，拼多多 CTO 陈磊提及了「分布式 AI」。传统互联网平台更多采用「集中式 AI」，即把所有数据汇聚，通过算法从数据里找到一定的模式，为单体消费者服务。这种方式却面临着一些困境，比如用户对数据缺乏控制能力，数据所有权问题不够明晰等。
通过分布式 AI 技术，能够实现公有数据对所有用户开放，算法变得更加开源，可供所有用户监督。这就相当于每个个体用户拥有了专属的智能代理。整个数据的决策控制逻辑将会重构。陈磊说，未来云计算将成为像水电煤一样的公共事业部，这就使得用户重新获得了对决策的主导权。
作为技术驱动的电商平台，拼多多利用 AI 技术分析用户习惯，提高消费者与商品的匹配效率，实现「货找人」的 AI 电商应用场景。对于拼多多的发展，陈磊表示，未来要花更多精力优化技术细节，更大层面依靠分布式 AI 策略。

以下是拼多多 CTO 陈磊在 2019 极客公园创新大会上的演讲内容：
感谢极客公园，很高兴有机会能够和来自全国各地的创业者探讨新技术和新理念。
大的创业场景每隔五年就会出现一次。从 2000 年以来，线上商业场景一直聚焦在搜索之上，有人会说搜索场景就是「人找货」（人通过搜索的方式，去寻找自己想要的商品）。
电商行业本质上就是「流量×转化率=销售额 GMV」，在这个公式下，人被简单的抽象成数字和流量，平台如果需要更多的流量，就要盘更多的货，铺更多的线上线下渠道。
自从 2004 年和 2011 年，Facebook 和微信先后诞生以来，互联网的整体思维方式产生了非常明显的变化，基于社交的商业场景不断崛起，依赖搜索进行的交易比重不断下降，本质上是因为移动互联网和社交网络的兴起。
当消费者的时间以碎片化的形势呈现，兴趣就变得更加随机了。从原本带有很强的目的性去参与搜索、进行购物，变成了兴趣使然，在碎片化的时间，在逛的过程引发了兴趣，产生了购物行为，这是一种新的使用场景。
在这种场景下，传播模式发生改变，整个行业会朝着后流量时代过渡。在这个转变过程中，技术作为第一生产力会发生根本性的革命，拼多多作为一家零售企业，也在不停的探索，寻找如何利用最新的技术服务消费者，提供更加匹配的服务模式，找到新的增长点。

今天的大数据流量平台是由五个部分组成的。第一部分：场景。即有一个使用场景，这个场景里面有用户，用户在场景里面进行活动，然后产生数据。因为有海量的数据聚集起来，就在平台里形成了大数据的数据仓库。通过定型的计算能力和 AI 算法，我们可以在数据中寻找规律。
在这里场景驱动服务，服务带来了用户，用户带来了数据，数据经过 AI 和计算能力的处理，优化用户体验，而体验又带来了新的用户增长。
比如说一个创业者忽然发现一个场景不错（打车、外卖、电商），消费人群非常明确，有非常具体的需求，然后他就去搭建一个平台，提供一个服务，用户进来享受服务的同时，留下来了数据轨迹，产生了数据，平台收集到这些数据就会建立几套算法，来优化产品体验。
所以，重要的是用户的数量越多，使用的时间越长，数据的积累就越丰富，后台的算法在不同的数量级上，算法的复杂程度、能力有本质的区别，所以算法也在不断提升，消费者的体验也会更好。
换句话说，在这种模式下，大家拼的就是数据手机能力和规模，效率越高、规模越大，企业的竞争力就越强。
在庞大的数据驱动下，很多公司是试图创造一个无所不能的 AI，记录每一个用户的行为模式，然后圈定模型，进行算法分析，再把分析结果返回给每个消费者，大量用户的多维度数据记录下来以后，能够对过往的生活轨迹、消费轨迹、出行轨迹、衣食住行等全场景的喜好进行全面分析，能为整个零售体系提供底层的数据支持。
对于企业来说，用户已经不是单一个体，而是由多个表现组成的画像，或者是一个高维的向量。对用户来说，企业提供的服务，比用户自我了解更精准。最经典的就是 Google CEO 说过的一句话：通过大数据的 AI，我们不仅知道你在哪里，我们不仅知道你去哪儿，我们还要知道你想要干什么。
这句话听起来很美好，但我们也看到这两年大数据的平台都会遇到一系列的问题，我们来分析一下。

第一，场景。智能设备的数据搜集能力在不停增长，同时也意味着可能暴露更多的隐私，你开发一个 APP，你在搜集这个数据的同时，你所要承担的责任就会越来越大。用户要求这个不仅仅能够有服务，但是又不能暴露我的隐私。
过去，说云计算是 2B 的业务，是提供给企业来使用的，但如果去看过去 20 年或 30 年，整个计算框架，最早是主机，然后是小型机、服务器，服务器就进一步的抽象成了虚拟机，到现在的容器服务。
现在最流行的趋势是，技术本身不需要配置服务器、存储、网络，纯粹就是一个逻辑。你把逻辑上传到云端它就能实时计算，意味着未来云计算不是一个 2B 的业务，而是一个 2C 的业务，就是每一个个体，都可以去抓一段开源的代码，然后在网上为自己搭建一套个性化的服务。
这与刚刚前面说的，通过把大家的数据收集在一起，中央进行计算就有很大的区别。我们再看用户，现在就知道服务很了解他们，但是我不知道它为什么是这样的，而且我也不知道，这种了解是应用在了正确的场合，还是用在了不正确的地方。
当用户感觉对数据缺乏自主权，数据的所有权不明细，那么数据到底是归谁所有？是归用户还是互联网企业？大家会在欧洲和美国看到，越来越多的法律在试图做这方面的界定，对互联网企业有越来越多的限制。
虽然我们做算法，大家都知道深度学习很强大，在人脸识别、语音识别方面甚至可以超越人的性能，大家也知道有很多的问题，深度学习为什么是这样，是一个端到端的方案，中间的逻辑为什么是这样，里面是不是存在着一些不合理的因素，很难分析出来。
面对一些消费者，多样性的消费需求，你用一个固定的模型，及即使是一个深度模型去做，也很难判断到底是不是合理的。我们的未来预期是什么呢？我们想到了所谓的分布式 AI，在未来每一个用户个体，配备有专署的 AI 算法、计算资源，将会成为一个趋势。

你可以利用现成的算法、开源的也好、商业的也好，去搭建一套自己服务的体系，我们称之为「AI 的代理」，当我们输出自己的数据给这个代理以后，就会自动匹配私有数据和公有数据，集成到一个 AI 算法里面，并通过调用云资源技术计算，去产生一个满足消费者需求的结果。
在处理的过程中，保证完全封闭和隐私，并不需要和大家进行交互的过程。未来所有的算法、数据和 AI 都能独立地展现给每个消费者，每个人都可以利用自己私有的数据，自己希望的方式来获得自己希望的结果。这也就意味着，整个数据和决策的控制逻辑会有一个根本性的改变，消费者在场景里面可以更多的支配场景数据，深度优化决策。
所以就像刚才所说的，云计算未来不是 2B 的业务，会是 2C 的业务，每一个个体都可以去调用云资源，做一些优化我个体体验的计算，就像水电煤一样的，未来我可以输出我这个月用了多少的云计算做了什么什么事情，会有一个账单，这是我们的未来。
用户重新获得了对自身服务行为的决策权利，就是相当于他有权利去决策我做的各种推荐、搜索结果，是不是真的满足我的需求，而不是像现在这样被动的接受。
我们数据本身会有一个明显的分割，就是说公有数据和私有数据会有一个切割，公有数据意味着所有人都可以访问，是公开透明的，私有数据是每个人自己保存，会有一个非常严密的容器保存这些数据。
从 AI 算法方面来说，将来算法需要给个体调用，我预期未来越来越多的 AI 算法会是开源的，然后公众可审核，将会更加的安全和公平。现在大数据强大的原因是它需要整合数亿人的数据，去看沟通的模式，最后再去演算。如果每个人的数据自己保存，互相之间不透露，那么有一个问题，比如我们看深度学习的前提条件就是要有足够的样本，那怎么解决这个问题？每一个人都有自己的数据，他并不知道自己数据的个性和共性之间的差异，那么怎么办？
我们有一个超前的想法，想像一下未来有一个智能代理程序，它为你做智能决策，保护你的私有数据，但是同时也会和其它智能代理程序沟通，就和人一样。
比如我们去买东西，会问朋友什么东西好，最近什么东西比较流行，什么衣服比较适合我。这是人和人之间的沟通，这种沟通的效率非常低，因为人的语言比特率非常低。那么未来能不能有这样的一个智能算法程序呢？程序和程序之间可以进行通信，就好像今天的互联网，手机、电脑之间其实也是在通信，只是通信的并不是模型，而是存的数据。

我们理解未来这种智能代理人可以通过信息的交换，扩展自己的能力，通过和别的代理进行沟通，扩展自己的能力以及决策的能力。比如说你看到一款商品上面写着好友多次购买、好友好评的标签时，就会提升你的信任感和判断准确性。
所以这种分布式 AI 能够帮助人以群分的消费群，以更加方便的方式互相学习，降低决策成本提高交易的效率，更进一步的是，当有这种分布式代理的时候，我们不仅能够优化个体的体验，我们甚至能够反向去优化、制造，就相当于 C2M 这种优化的目标。
举个例子，冬天到了，我们要买羽绒服，可能会有 50 个工厂会生产羽绒服，他们可能会准备半年的时间生产服装投入到市场，有一些好卖有一些不好卖。最后就实现了优胜劣汰，但是也就意味着 50 家里面有 1 个成功了，有了利润，有 49 家有大量的积压、资源的浪费。
但是，这种浪费其实就是市场竞争的代价，如果有了分布式智能，衣服到底生产什么样的款式、类型，能不能通过智能代理所筑成的网络来完成，就像今天的股票市场一样，股票的涨跌、价格的高低，就是通过买方和卖方瞬时产生大量的交易来完成的。
这就好像做一个模拟游戏一样，我们把不同的衣服款式，不同的花纹、式样的数据都输入到巨大的代理网络里面去进行模拟，它能不能告诉我们到底需要什么样的产品，这样我们就可以避免传统的市场竞争带来的极大的浪费。就是你要先生产然后去市场检验，当需求能被精确预测了以后，生产的厂家就可以提前安排生产周期进行备货，库存的剩余也会有了很大的解决，不用再担心卖不出去的问题。
从根本上来说，可以将理想化的消费需求聚集到同一个时间、同一个品类，为工厂提供更稳定的订单，从而降低生产成本，实现了便宜有好货。
最后我觉得分布式 AI 还能根据用户本地的行为数据不断地演，就是这个网络本身是在不断演进的，每一个节点其实都是在不断地优化自身的同时，也在提升整个网络的效率，通过高效、安全的方式，和其他的代理通信，为不同的消费群打造符合其自身喜好的定制化产品。
我们觉得，从未来的趋势来看，我们的判断是，AI 的算法、框架将会是分布式的，将会是去强化个体的，而不是提供一样东西去服务所有人。
而且，在零售变革之前，技术永远是第一位的，所以说我们现在要做的事情，就是要不断地优化算法，不断地增强对这种数据算法的理解，从而为消费者提供多实惠、多乐趣的消费体验，谢谢大家！
图片来源：VPhoto

重磅嘉宾云集的 2019 极客公园创新大会正在进行，

点击下方小程序卡片，了解 IF19 现场的更多信息。

		自动登录	找回密码
密码			立即注册

拼多多CTO陈磊：「分布式AI」给了我们一个超前的想法〡IF19 ...

本帖子中包含更多资源

相关帖子