打底裤裙,『干货』深度强化学习与自适应在线学习的阿里实践,天佑

1查找算法研讨与实践

1.1布景

淘宝的查找引擎触及对上亿产品的毫秒级处理呼应,而淘宝的用户不只数量巨大,其行为特四级查询点以及对产品的偏好也具有丰厚性和多样性。因而,要让查找引擎对不同特色的用户作出针对性的排序,并以此带动查找引导的成交进步,是一个极具挑战性的问题。传统的Learning to Rank(LTR)办法首要是在产品维度进行学习,依据产品的点击、成交数据结构学习样本,回归出排序权重。LTR学习的是当时线上现已展现出来产品排序的现象,对已呈现的成果亚运会调集最好的排序效果,受到了自身排序战略的影响,咱们有很多的样本是不行见的,所以LTR模型从某种意义上说是解说了曩昔现象,并不必定实在大局最优的。针对这个问题,有两类的办法,其间一类测验在离线练习中处理online和offline不一致的问题,衍生出Counterfactural Machine Learning的范畴。别的一类便是在线trial-and-error进行学习,如Bandit Learning和Reinforcement Learning。

在之前咱们测验了用多臂老虎机模型(Multi-Armed Bandit,MAB)来依据用户反应学习排序战略,结合exploration与exploitation,收到了较好的效果。

后来更进一步,在本来的根底上引进状况的概念,用马尔可夫决议计划进程对产品查找排序问题进行建模,并测验用深度强化学习的办法来对查找引擎的排序战略进行实时调控。

实际上,假如把查找引擎看作智能体(Agent)、把用户看做环境(Environment),则产品的查找问题能够被视为典型的次第决议计划问题。Agent每一次排序战略的挑选能够当作一次试错(Trial-and-Error),把用户的反应,点击成交等作为从环境取得的奖赏。在这种重复不断地试错进程中,Agent将逐渐学习到最优的排序战略,最大化累计奖赏。而这种在与环境交互的进程中进行试错的学习,正是强化学习(Reinforcement Learning,RL)的底子思维。

本文接下来的内容将对详细的计划进行详细介绍。

1.2 问题建模

马尔可夫决议计划进程(Markov Decision Process,MDP)是强化学习的最基本理论模型。一般地,MDP能够由一个四元组表明:(1)S为状况空间(S姐姐好tate Space);(2)A为动作空间(Action Space);(3)为奖赏色日函数;(4)为环境状况搬运函数(State Transition Function)

咱们的终究方针是用强化学习进行产品搜不思议迷宫流浪汉帐子索排序战略的学习,在完结的进程中,咱们一步一步完结了从简略问题到杂乱问题的过渡,包括:

  1. 依据值表(Tabular)强化学习办法的产品价格档T改换操控(离散状况、离散动作问题);
  2. 依据值表(Tabular)强化学习办法的产品展现份额操控(离散状况、离散动作问题);
  3. 依据强化学习值函数估量(Value Function Approximation)的产品排序战略调控(接连状况、离散动作问题);
  4. 依据强化学习战略估量(Policy Approximation)的产品排序战略调控(接连状况、接连动作问题)。

1.2.1状况界说

假定用户在查找的进程中倾向于点击他感爱好的产品,而且较少点击他不感爱好的产品。依据这个假定,咱们将用户的前史点击行为作为抽取状况特征打底裤裙,『干货』深度强化学习与自习惯在线学习的阿里实践,天佑的数据来历。详细地,在每一个PV恳求发作时,咱们把用户在最近一段时间内点击的产品的特征作为当时Agent感知到的状况。当然,在不同的问题中,状况的表明办法会有所不同。例如,在值表强化学习办法中,状况为可枚举的离散变量;在值函数估量和战略估量办法中,状况则表明为特征向量。

1.2.2 奖赏函数界说

Agent给出产品排序,用户依据排序的成果进行的阅读、产品点击或购买等行为都能够当刁难Agent的排序战略的直接反应。在第四章中,咱们将运用奖赏塑形(Reward Shaping宠妃逃宫记)办法对奖赏函数的表达进行丰厚,进步不同排序战略在反应信号上的区分度。

1.3算法规划

由于篇幅有限,咱们仅对强化学习在查找中的运用给出2个实例。

1. Tabular办法

咱们在排序中要引进价格的因从来影响打底裤裙,『干货』深度强化学习与自习惯在线学习的阿里实践,天佑终究展现的价格,若以GMV为方针,则简略能够表明为cvr*price,一同咱们又想操控价格的效果程度,所以方针稍作修正:,参加一个变量t来操控价格的影响。这个t值的规模很有限,能够用MAB或CMAB来找到最优解。

咱们用强化学习的视角来对这个问题进行笼统,把用户前2次点击的产品价格档位(0~7,从低到高)作为状况。这个状况表明的是用户之前点击产品的价格偏好,假如两次都点击1档产品,阐明用户偏好低价产品,很有或许接下来用户只对低价产品感爱好,假如这个状况搬运散布是安稳的(stationary),那么一个核算模型能够就能够描绘这种规则。而实际上,用户的行为是受咱们排序模型的影响的,用户点击1档产品也或许是由于当时的排序战略只给用户展现了1档产品,并不必定是用户的实质需求。在接下来用户的查找进程中,咱们能够有的挑选1是只出1档产品让用户的需求快速收敛,挑选2是投进一些邻近档位的产品供用户挑选,假如用户挑选了其他档位的产品,进行了状况的搬运,就或许找到一个更好的途径,终究的收益和咱们一切的进程中的投进战略都相关。从每个时间点上看,战略或许不是最优的,但大局上或许是最优的。打底裤裙,『干货』深度强化学习与自习惯在线学习的阿里实践,天佑

详细地,当用户进行了查找后,依据用户的状况s,和Q表(下图)进行一个epsilon-greedy的投进,挑选一个动作a(上文中的价格指数t),履行这个a的排序成果展现给用户,并记录下这次的状况s与动作a,以及用户对这次查找成果的反应r,从用户的点击与否的反应,再对Q表进行更新。

依据Q-Learning公式进行权重更新。

接下来,由于用户点击了某产品,他的状况发作了搬运,就找到对应的状况继续进行epsilon-greedy的投进。再继续进行学习,直到收敛。

2. DDPG办法

例如一个线性排序模型,

x是m维的特征向量,咱们学习每个用户状况的最优参数打底裤裙,『干货』深度强化学习与自习惯在线学习的阿里实践,天佑w,即

这种假定需求运用战略估量的办法。战略估量(Policy Approximation)办法是处理接连状况/动作空间问题的有用办法之一。其首要思维是用参数化的函数对战略进行表达,经过优化参数来完结战略的学习。一般,这种参数化的战略函数被称为Actor。假定咱们总共调控()个维度的排序权重,关于恣意状况,Actor对应的输出为

其间,为Actor的参数,关于恣意(),是关于状况的一个函数,代表第维的排序权重分,其办法可依据实际状况而定,咱们的计划选用深度神经网络作为Actor函数。这种办法在不同的状况之间能够经过神经网络来同享一些参数权重。

强化学习的方针是最大化恣意状况上的长时间累积奖赏,依据战略梯度定理, Actor函数的参数的更新公式能够写为

其间,为Actor神经网络在状况上关于的梯度,为状况动刁难(State-Action Pair)的长时间累积奖赏。由于和都是接连的数值,我马常春们选用深度神经网络作为估量器对进行学习,详细的学习算法可参阅深度Q学习算法DQN [1]。

1.4 奖赏塑型

咱们开端选用的奖赏函数仅依据用户在每一个PV中的点击、成交行为反应来构建。但是,在淘宝主搜这种大规模使用的场景中,咱们较难在短时间内观察到不同的排序战略在点击和成交这样的微观方针上的不同。因而,长时间累积奖赏关于不同学习参数的梯度并无显着差异,导致学习算法收敛缓慢。因而,咱们有必要在奖赏函数中引进更多的信息,增大不同动作的区分度。

在进行强化学习计划的一同,咱们用Pointwise LTR进行了一些比照试验,发现Pointwise LTR这种直接在产品特征上进行学习的办法在求取战略梯度的时分,能够将不同排序战略更为明显区域分隔。参照这个思路,咱们将产品的一些特点特征参加到奖赏函数的界说中,经过奖赏塑形(Reward Shaping)的办法[2, 3]丰厚其包括的信息量。

奖赏塑形的思维是在原有的奖赏函数中引进一些先验的常识,加快强化学习算法的收敛。简略地,咱们能够将“在状况上挑选动作,并搬运到状况”的奖赏值界说为

其间,为原始界说的奖赏函数,为包括先验常识的函郑裕玲数,也被称为势函数(Potential Function)。咱们能够把势函数了解学习进程中的子方针(Local Objective)。依据上面的评论,咱们把每个状况对应PV的产品信息归入Reward的界说中,将势函数界说为

其间,为状况对应PV中产品的个数,表明的第个产品,为Agent在状况履行的动作,表明排序战略为时产品的点击(或成交)的似然(Likelihood)。因而,也就表明在状况上履行动作时,PV中阿奇霉素片一切产品能够被点击(或购买)的似然概率之和。

1.5 试验效果

在双11期间,咱们在无线查找排序的21和22号桶对强化学习计划进行了测试。下图展现了龙的图片咱们的算法在学习的进程中的差错(RNEU)改变状况,截取的时间规模为11月10日18:00到11月11日8:00。

能够看到,从11月10日18:00发动开端,每个桶上的RNEU开端逐渐下降。到当天20:00之后,下降趋势变得比较平缓,阐明学习算法在逐渐往最优战略进行迫临。但过了11月11日0点之后,每个桶对应的RNEU方针都呈现了猛然上升的状况,这是由于0点前后用户的行为发作了急剧改变,导致线上数据散布在0点今后与0点之前发生较大不同。相应地,学习算法获取到新的reward信号之后,也会做出习惯性地调整。

2 引荐算法研讨与实践

2.1布景介绍

双11主会场是一个很杂乱的引荐场景。从引荐的事务办法上看,双11主会场分为三层:分别是楼层、坑位以及详细资料图的引荐。2016年的双11主会场在全体的安排办法上与上一年的双11主会场相似,但详细事务的构成及安排有较大的不同。

首要,可引荐的楼层多于十层,咱们需从中挑选数层进行展现,并有或许依据时间段和事务的需求进行调整。因而,展现办法的多变对模型的日志特征学习形成了必定的搅扰。其次,坑位的构成分为三种会场进口:榜首行是职业会场,第二行对应店肆会场,第三行对应是标签会场。终究,在楼层以及坑位都确认之后,咱们需求每个的坑位进口上挑选详细的资料。2016年双11主会场的资料有两种不同的展现办法,分别是双资料图以及单资料图。双资料图方式能进步用户的点击愿望,增强视觉感官冲击力,但也会对用户的实在点击行为数据形成必定程度的搅扰或噪声,乃至对排序的模型发生比较大的偏置。

由于陆雨棠2016年双11首图宝物资料总量在百万张且坑位数上百,咱们会依据楼层的次第对参加打分的候选集进行配额,米芝儿依据楼层的实时点击率分配楼层的打重量。在各类事务以及填坑逻辑及调控流量的约束下,引荐成果并不必定能依照原有的打分凹凸进行tired展现。因而,咱们需求考虑打分宝物数与工程完结上的平衡联系。由于主会场的QPS高达数万,一味地增大打重量是不行取的。为了处理这一问题,咱们在初选的match召回办法上做了很多的尽力,如进步用户的多重爱好掩盖、增大有用的候选宝物。

依据在2015双11的一些经历并结合2016年双11前期的体系压测状况,在2016年双11主会场咱们选用了资料模型驱动的方式。从个性化引荐算法的视点来说,咱们在2016年双11主会场测验了多种新颖的排序模型,并做了严厉的效果比照。详细的排序模型触及LR、FTRL、GBDT+FTRL交融模型以及WIDE&DEEP模型,一同为了战胜data drift的动摇在日常的首图场景还测验了Adaptive-Online-Learning的算法,以及测验了强化学习的思路。在后面的章节,会从算法层面逐个阐释。

2.2算法模型

2.2.1 GBDT+王哲林FTRL模型

选用非线性模型学习intermediate feature,作为ID feature和cross feature的弥补,终究输入到线性model来做CTR预估,最早是由Facebook提出的,思路大致如下:选用raw features(一般是核算类特征)练习出GBDT模型,取得的一切树的一切叶子节点便是它能够generate出来的特征空间,当每个样本点经过GBDT模型的每一个树时,会落到一个叶子节点,即发生了一个中心特征,一切这些中心特征会合作其他ID类特征以及人肉穿插的特征一同输入到LR模型来做CTR预估。明显,GBDT模型很拿手开掘有区分度的特征,而从根到叶子节点的每一条途径表现了特征组合。比照手艺的离散化和轿子雪山特征穿插,模型明显更拿手发掘出杂乱方式,取得更好的效果。咱们经过GBDT来做特征发掘,并终究与FTRL模型交融的计划如下图:

输入到GBDT的特征十分要害,这些特征决议了终究产出的中心特征是否有用。咱们有一套灵敏的特征生成流程,能够便利做各种维度的特征提取以及打底裤裙,『干货』深度强化学习与自习惯在线学习的阿里实践,天佑穿插核算。GBDT+FTRL中首要用到的特征包括两部分:榜首部分是用户/宝物ID与对方泛化维度穿插核算的特征,包括各种根底行为的次数以及打底裤裙,『干货』深度强化学习与自习惯在线学习的阿里实践,天佑CTR等。

第二部分是来自于match阶段的一些接连类特征。引荐的match阶段担任粗选出一部分跟用裙下之臣户相关的content,该进程中会有多个模型分呈现,例如做trigger selection的model分, content的终究match score等,这些分数来自于不同离线model,终究作为feature在online rank model中,能取得十分好的ensem大花轿ble效果。

2.2.2 Wide & Deep Learning模型

学习Google今年在深度学习范畴的论文《Wide & Deep Learning for Recommender Systems》中所说到的Wide & Deep Learning结构(以下简称为WDL),并将其结合依据查找事业部自研的机器学习渠道的在线学习技能,咱们研发了一套适用于引荐事务的WDL模型算法。下文将会对这一技能进行胪陈。

WDL模型的原理结构如上图所示:它将深度神经网络(DNN)网络和逻辑回归(Logistic Regression)模型并置在同一个网络中,而且将离散型特征(Categorical Feature)和接连型特征(Continuous Feature)有机地结合在一同。WDL模型首要巴由wide侧和dee鱼油的成效与效果p侧组成。Wide侧经过特征穿插来学习特征间的共现,而deep侧经过将具有泛化才能的离散型特征进行特征嵌入(embedding),和接连型特征一同作为深度神经网络的输入(能够认为是一种特别的深度神经网络,在网络的终究一层参加了很多的0/1节点),从理论上来说,咱们能够把deep侧看作传统矩阵分化(matrix factorization)的一种泛化完结,值得注意的是特征嵌入的函数是和网络中其他参数经过梯度反向传达一起学习得到。模型的猜测值选用如下公式进行核算:

其间,wide侧和deep侧兼并在一同核算后验概率P(Y=1|x);在差错反向传达(B打底裤裙,『干货』深度强化学习与自习惯在线学习的阿里实践,天佑ackpropagation)的核算进程中时,咱们对两个方向一同进行核算。

2.2.3 Adaptive-Online-Learning(自习惯在线学习)

传统的在线学习模型没有一种机制很好的判别模型应该选用的多长时间的日志进行练习,现在业界的在线学习模型也都是经过经历值的办法来进行数据切断,自习惯学习(adaptive learning)的最大优势就在于能够经过自我学习的办法习惯事务的多变性。其完结原理在于保存下来每一个时间开端到现在的数据学习到的模型,然后依据有用的评测方针,核算出各个模型的权重信息,并一同捕捉到数据散布快速改变动摇的状况下的用户实时爱好的细微不同,然后交融出一个最优的模型成果。

2.2.4 Reinforcement Learning(强化学习)

相比对每个引荐场景独自进行个性化引荐的战略,依据强化学习结构(Reinforcement Learning)的引荐体系依据全链路的数据进行整合,一同呼应多个异构场景的引荐恳求。下图中咱们对手机淘宝(天猫)客户端的数据/流量通路进行笼统:每个圆圈代表一个独立的手淘场景,E代表用户在该场景随时脱离,箭头代表流量或许地活动方向。

依据以上的数据通路图,咱们能够很自然地将全链路多场景的引荐使命了解为一个接连的决议计划问题:作为一个智能决议计划者(agent),引荐体系需求继续不断地决议应该为用户引荐怎样的内容(比方,产品、店肆、品牌以及活动)。强化学习正是一种对智能决议计划者进行建模的最佳办法:经过对智能决议计划者短期状况的改变进行递归式建模,终究引导其渐进式地优化长时间方针。

手淘上的引荐场景适当丰厚,最具代表性的是一个页面以列表的办法一同引荐多个产品的场景。为了便于读者了解,咱们首要介绍单个产品的引荐场景,之后再过渡到多产品的引荐场景。在单产品的引荐场景,a对应的是单个产品。咱们的方针是学习在状况s下采纳动作a所能取得的累积奖赏(的期望值)。咱们用Q(s,a)来表明这一期望值。在这种状况下,咱们只需求挑选一种函数映射联系(如线性函数或神经网络)将s和a所代表的向量映射到标量上对方针函数Q(s,a)进行拟合。

咱们把这一界说延伸到典型的多产品引荐场景。由于文章长度有限,咱们下面介绍一种最简略的思路,即假定用户是否会点击单产品的决议计划是独立的。也便是说,假定用户假如喜爱产品A,用户不会由于在同一引荐列表中见到了他更喜爱的产品B而抛弃点击产品A。在这一假定下,咱们对展现每个产品所取得的累积奖赏的核算也是独立的。经过一系列的推导,咱们能够得到一个对状况s下产品i能得到的分数f(s,i)的递归界说。

经过等式(7),咱们能够迭代核算对无偏估量值进行求解。实际状况中用户必定会由于引荐产品的组合问题发生更杂乱的行为,这样一来必定导致累积奖赏独立核算的假定不成立。但以此为本,咱们能够推导出依据更杂乱假定下的核算累积奖赏估量量的递归公式。

原文:https://mp.weixin.qq.com/s/0L5AGKQLFhD-pnJX96Werw?spm=5176.11156381.0.0.37cf50feQpM6Es