电商电商的推荐系统具体如何知道效果

(电子商务研究中心讯)

近期IEEE Internet Computing上发表了一篇名为《电商的推荐系统具体二十年》的文章,提纲挈领地回顾了亚马逊电商的推荐系统具体二十年来的发展而这二十年的起点,就是基于物品的协同过滤算法也就是ItemCF算法的发明时间,而文章的作者也正是当年ItemCF的发明人。作为靠ItemCF算法养家糊口的从业人员有必偠学习一下“祖师爷”的训导。

在翻译的同时译者根据自己的从业经验和个人想法,对本文进行了一些所谓的”批注“以斜体的方式呈现在原文段落下方,希望能帮助读者更好地理解本文也希望提供给大家一些另外的视角,抛砖引玉地引发大家的思考和讨论

二十年鉯来[1],亚马逊一直致力于构建一个千人千面的商店每个来到亚马逊网站的人看到的都不一样,因为网站针对他们的个人兴趣做了个性化就如同你走进一个商店,商店架子上的商品开始重新排布将你可能需要的排在前面,你不太可能喜欢的排在后面

基于你当前的场景囷你过去的行为,亚马逊的电商的推荐系统具体从一个数以亿计的商品库中为你挑选出少量你可能感兴趣的物品。背后的算法并不是什麼魔法它只是将其他人已经发现的信息与你共享。一切都由算法自动进行在计算机的帮助下,人与人之间在隐性、匿名地互相帮助

亞马逊在1998年上线了基于物品的协同过滤算法(下文简称ItemCF算法),将电商的推荐系统具体推向服务百万级用户和处理百万级商品这样一个前所未见的规模自从我们2003年在IEEE Internet Computing上发表关于这一算法的文章[2]之后,该算法在互联网上开始广泛流传包括YouTube,Netflix和其他很多公司在内都在使用該算法的成功来源于以下几个方面:

经常能给出令人惊喜和有用的推荐。

可根据用户的新信息立刻更新推荐

在我们2003年发表的文章中描述嘚内容这些年来曾经面对很多的挑战,同时也经历了极大的发展在这里,我们介绍ItemCF算法的一些进展、改进和改良同时也会阐述我们在協同过滤、电商的推荐系统具体和个性化未来发展发展的一些看法。

如我们在2003年所描述的ItemCF算法是很直观的。在90年代中期协同过滤算法主要还是基于用户的,这意味着算法的第一步是要通过搜索所有的用户来计算某个用户在兴趣方面的相似用户(例如拥有相似的购买模式)之后再看这些相似用户看过哪些这个用户没有看过的东西。与之相反我们的算法第一步是计算每个物品的相关物品。这里的“相关”可以表示多种含义但在这里,我们可以将其模糊地定义为“买了一个物品的人具有超乎寻常的可能性(unusually likely)会买另外一个”所以对于烸个物品i1,我们希望得到所有购买了i1的用户会以超乎寻常的频率一起购买的i2

译者批:其实UserCF也并不是一无是处,从计算形式上来讲它和ItemCF是唍全对等的UserCF适用于用户数的变化频率小于物品数的变化频率的场景,ItemCF则相反当今的互联网环境下确实是更适合ItemCF发挥,但未来说不好也會有适合UserCF的场景

一旦这张相关物品的表构建好,我们可以通过一系列的查找来构建电商的推荐系统具体对于一个用户当前场景下和历史兴趣中的每个部分,我们寻找到其相关物品将它们结合起来得到用户最可能感兴趣的物品,过滤掉已经被看过或购买过的剩下的就昰就是待推荐的物品。

这个算法相比于旧的基于用户的协同过滤算法具有很多优势最重要的是,主要的计算都是在离线发生的——相关粅品的批量计算——而推荐的计算过程可以通过实时的一系列查找来完成推荐结果质量高并且有用,尤其是量充足时虽然二十年来各種新算法在不断被发明,在可观测到的质量方面ItemCF仍然极具竞争力。该算法可无损地扩展到亿级用户和千万级物品而不需要抽样或其他會影响推荐质量的手段。该算法在用户兴趣更新时可以立刻随之更新最后,该算法的结果可以用很直观的方式来解释因为其来源就是鼡户记得自己曾经买过的物品列表。

截至我们在2003年发表IEEE上的文章时ItemCF已经在亚马逊广泛使用了。亚马逊在主页非常显眼的位置放置了基于伱购买历史和浏览行为的个性化推荐模块搜索结果页会给出和你搜索相关的推荐。购物车会给你推荐其他可以加入购物车的商品可能會刺激你在最后一刻完成捆绑购买,或者对你已经打算购买的商品形成补充在你订单的尾部,会出现更多的推荐给出建议你之后可以購买的东西。借助电子邮件列表页,商品详情页以及其他页面很多亚马逊上的页面多少都会有些推荐模块,开始形成一个千人千面的商店

很多其他公司和组织也在使用这个算法。在2010年YouTube宣城他们使用ItemCF来做视频推荐[4]。很多开源工具和第三方厂商都使用了这个算法这使嘚该算法在网上零售、旅行、新闻、广告等行业中开始广泛出现。在后面的几年中根据微软研究院的估计,亚马逊上大约30%的页面浏览来洎于电商的推荐系统具体[5]类似的,Netflix也在广泛使用电商的推荐系统具体他们的首席产品官声称80%以上的电影观看来自于电商的推荐系统具體[6],并宣称Netflix电商的推荐系统具体的价值每年高达十亿美元还要多。

我们最初发明ItemCF的时候亚马逊还只是一个网上书店。从那时起亚马遜的销售额增长了不止一百倍,并且从扩展到以非出版物为主从笔记本电脑到。这样的增长挑战着很多算法设计之初的假设需要适应噺的不断改变的大环境。通过一些经验我们也找到了一些算法的改进方法,来为很多电商的推荐系统具体新的应用计算出更加相关的推薦

推荐的质量很大程度依赖于”相关“的含义。例如当我们说买了X之后具有”超乎寻常的可能性“会购买Y的时候,究竟是什么意思當我们观察到用户同时购买了X和Y时,我们会好奇多少买了X的人会随机购买到Y——如果X和Y不相关的话一个电商的推荐系统具体说到底是一個统计学的应用系统。用户行为是包含噪音的而我们面对的挑战就是如何在随机中发现规律。

要估计共同购买X和Y的用户数Nxy,的一种直觀的方法是认为所有购买X的用户都有同样的概率P(Y)来购买Y,其中P(Y)=购买Y的人数/所有发生购买的用户数那么购买X的用户数乘以P(Y)就可以认为是Nxy嘚一个期望值,记为Exy在我们2003年的文章中,以及在此之前的很多工作中使用的都是类似的计算方法。

有趣的是对于基于任意两个物品X囷Y,购买了X的用户总要比整体用户更可能购买Y这是怎么回事呢?想象一个超级剁手党——一个购买了商店中所有物品的人当我们在寻找购买了X的用户时,这个用户总是会被选中类似的,一个购买了1000件商品的用户总要比购买了20件商品的用户的被选中几率高50倍所以从购買记录中随机采样得到的结果在用户维度上并不是均匀分布的,也就是说我们得到的是有偏的样本对于任意物品X,购买了X的用户要比整體用户购买量更多

这种用户购买历史的非均匀分布,意味着我们在计算有多少购买了X的用户会随机购买Y时不能忽略是谁买了X我们发现將用户建模成具有多次购买Y的机会会很有用[7]。例如对于一个有20次购买的用户,我们视其拥有20次独立的购买Y的机会

更正式的,对于一个購买了X的用户c我们可以将c购买Y的概率估计为1-(1-Py)^|c|,其中|c|代表用户c的购买次数减去其对于X的购买次数Py=|Y的购买次数|/|所有的购买次数|,代表任意┅次购买是对于Y的购买的概率之后,我们可以通过对所有购买X的用户进行汇总再加上二项式展开,来计算购买X的用户中购买Y的用户数嘚期望值Exy(见下图)

我们可以将Exy写作Py的多项式,其系数只与X有关实际中,Py通常都很小所以可以用一个上界k来做近似。此外Py和alpha_k(X)可以倳先计算好,所以任意两个X和Y的Exy只需要对事先计算好的值进行简单组合即可到到一个近似值

有了一个计算Exy的健壮方法之后,我们可以用其来计算观测到的Nxy是否明显高于或低于随机例如,Nxy-Exy可认为是非随机共现的一个估计而(Nxy-Exy)/Exy则给出了一个非随机共现相对期望值的比例。这兩个例子都可认为是衡量有多少用户会同时购买X和Y的相似度函数S(X,Y)第一种方法,Nxy-Exy会偏向于更流行的Y,例如第一本哈利波特这会使得推薦结果看上去过于流行或无关。第二种方法(Nxy-Exy)/Exy,会使得低销量的物品很容易获得高分数使得推荐结果看着过于奇怪或随机,大量低销量粅品的存在使得这个问题尤为严重所以相关性分数需要在这两者之间找到平衡点。基于(Nxy-Exy)/sqrt(Exy)的卡方检验就是这样一个平衡的例子

译者批:活学活用概率统计的:将自己的问题构造成一个统计问题,剩下的交给数学就好了如果我们能将遇到的度量问题都能成功地进行类似的抽象,很多工作就会简单很多

除此以外还有一些其他方法和参数可用来衡量相关性,以及从相关物品中做出推荐我们的经验是,没有那个得分是在所有场景下都最优最终来讲,只有可观测的质量是电商的推荐系统具体真正的评价标准电商的推荐系统具体只有在人们認为其有用时才是有用的。

机器学习和ABTest可以学习到用户真正的喜好选择推荐中使用的最优参数。我们不仅可以衡量哪些推荐是有效的哃时我们还可以收集到哪些推荐被用户喜欢、点击和购买,并将这些信息再次输入到算法中进一步学习那些对用户帮助最大 [8]。

例如兼嫆性是一种重要的关系。我们可能会观察到购买了某型号数码相机的用户会有很高的几率会购买某特定型号的存库卡但这并不能保证这張存储卡与这部相机兼容。用户会因为很多与热闹而购买存储卡我们观测到的相关性可能是随机现象。确实亚马逊的商品库中有几十萬中存储卡,这里面很多都与这部相机随机相关联 很多电商网站使用人工编辑的兼容性数据库,而这是很昂贵并且容易出错的尤其是茬有亚马逊这个量级上。我们发现只要有足够的数据,再加上一个衡量相关性的健壮方法兼容性可能从人们的行为中学习出来,错误信号逐渐消失而正确的物品逐渐浮现。

有趣的是我们发现相关物品的含义会从数据中自己浮现出来,完全依靠用户自己考虑用户浏覽的物品和购买的物品的不同。对于、音乐以及其他低价商品用户倾向于浏览并购买类似的东西。但对于很多昂贵的物品来说尤其是非出版物的物品,用户浏览的和最终购买的会有很大的不同例如,用户可能会浏览很多电视机但是最终只会购买一个。他们在浏览这囼电视机的同时也在浏览的其他物品通常会是其他电视机。而他们在购买这台电视机的同时购买的其他物品则更可能是这台电视机的配套物品,例如一台蓝光播放器或挂墙支架

充分理解时间扮演的角色对于改进电商的推荐系统具体质量有着重要的作用。例如当计算楿关物品时,两个物品的相关性很大程度上依赖他们在时间间隔的长短如果一个用户在买了一本书的五个月之后又买了一本书,那这两夲书之间的相关性就要弱于两本在同一天内被购买的书的相关性时间的方向性也比较有用。例如用户会在买了相机之后买存储卡,而鈈是反过来这告诉我们不应该给购买了存储卡的用户推荐相机。有时物品的购买具有序列性例如书籍、电影和电视剧,那么推荐就应該给出你下一步想要做的东西

亚马逊的商品库一直在变化。每天数千的新商品到来,而很多其他商品则逐渐失效或沉寂这种循环在某些类别上尤其明显。例如服饰具有明显的季节性,消费电子更新换代很快由于没有足够用户行为数据来计算相关性,新物品会有一萣的劣势这种问题被称作冷启动问题,通常需要借助E/E的方式来给予新商品足够的曝光机会新闻和社交媒体这些易过期的物品在冷启动方面尤其具有挑战性,通常需要融合基于内容的算法(使用题目主题和文本等)和基于行为的算法(使用购买,浏览和打分等)

用户維度的生命周期也存在冷启动的问题。在对用户兴趣缺乏足够了解的情况下如何给出推荐一直都是一个问题何时利用有限的信息以及何時使用热品来保证策略安全是一个不容易判断正确的复杂转换过程。

即使对于信息完备的用户正确地使用时间信息对于推荐质量也有着偅要影响。随着年龄的变化之前的购买对于用户当前的兴趣的影响越来越小。更复杂的是不同类型的物品的减弱效应还各不相同。例洳像”波涛汹涌的大海航行指南“这样的购买记录代表的通常是可持续的长期兴趣。其他的例如洗碗机修理工具这样的东西在周末的工程之后可能就不再相关了甚至还有一些像拨浪鼓这样的商品需要随着时间不断变化;四年之后,我们应该推荐的是平衡车而不是奶瓶還有一些商品,例如书籍通常只会购买一次;其他的,例如牙膏经常是被以可预期的周期重复购买。

推荐的质量不仅取决于购买的时間还取决于购买的内容。我们发现一本书的购买信息可以暴露很多用户的兴趣让我们能够给出很多高度相关的推荐。但是非出版物类嘚购买即使次数很多,也不能给我们提供用户的什么信息我们能从一次订书机的购买记录中收集到什么信息?基于一双袜子的购买记錄我们能给出什么样惊奇而有深度的推荐当前来说推荐胶带切割机或者更多的或许是有用的,但是长期来说会导致推荐很无聊所以,峩们需要开发一种技术能够识别哪些购买能提供有用的推荐而哪些应该被忽略。

最后电商的推荐系统具体中多样性的重要性也是众所周知的;有时相比一个范围很窄的推荐列表,给出一些更多样的相关物品会更好亚马逊丰富的商品库以及多样的商品类型,相比例如书店这样的垂类电商提出了多样性方面更大的挑战。例如给一个重度阅读爱好者推荐更多的书可能会带动更多的销量,但是从长期来看让用户发现他们之前从未考虑过的产品线中的新商品可能是更有用的。意图的明确性也是多样性中的一个因素当用户很明显是在寻找某个具体的商品时,电商的推荐系统具体应该收窄范围帮助用户快速找到所需但是当意图并不明确或确定时,探索性和新奇性应该是推薦的目标想要找到电商的推荐系统具体中多样性的正确平衡点,不仅需要实验更需要一颗想要从长期进行优化的心。

推荐的未来将通姠何方我们认为未来的机会要比过去的机会更多。我们可以想象一种智能交互使得购物就像对话一样简单。

这种方式超越了当前基于搜索和浏览的模式相反,探索过程应该像和一位朋友聊天一样这位朋友了解你,知道你的爱好陪伴你的每一步,知道你的需求

这昰一种智能无处不在的愿景。每一次交互都会反映你是谁你喜欢什么,同时帮助你找到其他和你类似的人已经发现的东西当你看到和伱明显不相关的东西时你会感到空虚和悲哀:难道你现在还不了解我吗?

要想达成这样的 愿景需要从新的角度思考推荐不应该有推荐特征和推荐引擎。相反读懂你和其他人,以及当前拥有的资源应该是每次交互都应该拥有的

推荐和个性化生存在数据的海洋中,我们在穿梭的过程中创造了这些数据包括我们找到的,发现的和喜爱的我们坚信未来的电商的推荐系统具体将继续构建在充分利用人类集体智慧的智能计算机算法的基础上。未来将继续是计算机帮助人类互助

大概二十年前,亚马逊在百万级商品上构建了电商的推荐系统具体来帮助百万级用户,帮助人们发现自己无法找到的东西从那时起,原始的ItemCF算法传播到了互联网的大部分角落帮助人们寻找可观看的視频,可阅读的资讯同时也被其他算法和技术挑战着,也被改造以提供更好的多样性、实时性、时间敏感性以及时序性等很多其他问题由于其简便性、可扩展性、可解释性、可调性以及相对高质量的推荐,ItemCF算法在当今仍然是最为流行的推荐算法之一

但是该领域仍然充滿机会。千人千面的用户体验仍然是一个没有人能够完全做到的愿景仍然有很多机会可以给系统的每个部分添加智能和个性化,制造一個懂你喜好懂其他人喜好,同时也知道你有什么选择的老友般的体验推荐即发现,通过帮助你发现来提供惊喜和快乐每种交互都应該是推荐。

编选:电子商务研究中心)

电商平台搜索排名优化是每个運营的“必经之路”。电商平台搜索的核心并不是匹配用户的搜索词,而是匹配搜索词背后的“用户需求”而电商电商的推荐系统具體的出现,则极大地丰富了用户体验将收集到的用户信息、产品信息以及用户画像分类录入系统,运用推荐算法根据用户进行个性化設定,给用户提供个性化商品推荐电商平台的用户关联电商的推荐系统具体是如何搭建的?

小猪电商称,从电商商品搜索的机制来看用戶搜索的核心设计,是帮助用户解决更加便捷的更精准的查询,比如关键词模糊搜索同时针对于查询服务,电商常用做法是针对关键詞进行准备的分词操作分词需要考虑垂直产品的相关联性,然后基于分词后的关键词去查询和匹配商品后进入数据库中查询从而获得結果列表,再按照算法策略进行过滤、排序并匹配用户画像行为特征优化结果查询,返回优化后的最佳搜索给用户展示

从用户检索功能来看,搜索分为3个核心点:

搜索框:允许用户可以输入字和词联想搜索;

推荐:历史搜索和推荐策略;

结果展示:通过系统端优化结果展示給用户清晰的供用户参考和使用;

电商产品中的关联电商的推荐系统具体,一定是结合用户搜索的习惯和用户行为决定的

去京东或者淘寶上的用户购买商品的主要分为两大类:

1.有明确的购买商品需求,直接查找精准词去购买商品(上面聊到的搜索策略主要是针对这类型的用戶)

2.在淘宝京东上逛逛仅仅是为了消磨时间去购买商品,则看到产品中关联性的其他商品电商的推荐系统具体就显得尤为重要。可以针對性的对用户产生二次复购

每个用户进入到产品中,系统实时会去记录用户行为和交易数据会针对性的结合用户画像产生“个性化推薦”,也就是猜你喜欢或者为你推荐就能使得每个用户都能有自己独特的购物场景。相当于进入一个超市都是你当前心心念念的产品囷之前购买的产品,你会有什么样的感受呢?

小猪电商称在中,系统针对的加强了对电商购物场景的多样性

比如用户推荐、点赞、评论等用户社交之间的操作行为,能有效的传递和反馈商品用户之间的转化效果是对中商品的购买最好的效果。

整体来说用户在某一个场景中互动时,向用户有针对性的推荐另一个场景有需求的引导进入另一场景中完成任务。

在电商场景中关联推荐主要是为用户推荐最匹配ta的商品,从而达到用户复购或者增加用户在场景中的停留时长

那么,电商平台的用户关联电商的推荐系统具体怎么去设计呢?

主要是通过四个角度来设计:

1.用户体验:方便用户的操作推荐商品就是更便捷让用户可以浏览并选择商品;

2.强关联性:推荐给用户的内容和用户荇为特性以及用户画像的关联性强。可以让用户一眼看上去:“嗯嗯这是我想要的”;

3.反馈策略:用户可以选择性的不看某些商品,也可鉯换一批商品也就是给用户反馈的可能,并且系统能针对性的处理操作;

4.推荐策略:推荐给用户的商品要做到润物细无声,惊鸿一瞥就能看到我想要的商品在这儿;(比如进入商品详情、支付商品后和商品完成物流后的推荐策略都不同)

接下来详细的聊下推荐策略,电商系统究竟是怎么推荐给用户精准商品的?

电商平台中用户关联系统的推进策略的搭建:

第一步:从底层先收集用户画像和整理用户足迹相关联嘚特性打标签,根据用户历史记录和当前操作行为为用户在场景中构建一个当前场景画像,此时用户的每一步操作都会为用户生成新的場景从场景中给用户推荐匹配的商品SKU和对应的商品分类等,此时只是第一步筛查;

第二步:推荐商品的属性与用户操作的行为以及用户的曆史进行加权计算(或者其他策略算法)和人工标签推荐策略输出精细化的场景商品推荐;

第三步:最后输出用户在每个场景中的商品推荐。

社交电商平台用户关联系统的推荐策略之猜你喜欢

用户进入电商网站时网站会去筛选用户可能会对哪些商品产生购买意向。这几个商品鈳能在你的购物车里面可能你上次购买过。其中需要根据商品的消费频次比如你上次购买了零食,经过一个周期内刚好有相关联的零食在促销,有更加优惠的价格那么就会有针对性给你推荐该零食,如果你上次购买洗衣机肯定不会推荐你再次购买洗衣机。推荐的湔提是已经认定用户对价格、优惠有很好的偏好了这样才可能达到更好的转化效果。

“猜你喜欢”的策略维度为:

基于用户的购物车收藏、基于用户的足迹、浏览记录和交易订单的结果推荐以及用户画像

当然整体的导购体系绝不止搜索和关联推荐策略,这只是一个组合筞略方法还有push+推荐策略等等都是增加用户粘性和复购率。但是归根到底我们在做电商产品时,先做好底层的数据:用户画像和商品的精细化属性才能做好接下来的每一步操作。这也是电商和商超类传统零售的区别

电子商务网站商品电商的推荐系統具体,(开题报告,需求分析,数据流程图,E-R图,文献综述)_标清

我要回帖

更多关于 电商推荐系统 的文章

 

随机推荐