一:导言
随着2012年今日头条的上线,大数据、个性化推荐逐渐变得耳熟能详。今日头条曾喊出“你关心的,才是头条”这一引起处于互联网时代的我们共鸣的口号,彼时的个性化推荐作为高效获取信息的手段备受人们的关注和喜爱。
但近些年随着大众对于隐私和数据安全的关心不断提高,对个性化推荐的声讨之声不断,个性化推荐逐渐与侵犯隐私、信息茧房联系在一起。今年由于政策要求,各平台都已上线了算法关闭键,允许用户在后台一键关闭“个性化推荐”,引得大家拍手叫好。那么个性化推荐真的如此一无是处吗?
二:个性化推荐的运行机制
构建个性化推荐的基础是处理“人”与“信息”之间的关系,这里的信息指的是“物品信息”(在电商平台就是“商品信息”,在短视频平台就是”视频信息“),而人指的是”人“的兴趣点,个性化推荐系统往往会通过用户注册时填写的个人信息、用户的历史浏览信息等对其进行推断。
01 “画像”——标签化的人与信息
通过对用户的年龄、爱好等信息进行收集,再用算法进行分析所收集的数据,用户的兴趣体系逐渐被建立并完善,形成互联网上常说的用户画像。例如用户如果常常浏览日漫、漫展等物品,个性化推荐系统便可能捕捉到这一信息,给该用户标记上二次元等用户标签。同时,系统对物品信息也会做进一步的数据挖掘工作,从而形成物品画像。
02 召回——将你喜欢的一网打尽
在构建好用户画像和物品画像之后,个性化推荐系统会利用所有收集到的数据去联系“人”和”物品“。个性化推荐主要分成召回和排序两部分,召回的主要作用就是尽可能地找到用户可能感兴趣的物品,其中最经典的算法便是协同过滤算法。
● 协同过滤算法
顾名思义,协同过滤就是协同大家的反馈、评价和意见一起对海量的信息进行过滤,筛选出用户可能感兴趣的物品的过程。根据技术实现不同,协同过滤算法又可分为基于用户相似度的UserCF、基于物品相似度的ItemCF和基于隐向量表达的矩阵分解CF。
● 基于用户相似度的协同过滤
UserCF的主要思想是兴趣相似的人喜欢相似的物品,简单来说,就是推荐给你和你浏览行为相似的用户所喜欢的物品。
● 基于物品相似度的协同过滤
ItemCF则是从用户有过行为的物品下手,推荐给你与你喜欢的物品相似的物品。例如你今天看了一部《蜡笔小新》,那么就推荐给你算法认为的与《蜡笔小新》比较相似的《哆啦A梦》等动漫。
● 基于矩阵分解的协同过滤
矩阵分解CF的思想更为直接。它把用户与商品的交互行为表示为一个矩阵,其中矩阵的行和列代表用户与商品,矩阵的元素代表用户对商品的交互行为(如点击与评分等)。矩阵分解CF希望将交互矩阵近似地分解为一个用户隐含表示矩阵和一个商品隐含表示矩阵的乘积,从而填补交互矩阵中未知的元素。
在协同过滤算法之后,还出现了很多更复杂的召回算法,例如基于内容的算法等,究其本质还是基于相似度的推荐。同时,为了更全面地覆盖用户的多样兴趣,推荐系统往往会采用多路召回的机制,使得生成的候选商品更加全面多样。
03 排序——推测你最感兴趣的
在做完召回之后,个性化推荐系统已经获取了其认为用户可能感兴趣的物品,但一般召回阶段获取的物品数量会相当多,此时便需要多个排序模块对召回的物品进行多级排序,最后将精挑细选的少量物品展示给用户。
● 排序算法的原理
排序阶段一般会整合现阶段能收集到的所有信息预测用户对物品发生某种行为(点击、加购、收藏等)的可能性。排序过程可以理解成将用户定位到某一类人群,再根据现有的信息给出这一类人群对于当前物品的偏好,当然个性化推荐系统对人群的分类会更细致,甚至是无法用语言来解释其对人群的分组,但本质上还是一回事。
● 后处理
在经过上述过程之后,个性化推荐有时候还会经过后处理。一方面,为了保证用户看到的信息具有一定的多样性,平台往往会对排序结果进行打散,使得用户看到的推荐结果不会过度同质化。另外,针对平台运营的机制与策略,可能会对排序结果进行调整。比如,假设《蜡笔小新》和《哆啦A梦》与给二次元人群的相关度近似,但假如由于《哆啦A梦》的提供商出钱比较多,也可能会导致《哆啦A梦》的排序在《蜡笔小新》之前。
三 如何看待个性化推荐
了解了个性化推荐的原理,那么个性化推荐是否真的一无是处呢?答案必然是否定的。对于我们来说,个性化推荐解决了在信息过载的今天如何去高效获取自己感兴趣的信息的问题。互联网时代,海量的信息往往会导致我们迷失其中,忽略了我们最初需要寻找的内容。想象一下,如果真的失去个性化推荐,我们需要每天靠着一遍又一遍重复地添加筛选条件才能去找到自己想看的内容,这对我们来说何尝不是一种变相的折磨呢?
01 恶魔化的个性化推荐
对个性化推荐的批判主要有两点,一是批判个性化推荐会导致信息茧房,二是觉得个性化推荐侵犯了自己的隐私。
● 信息茧房
信息茧房指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像茧一般的“茧房”中的现象,简单来说就是我们每天只会关心同质化的内容。但对于个性化推荐系统本身来说也不希望用户陷于信息茧房,从平台角度出发挖掘出用户更多的兴趣点也就意味着更多的盈利点,比如一个二次元用户本来只会买二次元产品,如果个性化推荐系统推荐其热门运动类物品并使得该用户对该物品感兴趣,那么之后就可能将运动类的产品卖给该用户,可以在帮助用户拓展兴趣的同时提高营收。所以在个性化推荐系统中,探索用户更多元的兴趣也是一大重要领域。
● 隐私安全
关于算法侵犯隐私的问题,推荐算法本身并不会侵犯个人隐私,隐私问题更多地来自平台对用户数据进行获取与分析的方式。如果用户在不同平台上的数据被整合和关联,隐私泄露的风险便会大大加剧。因此,针对平台可能利用为用户提供更好的个性化推荐为借口,对用户数据的隐私和安全进行侵犯的问题,学术界也在积极地研究如何在平台不集中存储用户行为数据的情况下对个性化推荐算法进行优化。
● 其他
当然,除了上述两点广受人们批判的问题之外,个性化推荐系统技术本身还存在不少需要改进的地方。构建个性化推荐系统的数据来自于海量的用户,但数据中可能存在各种各样的偏差,从而导致所构建的个性化推荐系统容易产生不公平的推荐结果。
例如,个性化推荐系统从数据中学到女性更喜欢时尚新闻,推荐给女性时尚新闻经常能收集到大量的用户反馈。这使得个性化系统变得偏执,往往只向女性用户推荐时尚新闻,导致一些对此感兴趣的男性用户无法获取到相关推荐。此外,个性化推荐系统对推送内容质量的把控依旧任重而道远,如何避免推荐假新闻、标题党和带煽动性言论的内容也是个性化推荐系统需要重点关注的课题。
02 正确使用个性化推荐
那么,我们应该怎么对待个性化推荐系统呢?在笔者看来,对于身处信息爆炸时代的我们来说,个性化推荐是个必不可少的工具。这是一个生活处处被个性化推荐系统影响的时代。但技术本身不是原罪,我们需要警惕的不是技术本身,而是掌握技术的平台。
正如上述所说,个性化推荐算法本身不会侵犯个人隐私,但平台为了利益是有可能通过各种手段对我们的隐私数据进行窃取和贩卖。所以,我们应该不断地去了解个性化推荐的运行机制,并对其中不合理的地方大胆地说不。例如我们在淘宝上进行购物,我们希望淘宝可以结合我们日常购物的习惯推荐我们个性化的商品,但绝大多数时候,我们并不希望我们在淘宝购物的信息被滥用到阿里系的其他平台中。
提出“信息茧房”概念的桑斯坦也在《信息乌托邦》中指出:“新的传播技术正在使事情变得更好而不是更糟”。对于个性化推荐来说,我们不应该一味地去放大和批判其存在的不足,还是应该在不断地使用中去了解、监督和完善它。毕竟技术只是工具,好与坏取决于正在使用工具的人。
本系列内容由智谱AI支持,北京市科委、中关村管委会科普专项经费资助。