首页科技快讯大数据算法：知心朋友还是认知牢笼？

大数据算法：知心朋友还是认知牢笼？

来源：晰数塔互联网快讯时间：2021年08月13日 08:57

如今，推荐算法在网络生活中的重要作用无需赘言，而自算法时代以来，伦理一直是悬在算法头顶上的达摩克里斯之剑。8月2日，中央宣传部等五部门联合印发了《关于加强新时代文艺评论工作的指导意见》，提出健全完善基于大数据的评价方式，加强网络算法研究和引导，开展网络算法推荐综合治理，不给错误内容提供传播渠道。对推荐算法的规制再次被提上日程。就影视平台而言，推荐算法在一味地迎合用户的口味的过程中，不可避免地造成了趣味圈层化、品味低俗化和选择被动化的弊病。然而不论如何，算法时代已经到来，既然日常生活已然离不开它，如何与算法文化相处是现在所要面临的唯一问题。

在互联网时代，每时每刻都有大量的内容被生产出来，不论是短视频还是传统影视作品，都是人穷尽一生也无法看完的。将内容与其目标受众连接起来，是影视平台的主要任务。除了用户主动的检索行为之外，通过推荐算法所得出的主页展示是另外一条途径。

在众多影视平台之中，Netflix算是影像内容个性化推荐的先行者。它从2006年悬赏百万美元进行推荐算法大赛开始，就一直致力于不断优化面向用户消费需求的影像内容推荐系统。如今，Netflix用户平均每3个小时的视频播放时长中就有2个小时是来自于首页的推荐内容。

Netflix的现行的推荐算法综合考虑到短期热点，用户的兴趣点以及用户的观看场景。除了用于推荐内容本身之外，推荐算法还用于平台选择推荐方式。Netflix针对每一部电影都制作了30-40份海报，每份海报的侧重点不同。由于每一部电影对于不同人的吸引点也各不相同，有的因为类型对胃口，有的因为某位明星加盟，所以Netflix通过将侧重点各异的海报分发到不同的受众群体，以提升播放的转化率。

相较而言，国内的视频平台的推荐算法起步较晚，但是发展迅猛。爱奇艺于2013年推出了业界第一个智能推荐的客户端，仅两年之后，用户浏览的推荐内容就占到了总流量的30%。

优酷的个性化推荐则从2017年下半年开始部分推行，2018年才全面推广。不过凭借阿里的庞大用户数据，优酷在用户肖像上有着天然的优势。2018年优酷认知实验室成立，在视频结构分析和内容智能生成上进行了提升改进。视频的结构分析也就是直接从声画中提取信息，进一步精细化视频元素；而内容智能生成主要应用于海报，以达到前述Netflix推荐方式个性化的效果。

可以说，推荐算法是各大影视平台博弈中的重要战场。

人工智能还是人工智障

说起来，推荐算法自诞生伊始就跟影视有着深厚的渊源。

推荐算法的研究起源于20世纪90年代，由美国明尼苏达大学 GroupLens研究小组最先开始研究，他们想要制作一个名为 Movielens的电影推荐系统，从而实现对用户进行电影的个性化推荐。首先研究小组让用户对自己看过的电影进行评分，然后小组对用户评价的结果进行分析，并预测出用户对并未看过的电影的兴趣度，从而向他们推荐从未看过并可能感兴趣的电影。

也就是说，早在彼时算法的逻辑就已经初具雏形了，互联网时代的到来为算法提供了大量的可供处理的信息，此后，推荐算法才成为视频平台的制胜法宝。

总结起来，现在各影视平台所用的纷繁复杂的推荐算法不外乎两条根本逻辑：一个是协同过滤算法，一个是基于内容的推荐算法。

协同过滤算法（Collaborative Filtering，简称CF），也就是根据所有用户的历史数据，来推测每个用户当下所可能感兴趣的内容。这种方法将用户-内容的评级矩阵作为输入数据，输出的则是用户对每一个尚未接触过的内容的预估兴趣值，并依次将内容排序推荐给用户。

协同过滤算法的优势是不需要关于内容本身的任何参数，也就是说，内容是什么不重要，谁喜欢它才重要。因此，许多平台的相似推荐会采用“喜欢这部电影的人也喜欢”这种表述。同样，当韩国导演洪尚秀的电影《引见》的相似推荐中，同时出现蔡明亮、滨口龙介和赫尔佐格的作品时，我们也就不必惊讶，因为在协同过滤的逻辑下，正是影迷的选择造就了不同时期、不同国别、不同风格的导演之间强有力的连结。

由于不需要关于内容的任何信息，协同过滤算法被广泛应用于电影和音乐这种难以量化的内容的推荐上。它最大的问题就是需要丰富的历史数据和庞大的用户群体，因此难以应用于平台诞生之初。

第二种是基于内容的推荐算法（Content-Based Filtering简称CBF），也就是根据内容的分类信息为用户推荐相似的内容。此时的输入数据是用户的偏好，以及内容的属性，输出的是最符合用户偏好的内容。

不难想象，对于影视而言，基于内容的推荐算法最大的挑战来源于影视内容的难以量化，往往要使用高昂的人工成本。在这方法做到极致的仍是Netflix。

早在2006年，Netflix产品副总裁托德·耶林便带领团队为影视内容贴上“微标签”。这一方法也被其设计者赋予一个极具数理色彩的名称——“Netflix量子理论”。在具体操作中，Netflix雇佣独立评论者来看片，并从1000多个标签中进行选择以描述他们所看到的内容，如血腥程度，浪漫程度，情节结论性等，由此生成了丰富的“微类型”。微类型的总量竟达76897种之多，比如“情感充沛的反体制纪录片”“基于真实生活的皇室掠影”，都是所谓的“微类型” ，其描述方式几乎要突破语言的极限。

基于内容的推荐算法需要耗费大量人力，协同过滤算法则难以应对缺乏数据的“冷启动”过程。此外，两种算法所共同面临的另一个难题是用户兴趣漂移，即用户的兴趣点随着时间变化，长期推送相似的内容会让用户感到乏味。为此，许多模型通过加入艾宾浩斯遗忘曲线，滑动窗口，长短期兴趣模型等方法进行改进。

不过，有时算法所设定的过快的更换速度也容易让用户措手不及。假如用户本着好奇心进入了自己本不熟悉的内容，又一不小心看完了，结果第二天首页可能被相似内容全部占领。说到底每个人的遗忘速度也是不一样的。人心难测，和所有现在的弱人工智能一样，推荐算法距离测量人心还有相当的距离。

对抗与共存

尽管对于推荐算法的诸多弊病已经被讨论多年，但是在海量的内容之中，想要脱离算法的掌控，已经是不可能的事。除了社会层面上更严格的规制之外，在个体层面上，一些年轻人执着于抹去自己在平台上留下的一切痕迹，以略显徒劳的方式与推荐算法对抗。

他们本着“不点赞、不评论、不关注、不登录”的四不原则，只要让算法猜不透我，也就对我无可奈何。然而，这种绝交式的对抗策略，在抵制算法的诱惑的同时，也放弃了算法带来的便利，而算法的初衷是帮助用户找到与其需求相匹配的内容。

此外，从技术源头上深度考虑用户的行为与需求矛盾的实验也在进行。

IBM的研究员和麻省理工媒介实验室（MIT Media Lab）发展出了一种AI推荐技术，能够兼顾用户的喜好与道德准则。不同于此前静态的规则设置，这种技术可以在实例中学习道德准则，正如其可以学习用户偏好那样，并最终在道德准则和用户偏好中做一权衡。该方法首先被用于青少年电影推荐，因为在电影推荐中，青少年的偏好和成年人对他们的限制冲突最为明显。

在实验中，父母为孩子设定色情与暴力的尺度，算法在父母的要求和孩子的偏好之间做出权衡。该方法还被用于计算药物的剂量，在医生追求的稳妥和患者追求的生活质量之间进行平衡给出推荐方案。

尽管该方法在亲子电影推荐和医患用药建议情况下表现良好，但在只涉及一个用户的环境中会遇到限制。在这种情况下，用户将负责定义他们自己的道德准则和约束，而他们也可以轻而易举地违背自己设置道德准则的初心。不论如何，这一尝试代表了算法社会解决自身“囚徒“风险的另一种可能。

结语

在日益原子化的当代社会中，推荐算法可能是最懂你的人；然而过于亲密的关系之下，推荐算法可能又会成为人加之于自己头脑上的牢笼。不管是冷启动、细化分类、兴趣漂移等方面的诸多不便，还是趣味圈层化、内容低俗化以及选择被动化的“原罪”，对推荐算法的警惕会伴着它愈加广泛应用持续下去。如何摆脱算法的牢笼？社会层面的规制和技术层面的尝试都在进行。个体层面上，消除历史数据或许显得无力，但是意识到推荐算法的囚徒风险，已经是迈出算法牢笼的第一步。