首页科技快讯已故之人的个人数据并未“逝去”，或被用于训练新的AI大模型

已故之人的个人数据并未“逝去”，或被用于训练新的AI大模型

来源：晰数塔互联网快讯时间：2024年05月05日 16:15

深度伪造正变得越来越逼真，真的足以以假乱真。2024 年 4 月早些时候，我去了英国伦敦东部的一家工作室，让人工智能视频初创公司 Synthesia 对自己进行了数字克隆。

他们制作了一个超真实的深度伪造化身，看起来和听起来都很像我，语调也非常逼真。它真的远超前几代人工智能虚拟化身。

最终的结果令我震惊，它可以轻易地让一个不太了解我的人相信这就是我本人。

（来源：SYNTHESIA）

在对最新一代生成式人工智能进行为期一年的开发和调整后，Synthesia 成功创建了非常逼真的人工智能虚拟化身。考虑到这项技术的发展方向，这件事令人感到既兴奋、又畏惧。

我们可能很快就难以区分什么是真实的、什么不是真实的。鉴于 2024 年全球许多国家和地区都将迎来领导人大选，这将是一个特别严重的威胁。

我们还没有为即将到来的事情做好准备。如果人们开始质疑他们看到的一切内容，就可能会完全不相信任何东西。

这可能会让恶意者利用这种信任缺失，破坏真实内容的真实性，让它们不再可信。研究人员称之为“骗子的红利”。

研究人员警告说，政客们可能会声称真正的犯罪信息是虚假的，或者是使用人工智能创建的。

但还有一个大问题：一旦我们将数据交给人工智能公司，它们会对我们的数据做什么？

Synthesia 表示，它不出售从演员和从客户那里收集的数据，尽管它确实出于学术研究目的发布了一些数据。

该公司将获得三年的虚拟化身使用权，届时演员会被问及是否愿意续约。如果愿意的话，他们会到工作室制作一个新的化身。否则，将会删除他们的数据。

但其他公司对自己的意图并不那么透明。正如我们在 2023 年报道的那样，Meta 等公司可以随心所欲地使用演员的数据，包括他们的脸和表情。

公司只需向演员支付少量的前期费用，但他们的肖像可以在他们不知情的情况下永久用于训练人工智能模型。

瑞典乌普萨拉大学助理教授卡尔·奥曼（Carl Öhman）研究了去世的人在互联网上留下的数据会被如何处理，并著有新书《数据的身后事》。

他表示，即使数据合同是透明的，但如果你死了，它们将不再适用。

我们放在社交媒体平台或人工智能模型中的数据最终可能会使那些公司受益，并在我们去世后长期存在。

奥曼说：“预计在未来几十年内，脸书将拥有几十亿份去世用户的个人资料。”他补充道：“它们在商业上没有价值。死人不会点击任何广告，他们的数据还会占用服务器空间。”

但这些数据可以用于训练新的人工智能模型，或者对这些已故用户的后代进行推理。整个数据和人工智能许可模式都假设数据主体和公司都将永远存在。

我们的数据是热门商品。人工智能语言模型是通过大规模抓取互联网内容来训练的，其中也包括我们的个人数据。

几年前，我进行了测试，看看 GPT-3 是否有关于我的信息（GPT-3 的升级版模型驱动了 ChatGPT）。

这个过程并不容易，但我发现我能够检索到《麻省理工科技评论》主编马特·霍南（Mat Honan）的个人信息。

人类编写的高质量数据，对于训练下一代强大的人工智能模型至关重要，我们现在即将耗尽免费的网络训练数据。

这就是为什么人工智能公司正竞相与新闻机构和出版商达成协议，以访问它们的数据宝库。

事实上，旧的社交媒体网站也是一座潜在的金矿：当公司倒闭或平台不再受欢迎时，它们的资产包括用户的数据就会被卖给出价最高的人。

“自 MySpace 崩溃以来，它上面的数据已经被买卖了很多次。类似的事情很可能发生在 Synthesia、X 或 TikTok 上。”奥曼说。

有些人可能不太关心他们的数据会被用来做什么。但是，确保对于高质量数据的独家访问权，有助于巩固大公司的垄断地位，而这对我们所有人都是有害的。

因此，整个社会需要一同努力解决这一问题。

Synthesia 表示，在我的尝试结束后，它将删除我的虚拟化身，但整个经历确实让我想起了脸书和其他社交媒体平台上困扰我的那些尴尬照片和帖子。我认为是时候清理一下了。

作者简介：梅丽莎·海基莱（Melissa Heikkilä）是《麻省理工科技评论》的资深记者，她着重报道人工智能及其如何改变我们的社会。此前，她曾在 POLITICO 撰写有关人工智能政策和政治的文章。她还曾在《经济学人》工作，并曾担任新闻主播。

支持：Ren

排版：希幔

发布于：北京