首页科技快讯新科技快速指南系列之“个人数据收集”：历史、现在与未来

新科技快速指南系列之“个人数据收集”：历史、现在与未来

来源：晰数塔互联网快讯时间：2019年03月07日 12:08

编者按：《连线》杂志发表了一系列文章来介绍最新的技术与网络文化。本文是个人数据篇，作者为Louise Matsakis。

在互联网上，用户免费提供的个人数据变成了一种珍贵的商品。人们把小狗的照片上传到训练机器上，让它们变得更聪明。

他们问谷歌的问题揭示了人类最深层次的偏见。他们的位置历史信息，告诉投资者哪家店吸引了最多的购物者。

即使是看似正常的活动，比如呆在家里看电影，也会产生大量的信息，这些信息会被各种各样的企业挖掘出来，抢走。

个人数据经常被比作石油，它为当今最赚钱的公司提供动力，就像化石燃料给过去的公司注入能量一样。

但是，被提取信息的消费者，通常不知道这些公司收集了多少信息，哪些公司可以查看这些信息，以及这些信息的价值。

每天，数百家你可能不知道的公司在收集关于你的事实，有些公司收集的数据比其他公司更深入。

这些信息可能会流向学术研究人员、黑客、执法人员和外国，以及许多试图向你出售东西的公司。

什么是“个人数据”？

互联网看起来像是一场隐私噩梦，但从中惊醒后，不要把你的智能手机扔出窗外。

“个人数据”是一个相当模糊的概括术语，它有助于解释它到底意味着什么。

健康记录、社会保险号码/身份证号码和银行详细信息构成了在线存储的最敏感信息。

你在社交媒体上的帖子、位置数据和搜索引擎上的查询，也可能会透露你的信息，通常也会以某种方式变成商品。

其他类型的数据收集属于不同的类别，这可能会让你感到惊讶。你知道一些公司正在分析你用智能手机的独特方式吗？

所有这些信息都是在广泛的同意范围内收集的：有时数据是在知情的情况下被收集的，而在其他情况下，用户可能根本不理解他们放弃了什么东西。

很明显，有些东西正在被各个公司收集，但是细节被隐藏起来了，或者隐藏在难以解析的服务条款协议中。

想想当有人给23andme送一小瓶唾液时会发生什么。这个人知道，他正在和一家基因技术公司分享他的DNA数据，但是他可能没有意识到它会被转售给制药公司。

许多应用程序使用你的位置来提供定制广告，但是你不一定清楚对冲基金也可能会购买位置数据，来分析你经常光顾的零售店。

任何在网上看到相同鞋子广告的人都知道他们正在被跟踪，但是很少有人知道，公司可能不仅记录了他们的点击量，还记录了他们鼠标准确的移动轨迹。

在每个场景中，用户都会收到一些东西，作为允许公司将他们的数据货币化的回报。他们可以了解自己的基因血统，使用移动应用程序，或者在电脑上浏览最新的鞋类潮流。

这与Facebook和谷歌提供的便利是一样的。他们的核心产品，包括 Instagram、 Messenger、 Gmail 和谷歌地图，都不需要花钱。你用你的个人数据付费，这些数据被用来投放广告。

谁在购买、出售和交换我们的个人数据？

在提供数据和获得服务之间做权衡可能值得，也可能不值得。但是有一种业务，在没有给你任何东西的情况下手机、分析和出售你的信息：数据中介。

这些公司从公开来源收集信息，如财产记录、结婚证和法院案例。他们还可能收集你的病历、浏览历史、社交媒体联系人和网上购物记录。

根据你住的地方，数据中介甚至可以从车辆管理单位购买你的信息。没有驾照？零售店也向数据中介出售你的信息。

中介收集的信息数据可能不准确或者是过时的。尽管如此，它对公司、市场营销人员、投资者和个人来说仍然具有难以置信的价值。

事实上，据互动广告局（Interactive Advertising Bureau）统计，仅美国公司在2018年就花费了超过190亿美元来获取和分析消费者数据。

数据中介也是数据的滥用者。由于数据中介的存在，未经某人同意公开其个人信息的做法往往成为可能。

虽然你可以相对容易地删除你的Facebook账户，但让这些公司删除你的信息是耗时、复杂的，有时甚至是不可能的。事实上，这个过程是非常繁重，以至于你需要自己掏钱来做。

像这样收集和出售你的数据是完全合法的。尽管包括加利福尼亚州和佛蒙特州在内的一些州，最近采取行动，对数据中介施加了更多限制，但他们在很大程度上仍不受监管。

《公平信用报告法》（Fair Credit Reporting Act）规定了如何使用为信用、就业和保险原因收集的信息，但是一些数据经纪人被发现规避了法律。

2012年，“person lookup”网站被指控，它为工作背景调查等目的宣传产品违反了联邦贸易法。他们的发言人，以80万美元的价格与联邦贸易委员会达成和解。

而那些把自己推销得更像电子电话簿的数据中介，从一开始就不必遵守这些规定。

此外，几乎没有法律规定社交媒体公司如何收集用户数据。在美国，没有现代化的联邦隐私法规，在许多情况下，政府甚至可以在没有搜查令的情况下合法要求公司提供其持有的数字数据。

好消息是，你在网上分享的信息确实有助于丰富全球有用知识的储存：来自多个学科的研究人员研究社交媒体帖子和其他用户生成的数据，以了解更多关于人类的信息。

在《人人都在撒谎: 大数据、新数据和互联网能告诉我们的关于我们到底是谁》（Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are）一书中。

作者塞斯·斯蒂芬斯-戴维多维茨（Seth Stephens-Davidowitz）认为，在很多情况下，人们对谷歌这样的网站比对传统调查表现得更加诚实。

例如，他说，只有不到20%的人在调查中承认自己看过色情片，但在谷歌上搜索“色情片”的次数比搜索“天气”的次数还要多。

人工智能研究人员也使用个人数据来训练他们的自动化程序。

每天，全球各地的用户都向YouTube、Facebook、Instagram和Twitter等网站上传数十亿张照片、视频、文本帖子和音频剪辑。

然后，这些媒体内容被输入到机器学习算法中，这样它们就可以学会“看到”照片中的内容，或者自动判断帖子是否违反了Facebook的仇恨言论政策。

你的自拍确实会让机器人变得更聪明。恭喜你。

个人数据收集的历史

几千年来，人类一直使用技术设备来收集和处理关于这个世界的数据。

希腊科学家发明了“第一台计算机”，这是一种复杂的齿轮系统，称为Antikythera机器，它可以追溯到公元前150年。

两千年后，19世纪80年代末，赫尔曼·霍尔瑞斯（Herman Hollerith）发明了制表机，一种可以帮助处理1890年美国人口普查数据的穿孔卡片装置。

霍尔瑞斯创建了一家公司来推销他的发明，后来这家公司并入了现在的 IBM。

到20世纪60年代，美国政府使用功能强大的大型计算机，来存储和处理几乎每个美国人的大量数据。

公司还使用这些机器来分析敏感信息，包括消费者的购买习惯。没有法律规定它们可以收集什么样的数据。

对过度监控的担忧很快就出现了，尤其是在万斯·帕卡德1964年出版《裸体社会》（Naked Society）一书之后，这本书认为技术变革导致了对隐私前所未有的侵蚀。

第二年，林登·约翰逊（Lyndon Johnson）总统的政府提议，将数百个联邦数据库合并成一个中央国家数据库。国会担心可能会受到监视，因此推迟并组织了一个隐私侵犯问题的特别小组委员会。

《纽约时报》当时报道称，立法者担心数据库会“汇集数百万美国人的统计数据”，可能会“侵犯他们的秘密生活”。这个项目从未实现。

相反，国会通过了一系列关于个人数据使用的法律，包括1970年的《公平信用报告法》和1974年的《隐私法》（Privacy Act）。

科技历史学家玛格丽特·奥马拉（Margaret O’Mara）认为，这些法规要求透明话，但并没有阻止政府和公司从一开始就收集信息。

20世纪60年代末，一些学者，包括麻省理工学院政治学家伊蒂尔·德索拉·普尔（Ithiel de Sola Pool），预测新的计算机技术将继续带来更具侵略性的个人数据收集。

上世纪90年代中期，当许多美国人开始使用互联网时，他们所设想的现实开始成形。

到大多数人上网的时候，关于数字数据中介的第一场隐私之战已经打响。

1990年，Lotus Corporation 和信用局 Equifax 联手创建了“Lotus MarketPlace: Households”，这是一个 CD-ROM 营销产品，其广告中包含了超过1.2亿美国人的姓名、收入范围、地址和其他信息。

这很快在Usenet等数字论坛上的隐私倡导者中引起了的轩然大波。超过30000人联系 Lotus 要求退出数据库。在最终发行之前，产品就被取消了。

但是这个丑闻并没有阻止其他公司在未来创造大量关于消费者的信息数据集。

几年后，广告开始渗透到网络中。起初，在线广告基本上是匿名的。如果你搜索冬季运动项目，你可能会看到滑雪广告，但网站无法将它与你的真实身份联系起来。

然后，1999年，数字广告巨头DoubleClick公司试图通过与庞大的数据中介公司Abacus Direct合并来去除广告的匿名性，从而引发了一场隐私丑闻。

隐私保护组织认为，DoubleClick可以利用数据中介收集的个人信息，来投放基于人们真实姓名的广告。

他们向联邦贸易委员会请愿，声称这种做法等同于非法追踪。

结果，DoubleClick在2006年亏本出售了这家公司，并创建了网络广告倡议组织，这是一个为在线广告制定标准的行业组织，其中包括要求公司在收集用户个人数据时通知用户。

但是隐私倡导者的担忧最终实现了。2008年，谷歌正式收购了DoubleClick，2016年，谷歌修改了隐私政策，允许个人识别的网络跟踪。

在此之前，谷歌一直将 DoubleClick 的浏览数据与从 Gmail 等服务中收集的个人信息分开。

如今，谷歌和Facebook可以根据你的名字来投放广告，这正是人们20年前担心DoubleClick会做的事情。

还不止这些：因为大多数人口袋里都装着智能手机形式的跟踪设备，所以，无论我们到任何地方，这些公司和其他许多公司都可以跟踪我们。

个人数据收集的未来

当人们使用电脑和智能手机时，个人信息目前主要通过屏幕被收集的。未来几年，随着新的数据密集型设备被广泛采用，如智能音箱和可穿戴健康监视器。

即使是那些不使用这些设备的人，他们的数据，也可能会被安装在街角的面部识别监控摄像机收集走。从许多方面来说，这一未来已经开始。

泰勒·斯威夫特（Taylor Swift）粉丝的面部数据，就已经被收集了，亚马逊Echos正在监听数百万家庭。

然而，我们还没有决定如何驾驭这个充满数据的新现实。

是否应该允许大学对青少年申请者进行数字化追踪？我们真的希望医疗保险公司监控我们的Instagram帖子吗？政府、艺术家、学者和公民将会考虑这些问题以及更多的问题。

随着科学家突破人工智能的边界，我们还需要学会理解不是真实的个人数据，至少不是来自人类的数据。例如，算法已经在生成“假”数据，以供其他算法训练。

所谓的deepfake技术，允许宣传人员和骗子利用社交媒体的照片制作视频，描述从未发生过的事件。

人工智能现在可以创造数百万张不属于任何人的合成面孔，改变被盗身份的含义。这种欺诈数据可能会进一步扭曲社交媒体和互联网上的其他部分。

想象一下，你要试图分辨一个 Tinder 匹配对象或者你在 Instagram 上关注的人是否真的存在。

无论数据是由计算机制造的还是由真实的人创造的，最大的问题之一将是如何分析数据。

重要的不仅仅是收集什么信息，还包括根据这些信息做出什么推断和预测。

算法使用个人数据来做出非常重要的决定，比如某人应该维持他们的医疗福利，或者是否应该保释。

这些决定很容易有偏见，研究人员和谷歌这样的公司现在正在努力使算法更加透明和公平。

科技公司也开始承认，个人数据收集需要受到监管。

微软呼吁联邦政府对面部识别进行监管，而苹果首席执行官蒂姆·库克（Tim Cook）则认为，联邦贸易委员会应该介入，并建立一个所有数据中介都需要注册的交易中心。

但并不是所有的大科技公司的声明都是真诚的。 2018年夏天，加利福尼亚州通过了一项严格的隐私法，这个法规将于2020年1月1日生效，除非联邦法律取而代之。

像亚马逊、苹果、 Facebook 和谷歌这样的公司正在推动国会在加州法律生效之前，在2019年通过新的、不那么严格的隐私立法。

即使在一个分裂的国会，议员们也可以围绕隐私问题达成一致，对大科技公司进行审查已经成为双方的一个重要问题。

一些公司和研究人员认为，政府仅仅保护个人数据是不够的。

消费者需要拥有自己的信息，并在使用时得到补偿。像 Minds 和 Steemit 这样的社交网络，已经尝试用加密货币奖励用户分享内容或花时间使用他们的平台。

其他公司会付钱给你，以换取你与他们共享数据，例如，你的银行交易流水。

但是允许人们收回所有权可能不会解决个人数据收集带来的所有隐私问题。

这也可能是一种错误的表述方式：相反，也许首先应该允许更少的收据收集行为，迫使公司完全放弃定向广告的商业模式。

在我们能够确定个人数据收集的未来之前，我们需要更多地了解它的现状。

近年来曝光的一连串隐私丑闻，从剑桥分析到谷歌可疑的定位跟踪行为，表明用户仍然不知道他们的信息被出售、交易和分享的所有方式。

除非消费者真正了解他们无意中成为其中一部分的生态系统，否则我们将无法从一开始就应对这个问题。

One more thing：追踪者跟踪你的方法

在线追踪器可以分为两大类:同一个站点和跨站点。前者大多是良性的，而后者更具侵略性。

传统cookies

Facebook、谷歌和其他公司使用这些非常流行的跨站点跟踪器，跟踪用户从一个网站到另一个网站。它们的工作方式是将一段代码存入浏览器，然后用户在网上冲浪时会无意中携带这段代码。

超级cookies

从你的浏览器中清除超级cookies是很困难的，甚至是不可能的。其中最著名的是Verizon，由于这种做法，这家公司不得不向FCC支付135万美元的罚款。

Fingerprinters

这些跨站点跟踪器，通过为用户的设备创建一个独特的配置文件来跟踪用户。它们收集用户的IP 地址、屏幕分辨率以及他们使用的电脑型号等信息。

身份追踪器

这些罕见的跟踪器不是使用cookie，而是使用谷歌的个人身份信息跟踪用户，比如他们的电子邮件地址。它们隐藏在用户输入凭证的登录页面上来收集这些数据。

会话cookies

有些追踪器很不错！这些有用的同站脚本，可以在你登录网站的时候记住购物车里的东西，即使你关闭了浏览器窗口也能记住。

会话重拨脚本

一些同一站点的脚本，可能具有难以置信的侵入性。这些记录你在网站上所做的一切，比如你点击了哪些产品，有时甚至是你输入的密码。

原文链接：https://www.wired.com/story/wired-guide-personal-data-collection/

拓展阅读：

《连线》：改变世界的热门技术，历史、现在与未来

编译组出品。编辑：郝鹏程