互联网事业的一个样本

无虑 / 2019-09-04

统计学里有个名词叫做样本，是指用于研究调查的部分个体，所有样本的和便是总体。从字面上来讲，样本的出处应该是清代顾炎武写的《与李良年书》：“顷者，《日知録》已刻成样本，特寄上一部。”顾炎武在这里样本是指刻成样品的书。

在互联网世界里，我们早就成为某个研究的样本了。

在联网的手机软件中点击一个按钮，就会向软件服务器发送一条命令，服务器便留下一条记录。这样，就产生了一条条数据，这些数据随着点击的人数、次数增多而累积，等到一定数量级后，便成了“大数据”。当然，这些数据不一定都是点击产生的命令，也可以是用户上传的文字、图片、语音、视频等，所有的汇聚到一起，就是用户特征和用户习惯。拥有了这些数据后，就可以通过一些相关性算法，描绘出用户画像，实现精准用途。比如网易云音乐的每日推荐，是在了解你的听歌习惯后，每天给你喂食相似度最高的歌单。比如微信朋友圈广告，是你在腾讯系软件留下信息后，结合你的地理坐标等，给你精准投递商家信息。比如百度谷歌的广告联盟，是在收集你的搜索关键词后，给你浏览的页面植入最想看到的广告。

当然，以上只是初级用途，更高级的算法，会利用这些数据做更深层次的分析。比如，美国大选时剑桥分析根据脸书用户的使用数据来分析其性格特征，预测投票倾向，设计推送影响其投票的网页，达成对选举的操控。

近期，AI 换脸技术在朋友圈火了，ZAO 被暴露出泄露用户隐私的霸王条款，其实网络世界里的隐私早已经不属于自己了，所有用户的数据构成了被分析的总体，你只是其中的一个样本。

如何避免成为其中被分析的样本？我想没有办法，在网络世界里，没有人固若金汤。