互联网事业的一个样本
无虑 / 2019-09-04
统计学里有个名词叫做样本,是指用于研究调查的部分个体,所有样本的和便是总体。从字面上来讲,样本的出处应该是清代顾炎武写的《与李良年书》:“顷者,《日知録》已刻成样本,特寄上一部。”顾炎武在这里样本是指刻成样品的书。
在互联网世界里,我们早就成为某个研究的样本了。
在联网的手机软件中点击一个按钮,就会向软件服务器发送一条命令,服务器便留下一条记录。这样,就产生了一条条数据,这些数据随着点击的人数、次数增多而累积,等到一定数量级后,便成了“大数据”。当然,这些数据不一定都是点击产生的命令,也可以是用户上传的文字、图片、语音、视频等,所有的汇聚到一起,就是用户特征和用户习惯。拥有了这些数据后,就可以通过一些相关性算法,描绘出用户画像,实现精准用途。比如网易云音乐的每日推荐,是在了解你的听歌习惯后,每天给你喂食相似度最高的歌单。比如微信朋友圈广告,是你在腾讯系软件留下信息后,结合你的地理坐标等,给你精准投递商家信息。比如百度谷歌的广告联盟,是在收集你的搜索关键词后,给你浏览的页面植入最想看到的广告。
当然,以上只是初级用途,更高级的算法,会利用这些数据做更深层次的分析。比如,美国大选时剑桥分析根据脸书用户的使用数据来分析其性格特征,预测投票倾向,设计推送影响其投票的网页,达成对选举的操控。
近期,AI 换脸技术在朋友圈火了,ZAO 被暴露出泄露用户隐私的霸王条款,其实网络世界里的隐私早已经不属于自己了,所有用户的数据构成了被分析的总体,你只是其中的一个样本。
如何避免成为其中被分析的样本?我想没有办法,在网络世界里,没有人固若金汤。