别误会,这篇是讲个人信息在网络上传播和留存相关话题的。但是不得不说,有点拷问人生的味道。

你究竟认识一个人多少呢?知道名字算认识么?知道性别,年龄,长相,工作单位,算认识么?

这么说吧,如果一个人留了足够多的信息在网络上,你就能找到他/她么?

本周末我就做了这个有趣的研究,事情从欢乐开始,结束于惆怅。

我自己认识我自己吧

当然,如果不认识自己,您需要做的事情是逆运真气修炼九阴真经,而不是在这里看博客。既然您能够正常阅读博客,我假定您对自己的了解超过对其他任何一个人,同时您也是所有人中最了解自己的。

在这个假定下,贝壳搜索了自己的真名。结果是——第一个?没办法,用真名给网易写过一篇东西,就像在身上绑了一根定位锚一样,看起来很长时间内褪不下去了。Google上大部分都是那篇文章的转载,而baidu上还命中了我的开心首页。好吧,鉴于名人效应,我忽略这篇文章所有有关的内容继续研究。

第二个实验是使用自己的网名,分别搜索baidu和google。结果两者都是全部命中,没有一篇是错误的。可见shell909090是一个罕见关键字,如果你只知道我的英文名shell就糟了,全是某个能源公司和自然生物,翻到10多页都看不到我呢。

第三个实验是联合限定,使用自己的真名加上描述关键词,我首先选用了“程序”。结果是google在第三页找到了两个命中,都是python相关的内容。而baidu翻了三页什么都没有。。。

第四个实验是联合限定,关键词用大学名。结果是baidu三页内什么都没有,google给出了我的一篇论文,还有一篇通知,是我在吉他社当副社长的时候的。如果你知道我弹过吉他,应该能发现那是有关我的信息。

结论:

  1. 仅仅搜索我本人而言,baidu只有一次比google强——他上面有开心的信息。后面两次google都给出了比baidu更加准确的关于我的信息。

  2. 如果没有网易的这篇文章,很多人不一定找的到我自己。你需要知道我的网名,或者知道我的职业,或者知道就读大学和兴趣。

  3. 个人身上的特征比想象的更少,尤其在网络上。我总不能联合我的身高体重吧,长相也没什么用处。一般只有职业,大学,公司这种特征才能有效筛选信息。

  4. 你对某人的了解在搜信息的时候多半用不到,在筛选哪条是的时候才用的上。

有没有什么别人肯定搜不到的

贝壳其实有一篇IEEE论文,是合作作者。师兄的论文,贝壳提供仿真计算代码,师兄客气,给挂了个名字。这篇论文里,署名是Zhi-Xiang Xu。我自己都是IEEE发通知才知道,别人搜的到才有鬼!

筛我妹看看

为什么搜我妹?我基本把人在网络上的信息的多少和类型分为五类。第一类是老太太型,例如我外婆。什么都没有,也不用网络,你搜的到才是怪事。第二类是潜水员型,使用网络,但是不会在网络上使用自己的真名。偶尔帐号丢了就丢了,再申请一个,记得多少朋友就加多少。第三类是网络活跃型,网络上信息很多,但是基本都是网名为基础的,真名信息找不到。第四型是真实人物型,真名信息很多,但是网络上的活动类比一/二型。最后是全面活跃型,主要是网络名人,真名网名都是一堆信息。

我妹妹是潜水员的典型代表。我跳过整个过程,简述一下结果:满地都是某个书记的言论,无论我用什么关键字搜,基本都找不到相关信息。唯一的命中就是大学里面的考试名单,一个xls文件被公开在了网上。

结论:

  1. 要完全屏蔽信息不是你说了算的,很多时候依赖于学校老师/管理员/公司HR有没有错误的把信息贴出去,尤其是word文档。这是大部分人最容易中枪的地方。
  2. 当你的名字或者关键字和某个热关键字重合的时候,你的信息就像被遮盖起来一样,很难从大量垃圾中筛出。
  3. baidu基本找不到word文档,估计是没这个能力。

老婆

本人名字和著名音乐家重合,所以死活找不到。联合大学找不到,联合单位后找到了一篇关于考试的xls文档,确实是她的。

换网名,我擦,满屏的命中,基本没几个错的,很多我都不知道。。。所以,我慢慢去看了。

里面还有她的班号,顺着还检索出了她的奖学金。各种信息满坑满谷。网络活跃型典型。

小学同学

很罕见的名字,输入后直接筛出两篇内容,google和baidu都是同时给出。一篇是该同学写给哈尔滨日报的吐槽,2005年的事情。另一篇是该同学上班后发的文,被收录了。后者有她所属部门的名字,交叉检索后能够多看到一篇文档。影响力不大,估计是内部发行。还有一次去台湾出席会议的经历。资料不是太多,典型的真实人物型啊。

以前有过暧昧的女孩子1

恩,别告诉某喵,大家懂。

跳过过程,上结果:不行,只有她考试的名单。典型的潜水员。

某个朋友

出乎贝壳的意料,直接输入姓名后,直接命中开心首页。google还命中了一场官司。从公开的文档中给出的家庭地址来看,确实就是她本人打的官司。这个算是信息的被动泄露,本人还是网络活跃型的吧。

以前曾经喜欢过的女孩子

曾经听说过此人进了中国一家很有名的网络公司当经理,一搜,果然有。不但有文字材料,还有该公司公关帐号放出的活动照片。近几年基本没怎么大变化,和当初看起来差不多。资料上发的文章,职位变迁一点不少,甚至还有一些帐号。但是没有QQ/开心之类的信息。也就是说,属于真实人物型。

好吧,看起来不错就好。这么多年,同学之间也只能说看你看起来不错就好。也许再过一段时间,标准会进一步降低为活着就好。

以前有过暧昧的女孩子2

此人信息非常奇怪。首先是真名什么资料都找不到,那么就是二/三型的。我有她的hotmail,搜索之后找到了一个论坛,上面的资料非常全,而且还找到了一个QQ号。交叉检索QQ号,发现是她当时男朋友的。在德国华人社区有发言,和她说男朋友去德国留学相一致。再检索她的网名,有大量资料。但是奇怪的是,都在某个时间点以前。具体来说,大概是2008年5月前后。之后的信息就完全消失。而她男友的帐号直到今年(2012年)一月还在活跃。结合上述来说,我有种非常不好的预感。更炸头皮的是,我检索了自己和她联系的历史记录。在同一个时间点后,我发送的所有信息都没有回应。包括msn上线状态/聊天记录,手机拜年短信等。。。

结论:

  1. 此人改名搬家,去了德国。配合她男友的记录来看,这种情况不无可能。
  2. 此人曾说过,如果要躲某人,就会彻底和自己以前的生活告别,在陌生的城市里过陌生的生活,即使见到也不会相认。我相信她是做的到这点的人。
  3. 此人已死。

好吧,按照最低标准,活着就好。

总结论

  1. 现实中大部分人都是一/二型,在网络上什么信息都找不到。之所以没有在贝壳这里体现,是因为贝壳做不到纯随机取样的条件。数据源本身是贝壳自己认识的人,大部分都是受到良好教育,能够熟练使用网络的青年。有不少甚至从事相关行业。用这些人做样本,你可以认为不存在不上网的人。
  2. 真的信息上网的人中,大部分都是网络活跃型,即使用网名会命中非常多的信息。上述例子的分析中,贝壳本人/小学同学/之前曾经喜欢过的女孩子在网络上主动留存了本名相关的资料,大约三分之一。但是上面说了,这些例子本身就是网络上留存数据的人的例子。可以粗略的得到结论,大约三分之一上网的人在网络上有真实的个人信息。
  3. 根据上条,在网上要找人,用网名比较有效。如果要被人找到,网名不要换比较有效。如果不要被找到,什么真实信息都不留,然后每隔一段时间换个帐号。
  4. 但是一半以上都会被动泄露资料(尤其是xls文件),这说明网络对个人隐私的保护非常差。除去一个公示的例子是必须公开的,其余都是莫名其妙就出现在网上的。即使只通过这些资料还原,大约有三分之一人的基本信息也会被掌握。这本来是没必要的。