假设现在这样: 1.你,你的朋友,从北京市的各地赶来长安街的邮局,向某地寄一封信,寄件人都写上你的地址。现在收件人能知道这封信其实不是你寄的吗?不知道。因为信封上会有两个印章,一个是发件邮局的印章,一个是最后送达的邮局的印章。这几封信,收件人有证据认为它们其实是从北京市的各个地方寄出的吗?不能。 2.反过来你从海淀区,朝阳区,顺义区分别寄三封信到同一个地址,寄件人地址也分别填写这三个地点的地址,收件人相同。信封,信件都打印出来,那现在收件人能证明这三封信其实都是一个人从一个地方寄出来的吗?不能。 同理,Google也不能认定某两次广告点击其实最终是在一台电脑上完成的。除非它拿出证据证明。 那么Google为什么宣称欺诈点击它都能查出来呢? 那我们假设有这样一些IP短时间内较集中地访问了广告: 222.222.222.101 222.222.222.102 222.222.222.103 222.222.222.104 222.222.222.105 222.222.222.106 222.222.222.107 … 他们全是一个网段IP,且紧挨着。google很可能认为,这是一个欺诈程序自动地运行,访问了广告。google可能通过一个学习机制,将这个作为一个案例。事实上也的确,在大部分情况下就是这样的。一个欺诈程序自动地运行,不断地连接ADSL,再关闭,因为是一个电话局申请的IP,所以IP换来换去就这么几个。但是,这只是可能,也可能是另一种情况:比如,一个企业或一个网吧拥有了这一个网段IP,然后其中一个人上了这个网站,并让其他人也上,很可能只是为了分享一段什么东西。 还有一些情况下,也可能通过机器学习都认为是欺诈。比如一段时间内访问量反常地大,且浏览器都带一个相同的User-agent字段,报告的版本号都一样,可能是因为这是欺诈程序运行了。因特网上各人的浏览器的版本不同,一个时间段内难有大量的的同版本号的,这样看来如果有大量版本号相同的浏览器访问,认定上为点击期诈也不算太错。因为这个欺诈程序每次会报不同的IP,但版本号可能忘了改。但是,有什么是不可能的呢?恰恰那一时间段 也许一批人能用同一个浏览器呢?比如,这一阵某个著名的软件加上了该网站的链接,然后大量这个带有这个软件头的用户来访问了呢? 其他一些批量的数据,也能通过机器学习,找出“80%情况下是是欺诈”的数据。但是,机器学习只是机器学习,大部分情况下是对的,并不能做为证据。不能因为80%的小姐都浓妆艳抹,就认定一个浓妆艳抹的女人是鸡呀。 事实就是这样,Google当然能“感觉”到你非常非常可能进行了点击期诈,但是他绝对没有证据。当然,如果确实是欺诈,比如是Cookie都没换就换IP多次点击广告,那Google是有铁证证明你点击欺诈的!