Google 发布页面实时展示垃圾过滤过程

2013-03-11 13:28


  Google 的用户众多,为了让用户更好的利用其搜索引擎,之前也不止一次的通过宣讲、博客等形式告诉人们搜索引擎的工作原理,但这次还是 Google 第一次以直观的形式向人们展示他们的搜索引擎是如何工作的。

  Google 发布了一个新的页面,展示搜索引擎从抓取&索引、实施排名算法、过滤垃圾的整个过程,并且关于垃圾过滤的这个过程是采用的实时数据。

  用数字说话:Google 抓取和追踪数亿网页,并用超过200种算法和规则给每一个页面计算排名。当你在 Google 搜索框输入字符,这些字符将沿着网络干线以接近光的速度来传播,甚至在你按下回车键之前就能看到搜索结果,通常这个过程只需要十分之一秒的时间。到目前为 止, Google 已经处理过 4500 亿次不同的搜索。

  在网络上,每天,数百万的无价值的页面被创建,Google 把他们当做垃圾处理,这些网站长期以来一直试图欺骗 Google,想让 Google 认为他们是合法网站,这些网站通常使用的类似隐藏(对搜索引擎显示跟对用户显示的不同的内容)的方法想蒙混过关。谷歌拥有自动化的公式来找到这些网页,并 有一个团队专门审查可疑的网页。你可以看到在过去的30分钟左右,谷歌已经删除的页面。

https://img.linux.net.cn/data/attachment/album/201303/11/105940xrgosmohrxs4496h.jpg

  Google 提供了一些有用的搜索建议和技巧,并告诉人们不用担心大小写和单词拼写错误,即使输入拼写错误的单词,搜索引擎也能够很好的理解用户的真正搜索意图。

  想要更加精确的搜索,可以在搜索框输入(网站名:搜索词)类似 “wikipedia:google” 的内容,这样可以精确到只在维基百科中寻找相关内容。

来自:http://our4.org/blog/11