今天 Google 官方博客发表文章表示 Google 索引的网页已经超过了1万亿(1,000,000,000,000).
我们一直都知道互联网上的信息是巨大的. 1998年 Google 首次索引的网页有2600万, 2000年的时候 Google 索引的网页达到了10亿.在过去的8年里,我们看到了很多关于互联网有多巨大的数据.最近, Google 搜索工程师发现了一个惊人的数字 – 我们的搜索系统发现了互联网的内容达到了一个新的数字里程碑:在互联网上有一万亿(也就是1,000,000,000,000)个独立 URL!
那么 Google 是如何发现这些网页的呢? 最初的时候 Google 收集了一些很有联系的网页,然后通过这些网页上的链接发现了新的网页.然后通过新网页的链接找到其他网页,依次类推,于是 Google 便收录了巨大数量的链接列表.事实上, Google 发现的独立链接要多余一万亿,但有些事指向同一个独立网页的.很多网页都有多个链接,或者有些链接能自动生成自己的拷贝.但是就算把这些完全相同的链接去除,我们还是能看到一万亿个独立 URL.并且我们每天都能看到有数十亿个新网页的诞生.
那互联网上到底有多少个网页呢? Google 也不知道, Google 也没时间一一去查看.严格的说,网页的数量是无穷的 – 比如在网络日历中,基本上都有一个"明天"的链接,那个链接可以一直被点击下去,每次都会有一个新网页.当然, Google 并没有那样做,因为那对用户来说没有什么好处.但这是一个很好的例子来告诉人们,到底有多少网页很大程度上取决于你对什么是有用的网页的定义.
Google 并没有索引这一万亿个网页中的每一个 – 因为这其中很多都是非常相似的,或者和上面提到的日历相似的有自动生成的内容,对用户没什么帮助.但是 Google 很骄傲的说他们在所有搜索引擎中,搜录的网页索引是最多的,而 Google 的目的就是索引世界上所有的数据.
为了保持索引这些大量的信息, Google 的系统从首次搜索开始已经走过了很长的路.那个时候, Google 分批的处理这些东西: 一个工作站来计算2600个网页的 PageRank, 而那一套网页将在一定的时间内成为 Google 索引的网页.
现在, Google 已经是不间断的下载网页了,不间断的收集网页信息并且每天都会重新过好几遍所有的网页链接图表.一万亿个 URL 的图表和有一万亿个交叉点的地图类似,所以在每天多次的索引中, Google 会完整的探索美国的每个交叉路口,当然,这幅地图要比美国地图大上5万倍,他其中的道路和交叉点也比美国地图上要多5万倍.
所以你可以看到, Google 创建的基础设施能使程序很有效的在有一万亿个链接点的链接图表里穿行,或者把信息进行分类. 而所有 Google 所作的这些,都是为了用户的下一次 Google 搜索.

Recent Comments