Daily Archives: October 31, 2008

Google 更新对扫描文档的收录

据 Google 官方博客报道, Google 已经能够收录并索引 PDF 文档,而且现在已经能把一些 PDF 文档转化成 HTML 形式来便于搜索和阅读.

扫描机是一件很神奇的东西.每天全球都有很多人在互联网上发布扫描后的文档 – 从政府报告到学术论文,各种文档都有.这写文档通常都有文字图片,当然,扫描以后的文字已经不是普通意义上的文字了.但是这些被扫描进电脑传播到互联网上的信息都有一个共同的特点,那就是这些文档都很重要,值得和全世界分享.

过去,扫描的文件很少能被搜索引擎收录,因为搜索引擎很难确定这个文档是关于什么的.有时候搜索引擎能在其他关于这个文档的地方了解到一些这个文档的内容 – 所以你有时候可能会看到搜索结果里有扫描的文档,但是你搜索的关键词不会有高亮显示.今天,这一切都将改变.

Google 现在已经能使用 OCR (Optical Character Recognition 光学文字识别)技术在任何以 Adobe PDF 格式保存的扫描文档中索引了. 改技术能使 Google 把一张(由一千个单词组成的)图片转换为一千个字 – 这些文字然后就能被搜索和收录,从而那些有价值的文档也都可以被轻易的找到了.这是 Google 实现自己方便人们搜索世界上所有信息这个目标的一小步,但也是非常重要的一步.

要知道分辨这些被扫描的文档对电脑来说是很难的.扫描其实是印刷的相反过程,印刷把电子文字变成纸上的文字(类似于一张图片),而扫描则是把纸上的东西变成一张数字话的图片,这样你才能在电脑里看到它,并且把它保存在电脑里.图片上的文字和原本数字化的文字是很难不一样的 – 这是一幅都是文字的画,有时候你还能看到有咖啡杯底的印记,有墨水模糊的地方甚至可能还有被折过角的印子.

人们阅读这些文字图片和阅读数字文字几乎没什么区别,但是这对电脑来说却很难.拿一个圈作比方吧,这是一个零,还是”O”,或者就是一个圈,还是咖啡杯底的印记呢?人们能很简单的识别出这到底是什么,但电脑处理这样的情况就会非常困难.

如果你想了解 Google 的这项功能,你可以点击下面几个搜索链接.注意除了基本是搜索结果之外,你还能以 HTML 形式查看文档(View as HTML).

[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]
Photobucket

用 Google Earth 畅游香港迪斯尼

据 Google 黑板报报道,现在打开 Google Earth 在搜索框中输入“香港迪斯尼”或者“HongKong Disney Park”,你就能看到香港离岛大屿山竹篙湾一角的迪斯尼乐园和度假区了.

在 Google Earth 中的香港迪斯尼乐园,你可以看到游览者在 Google Earth 里上传的照片、博客以及评论.这些游客留下的信息给你展示了迪斯尼乐园里令人印象深刻的美丽和创意,你可以观看白天和夜晚 不同情调的迪斯尼乐园的风景,可以与全球千万网民一起参与评论,可以看到乐园里熙熙攘攘的人群.你不必亲身前往,在 Google Earth 中就可以领略迪斯尼的风情.

另外,你还可以在 Google Earth 中游览3D的迪斯尼世界.首先确保你开启3D图层,然后开启迪斯尼图层: Gallery->Travel and Tourism->Walt Disney World. 在 Google Earth 的搜索框中搜索 “Disney World”, 回车,你的3D迪斯尼世界之旅就开始了.

以下是在 Google Earth 中看到的香港迪士尼世界图片:

香港迪斯尼乐园门口的米老鼠和喷泉
Photobucket

香港迪斯尼乐园焰火晚会通常在睡美人城堡举行
Photobucket