Monthly Archives: October 2008

Google 更新对扫描文档的收录

据 Google 官方博客报道, Google 已经能够收录并索引 PDF 文档,而且现在已经能把一些 PDF 文档转化成 HTML 形式来便于搜索和阅读.

扫描机是一件很神奇的东西.每天全球都有很多人在互联网上发布扫描后的文档 – 从政府报告到学术论文,各种文档都有.这写文档通常都有文字图片,当然,扫描以后的文字已经不是普通意义上的文字了.但是这些被扫描进电脑传播到互联网上的信息都有一个共同的特点,那就是这些文档都很重要,值得和全世界分享.

过去,扫描的文件很少能被搜索引擎收录,因为搜索引擎很难确定这个文档是关于什么的.有时候搜索引擎能在其他关于这个文档的地方了解到一些这个文档的内容 – 所以你有时候可能会看到搜索结果里有扫描的文档,但是你搜索的关键词不会有高亮显示.今天,这一切都将改变.

Google 现在已经能使用 OCR (Optical Character Recognition 光学文字识别)技术在任何以 Adobe PDF 格式保存的扫描文档中索引了. 改技术能使 Google 把一张(由一千个单词组成的)图片转换为一千个字 – 这些文字然后就能被搜索和收录,从而那些有价值的文档也都可以被轻易的找到了.这是 Google 实现自己方便人们搜索世界上所有信息这个目标的一小步,但也是非常重要的一步.

要知道分辨这些被扫描的文档对电脑来说是很难的.扫描其实是印刷的相反过程,印刷把电子文字变成纸上的文字(类似于一张图片),而扫描则是把纸上的东西变成一张数字话的图片,这样你才能在电脑里看到它,并且把它保存在电脑里.图片上的文字和原本数字化的文字是很难不一样的 – 这是一幅都是文字的画,有时候你还能看到有咖啡杯底的印记,有墨水模糊的地方甚至可能还有被折过角的印子.

人们阅读这些文字图片和阅读数字文字几乎没什么区别,但是这对电脑来说却很难.拿一个圈作比方吧,这是一个零,还是”O”,或者就是一个圈,还是咖啡杯底的印记呢?人们能很简单的识别出这到底是什么,但电脑处理这样的情况就会非常困难.

如果你想了解 Google 的这项功能,你可以点击下面几个搜索链接.注意除了基本是搜索结果之外,你还能以 HTML 形式查看文档(View as HTML).

[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]
Photobucket

用 Google Earth 畅游香港迪斯尼

据 Google 黑板报报道,现在打开 Google Earth 在搜索框中输入“香港迪斯尼”或者“HongKong Disney Park”,你就能看到香港离岛大屿山竹篙湾一角的迪斯尼乐园和度假区了.

在 Google Earth 中的香港迪斯尼乐园,你可以看到游览者在 Google Earth 里上传的照片、博客以及评论.这些游客留下的信息给你展示了迪斯尼乐园里令人印象深刻的美丽和创意,你可以观看白天和夜晚 不同情调的迪斯尼乐园的风景,可以与全球千万网民一起参与评论,可以看到乐园里熙熙攘攘的人群.你不必亲身前往,在 Google Earth 中就可以领略迪斯尼的风情.

另外,你还可以在 Google Earth 中游览3D的迪斯尼世界.首先确保你开启3D图层,然后开启迪斯尼图层: Gallery->Travel and Tourism->Walt Disney World. 在 Google Earth 的搜索框中搜索 “Disney World”, 回车,你的3D迪斯尼世界之旅就开始了.

以下是在 Google Earth 中看到的香港迪士尼世界图片:

香港迪斯尼乐园门口的米老鼠和喷泉
Photobucket

香港迪斯尼乐园焰火晚会通常在睡美人城堡举行
Photobucket

Google Knol 新增三种语言支持

据 TechCrunch 报道, Google Knol 今天新增了三种语言支持,分别是法语,德语和意大利语. Google Knol 从今年6月份发布时仅支持英语到现在已经增加了对其他7种语言的支持,另外四种分别是阿拉伯语,日语,韩语和葡萄牙语.
Photobucket

Google Knol 从发布到现在似乎都不能算太成功,并且经常有人会发现没有完成的文章或者干脆是错误的内容.但是 Knol 发布也仅仅4个月,对于需要大量内容的百科式服务来说,它还需要更多时间来进一步丰富内容.

进入其他国家的市场也许能给 Google Knol 更多冲击力也增加在 Knol 上的专家文章.其他类似服务比如 Helium, Squidoo, WikiHowAssociated Content 都还没有国际版,所以在这方面 Google 算是走在了前头.

Google/Gmail 帐号成为 OpenID 帐号

先介绍一下什么是 OpenID, 简言之,就是你注册一个帐号可以在多个网站使用.如果你已经有 Yahoo 的帐号,那你就已经有了 OpenID 的帐号.详细介绍请查看百度百科或者 Wikipedia(EN).目前支持 OpenID 的网站除了 Yahoo 还有 AOL 和 MySpace 等.

据 Google 官方博客报道,九月份的时候 Google 宣布一项研究,并且和 OpenID 社区一起来评估用联盟帐号登录(federated login)的用户体验.其他公司比如 Yahoo 也发布了类似用户研究.

今天, Google 开始为 OpenID 提供商提供有一定限制的 API. 一些网站可以使用 OpenID 协议允许用户使用 Google 帐号登录. Google 希望能够继续在技术和用户体验方面改进 OpenID, 同时 Google 也希望能有更多的网站支持联盟登录.

Zoho 是支持 OpenID 的网站之一.拥有 Google 帐号/Gmail 帐号的用户可以使用 Google 帐号登录 Zoho 而不需要另外创建用户名和密码.

最初的这个 API 版本会使用 OpenID 2.0 协议来允许网站验证 Google 帐号.下面是一个使用 Google 帐号登录某个支持 OpenID 的网站的例子:

这个网站可以使用一个像下面这个一样修改过的登录框来.如果一个用户输入了他的 Gmail 地址并且表示他没有这个网站的密码,然后这个网站就会把用户重新定向到 Google.
Photobucket

该用户会在 Google 的网站上确认是否想要登录 KidMallPics 这个网站.
Photobucket

如果他确认网站正确,并且选择继续登录,他就会被定向回 KidMallPics 并且自动完成登录.
Photobucket

TechCrunch 有文章表示,目前尚不清楚 Google 加入 OpenID 之后是否会允许用户使用其他帐号来使用 Google 的服务.看起来 Google 更像是 OpenID 的提供者(Provider)而不是依靠者(Relying Party).比如你就无法用 Yahoo 的帐号登录 Google. 但 Google 的这一行动对推动 OpenID 的发展是由好处的,比如这可以吸引更多较小的网站加入 OpenID.

更多关于这个新的 API 的信息可以在 Google Code 的 Open ID 页面上看到.想要加入有限的实验版请访问 Google Federated Login 的 Google Group 小组,并且使用这个在线表格进行注册.

Google Street View 进入意大利

据 Google Earth Blog 报道,继前几天进入西班牙后,今天 Google Street View 又进入了意大利.在能看到 Google Street View 的意大利城市有米兰,佛罗伦萨,罗马和著名旅游景点科莫湖(Lake Como).

下面是 Google Street View 中的罗马竞技场,你也可以拖动进行查看:

View Larger Map 看不到请点击

如果你想看到3D的建筑,请参考这篇文章.