据 Google 官方博客报道, Google 已经能够收录并索引 PDF 文档,而且现在已经能把一些 PDF 文档转化成 HTML 形式来便于搜索和阅读.
扫描机是一件很神奇的东西.每天全球都有很多人在互联网上发布扫描后的文档 – 从政府报告到学术论文,各种文档都有.这写文档通常都有文字图片,当然,扫描以后的文字已经不是普通意义上的文字了.但是这些被扫描进电脑传播到互联网上的信息都有一个共同的特点,那就是这些文档都很重要,值得和全世界分享.
过去,扫描的文件很少能被搜索引擎收录,因为搜索引擎很难确定这个文档是关于什么的.有时候搜索引擎能在其他关于这个文档的地方了解到一些这个文档的内容 – 所以你有时候可能会看到搜索结果里有扫描的文档,但是你搜索的关键词不会有高亮显示.今天,这一切都将改变.
Google 现在已经能使用 OCR (Optical Character Recognition 光学文字识别)技术在任何以 Adobe PDF 格式保存的扫描文档中索引了. 改技术能使 Google 把一张(由一千个单词组成的)图片转换为一千个字 – 这些文字然后就能被搜索和收录,从而那些有价值的文档也都可以被轻易的找到了.这是 Google 实现自己方便人们搜索世界上所有信息这个目标的一小步,但也是非常重要的一步.
要知道分辨这些被扫描的文档对电脑来说是很难的.扫描其实是印刷的相反过程,印刷把电子文字变成纸上的文字(类似于一张图片),而扫描则是把纸上的东西变成一张数字话的图片,这样你才能在电脑里看到它,并且把它保存在电脑里.图片上的文字和原本数字化的文字是很难不一样的 – 这是一幅都是文字的画,有时候你还能看到有咖啡杯底的印记,有墨水模糊的地方甚至可能还有被折过角的印子.
人们阅读这些文字图片和阅读数字文字几乎没什么区别,但是这对电脑来说却很难.拿一个圈作比方吧,这是一个零,还是”O”,或者就是一个圈,还是咖啡杯底的印记呢?人们能很简单的识别出这到底是什么,但电脑处理这样的情况就会非常困难.
如果你想了解 Google 的这项功能,你可以点击下面几个搜索链接.注意除了基本是搜索结果之外,你还能以 HTML 形式查看文档(View as HTML).
[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]







Recent Comments