Tag Archives: 搜索

百谷虎山寨搜索引擎

上次说过了山寨版的 Google 音乐搜索,今天在豆瓣上又看到有人发现了一个更为强大的山寨版搜索引擎 – 百度, Google, 雅虎山寨搜索引擎,域名也挺有意思的: http://www.baigoohoo.com/

Photobucket

这个搜索引擎显然就是冲着山寨版来的,而制作的方法可能和山寨版 Google 音乐搜索类似,都是通过一个 Iframe 框架来包含进其他网页,这里被包含的就是百度, Google 中国和雅虎中国.不过我在 Firefox 和 Safari 下都没有尝试成功,可能只能在 IE 里使用.

另外我知道的山寨搜索引擎还有 http://www.googlebaidu.com/http://baidugoogle.net/ 大家不妨也都试一试,体会一下山寨版搜索引擎的强大.

不知道还会不会出现集 Google, 百度, Live, Yahoo, Ask 等众多搜索引擎于一身的山寨版.

如果你知道更多其他山寨版搜索引擎也欢迎在评论中指出,谢谢!

Google 中国:中文用户每天比美国用户在搜索上浪费超过250万小时

这几天 Google 中国频频高调出现讨论关于搜索公正性的问题,今天 Google 黑板报也发表了一篇文章,文章主要讨论的是搜索的准确性,公正性,文章里讲到中文用户每天比美国用户在搜索上浪费超过250万小时(或者超过10万天)的时间.

美国用户在他们最常使用搜索引擎的搜索结果页面上,目光主要聚焦在搜索结果的“黄金三角区”,大概用时30秒,而中国用户的目光却 散落在整个页面,用时超过60秒,所谓“黄金三角区”对中文搜索居然毫无意义.这很重要的一个原因,是用户在原本的关键位置无法找到非广告内容所致,他们需要自己满屏地、甚至翻屏的辛苦寻找有用信息.合计起来,中文用户每天比美国用户在搜索上浪费超过250万小时(或者超过10万天)的时间.

Photobucket

(图片来自 Google 黑板报)

下面是我摘的几段原文(除了后面链接,其他粗体都是我加的),看来 Google 中国在搜索公正性方面的确花了不少力气:

Google 中国认为,这是在搜索的“公正性”与“准确性”两个不同层次的事情间偷换概念,我们认为中国搜索行业最需要做的、最紧迫的事情,就是正视公正性与客观性对中国搜索行业的根本性意义,没有搜索公正性,搜索的准确性就无从谈起.

在海洋般浩瀚的互联网世界里,任何搜索引擎都会受到垃圾乃至不良信息影响,然而这些垃圾或不良信息在不同的商业模式面前面临着两种不同的生存可能:一种是鬼鬼祟祟千方百计去骗取网民的注意力;一种是掏点小钱就能“漂白”身份登堂入室畅通无阻.对于搜索厂商而言,能否杜绝前者,只是技术问题;能否根除后者,则是价值观问题.就好比一个人,人可以有能力的不同,但所有人都必须堂堂正正.

1,垃圾信息和搜索公正是截然不同的两件事.
搜索公正性是负责任的搜索引擎公司对用户的一个承诺.搜索结果最终的公正排序,应当是以一定的算法系统对充满着庞大的人类智慧的网页和链接得出的运算结果,而不是出于一己利益人为干预和改变.打击垃圾信息的目的,是打击一些垃圾信息的发放者,避免他们企图通过不公平的作弊手段来操纵自己网站排名,让所有的用户受益于最佳的搜索质量.Google 中国处理垃圾信息的工作一直是中国搜索引擎里最好的,也是在 Google 全球所有搜索语言中保持领先的.

2,公正性是搜索的根本.
在搜索结果中混入广告、按照广告价码的高低来排序的方式,违背了搜索公正性的根本.如果一个搜索引擎收取好处,以广告的名义提高垃圾信息的排名,或者任意根据收费多少而主观决定何谓“搜索热点”,这势必将损害绝大多数网民的根本利益.网民使用搜索引擎是来寻找“答案”的,而非仅仅是“广告”,广告也许是“答案”的一部分,但绝不会是全部.

3,Google 中国呼吁所有的搜索引擎,加入 Google 中国、腾讯、雅虎的行列,作出下列承诺:
(1) 明确标识和区分广告及自然搜索结果,以免误导用户;
(2) 珍惜搜索结果页面的黄金区域,决不让第一页搜索结果全部为广告充斥,让中文用户彻底告别搜索从第二页开始的历史;
(3) 绝不滥用自身的市场地位,绝不以收费或变相收费的形式来改变或删除搜索结果.

Google 中国一直坚持的原则是:不人为干预搜索结果.

其它与公正性、搜索排名技术相关文章
谷歌排序的介绍:http://googlechinablog.com/2008/07/blog-post_21.html
谷歌排序背后的技术:http://googlechinablog.com/2008/07/blog-post_23.html
谈 Page Rank – Google 的民主表决式网页排名技术:http://googlechinablog.com/2006/02/page-rank-google.html

客观公正性是搜索行业的根本标准:http://googlechinablog.com/2008/04/blog-post_14.html
谷歌广告的成功利器:http://googlechinablog.com/2008/04/blog-post_16.html
说一说“谷歌资讯”的使用技巧与搜索行业“客观性”的基本原则:http://googlechinablog.com/2008/04/blog-post_07.html

Google 发布 iPhone 版语音识别搜索软件

看到 Matt Cutts 在 Twitter 上发了一条消息说 iPhone 里的 Google 应用已经有了语音识别技术,并且表示自己已经用上了这个功能,而且这个功能非常不错,前景很好.他还给了一个纽约时报(New York Times)网站相关报道的链接.

据纽约时报报道,人们一直致力于使计算机能懂得人类的语言,现在 Google 公司已经在即将发布的 iPhone 版的 Google 应用里增加了复杂的语音识别技术.
Photobucket
(图片来自 NYT Google 的语音识别软件现在只能在 iPhone 里运行,但是 Google 计划让这个软件能在其他手机里也能使用.)

目前估计 Apple 将在美国时间周五把这个应用程序放到 iTunes Store 供用户免费下载使用.有了这个应用程序,用户就能把 iPhone 像打电话一样放到耳边,然后问问题了.用户可以问几乎所有问题,比如“最近的星巴克在哪里?”或者“珠穆朗玛峰有多高?”等.声音会先被转换成数字文件然后发送至 Google 的服务器, Google 的服务器会来判断用户说的话然后在 Google 的搜索引擎里完成搜索.如果无线网络比较快的话,搜索结果在几秒钟内就会显示出来.因为 iPhone 有定位功能,所以有时候搜索结果里会包含有当地的一些信息.

能使计算机识别任何人的任何话一直是人工智能研究专家所向往的目标,这也是使人机互动更为自然的一种方法.最近有一些具有类似功能的系统也开始进入商业市场了.

Yahoo 和 Microsoft 都已经提供手机的语音服务了. Microsoft 的 Tellme 服务会返回给用户一些特定目录下的信息,比如路线,地图,电影等. Yahoo 的语音服务 oneSearch 更灵活,但是没有 Google 提供那么准确. Google 的系统离完美还有很远的距里,有时返回的结果简直一塌糊涂. Google 执行官没有透露这个服务的准确率大概是多少,但是他们相信这项服务对那些不想在 iPhone 的触摸屏上打字来进行搜索的人来说已经足够准确了.

这项服务能帮用户推荐餐馆和之路,同时还能帮用户寻找在 iPhone 联系人里联系人,或者平息酒吧里的一场争论(此处翻译感谢 ZenoX 在评论中指正).

如果你询问“Noe Valley 最好的比萨店是哪一家?”返回的结果是位于旧金山的三家餐馆,每一家都有来自 Google 用户的标星和点评,并且有电话的路线的链接.

卡内基美隆大学(Carnegie Mellon University)研究人工智能的专家 Raj Reddy 是语音识别技术方面的先行者,他说 Google 在这个领域的优势在于它能储存和分析大量的数据:“不过他们现在如何介绍,识别的正确率在3到6个月期间会有很大的提高.”他还表示:“人们要意识到,机器的识别技术永远不可能达到完美,这一点很重要.问题是,他们能做到多好,多接近于完美?”

对 Google 来说,技术将至关重要. Google 的执行官说,基于地理位置的搜索能使附近的商业广告获得更好的点击率,而 Google 也能从他们身上获得更高的收入 – 当然,这项服务目前还不卖广告.

前 Microsoft 执行官, 现在领导 Google 移动业务的 Vic Gundotra 说:“我们一直在努力通过地理位置和语音服务来为广告主增加价值.”
Photobucket
(图片来自 NYT Vic Gundotra(右)和 Gummi Hafsteinsson.)

当然,这项新的 iPhone 搜索服务并不是 Google 提供的第一个语音服务.今年3月份的时候, Google 就推出了 GOOG-411 服务.这是一个目录信息服务,用户能通过该服务询问公司电话和地址的信息. Google 表示从这项服务中收集的用户体验和数据对他们开发现在这项在 iPhone 上的语音服务很有帮助.

有趣的是,这项服务的设计来自一位伦敦的 Google 员工,他发明了一个使用 iPhone 加速器(判断 iPhone 是如何被用户拿着的设备)的好方法,就是当人们把 iPhone 拿起来放到耳朵边上的时候,让 iPhone 进入”听”的状态.

Google 最近还发布了一份关于为机器翻译建立大的模型的报告,研究人员在里面写到,他们已经在这个系统实验了2兆的词语.

Apple 要做搜索引擎吗?

Photobucket
据 TechCrunch 报道,他们最近收了很多(不确定的)报道说 Apple(苹果公司)正在准备做某种搜索引擎.

初看这些消息似乎很有道理. Apple 的 Safari 浏览器有6-7%的市场份额,并且目前在 iPhone/iPod 的浏览器上使用 Google 作为默认的搜索引擎(和其他浏览器不同,你别无选择).同时 Apple 还有一些产品通过 Mobile Me 来使其核心用户每天访问他们的服务器.所有的这些流量和搜索一样,都能带来很多经济利益.

另外, Apple 对 Google 推出的手机操作系统 Android 来和 iPhone 竞争肯定也不是很满意. Eric Schmidt 作为 Apple 的董事会成员之一,同时也是 Google 的 CEO. 在讨论 Apple 的移动产品计划的时候,他是不能在场的.

但是这些都忽略了一个因素 – 如果 Apple 要做搜索引擎的话,他们肯定要雇佣一些搜索引擎方面的专家和工程师. TechCrunch 和所有大公司负责这方面的人有联系,除了有些人听说过同样的传闻以外,没有一家公司有负责搜索方面的员工去了 Apple 或者听说有这方面的特定招聘.

仅这一条就几乎可以排除 Apple 要参与搜索市场的竞争了.没有相关方面的人才你是做不成那些事的.

通过 Safari 上的 Google 搜索框, Apple 也还能从 Google 那里获得一笔固定的收入,这也是 Apple 很喜欢的.他们现在当然还没有进入广告市场,所以就算他们发布了一款搜索引擎,在广告方面他们仍然会非常依赖于 Google 和他(指 Google)的竞争者.那 Apple 为什么还要把钱投入到搜索领域呢?

答案是他们没有.但是流言仍在继续,所以这也可能预示着一些事情. TechCrunch 觉得 Apple 可能对他移动产品上的搜索体验不是很满意,并且可能要创造一种和现在完全不一样的用户体验,可能是比现在要更为可视化.搜索结果可能还是由 Google 提供的,但 Apple 可能会用更适合移动用户的方式将它展现出来.

请保持关注. TechCrunch 希望能从这些零碎的消息里发现更多.

PS, 据 Google Mobile 博客报道, Google 又优化了 iPhone/iTouch 上搜索结果的显示(美国用户, 2.0以上版).

Google 更新对扫描文档的收录

据 Google 官方博客报道, Google 已经能够收录并索引 PDF 文档,而且现在已经能把一些 PDF 文档转化成 HTML 形式来便于搜索和阅读.

扫描机是一件很神奇的东西.每天全球都有很多人在互联网上发布扫描后的文档 – 从政府报告到学术论文,各种文档都有.这写文档通常都有文字图片,当然,扫描以后的文字已经不是普通意义上的文字了.但是这些被扫描进电脑传播到互联网上的信息都有一个共同的特点,那就是这些文档都很重要,值得和全世界分享.

过去,扫描的文件很少能被搜索引擎收录,因为搜索引擎很难确定这个文档是关于什么的.有时候搜索引擎能在其他关于这个文档的地方了解到一些这个文档的内容 – 所以你有时候可能会看到搜索结果里有扫描的文档,但是你搜索的关键词不会有高亮显示.今天,这一切都将改变.

Google 现在已经能使用 OCR (Optical Character Recognition 光学文字识别)技术在任何以 Adobe PDF 格式保存的扫描文档中索引了. 改技术能使 Google 把一张(由一千个单词组成的)图片转换为一千个字 – 这些文字然后就能被搜索和收录,从而那些有价值的文档也都可以被轻易的找到了.这是 Google 实现自己方便人们搜索世界上所有信息这个目标的一小步,但也是非常重要的一步.

要知道分辨这些被扫描的文档对电脑来说是很难的.扫描其实是印刷的相反过程,印刷把电子文字变成纸上的文字(类似于一张图片),而扫描则是把纸上的东西变成一张数字话的图片,这样你才能在电脑里看到它,并且把它保存在电脑里.图片上的文字和原本数字化的文字是很难不一样的 – 这是一幅都是文字的画,有时候你还能看到有咖啡杯底的印记,有墨水模糊的地方甚至可能还有被折过角的印子.

人们阅读这些文字图片和阅读数字文字几乎没什么区别,但是这对电脑来说却很难.拿一个圈作比方吧,这是一个零,还是”O”,或者就是一个圈,还是咖啡杯底的印记呢?人们能很简单的识别出这到底是什么,但电脑处理这样的情况就会非常困难.

如果你想了解 Google 的这项功能,你可以点击下面几个搜索链接.注意除了基本是搜索结果之外,你还能以 HTML 形式查看文档(View as HTML).

[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]
Photobucket