第一部分
Google(www.Google.com)是一个搜索引擎,由两个斯坦福大学博士生Larry
Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份
,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网
易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。到Google的新
闻中心(http://www.Google.com/press/index.html),你可以找到关于一切关于
Google的历史和新闻资料。
搜索入门
第一次进入Google,它会根据你的操作系统,确定语言界面。需要提醒的是
,Google是通过cookie来存储页面设定的,所以,如果你的系统禁用cookie,就
无法对Google界面进行个人设定了。
Google的首页很清爽,LOGO下面,排列了四大功能模块:网站、图像、新闻
组和目录服务。默认是网站搜索。现在进行第一次搜索实践,假定你是个搜索新
手,想要了解一下搜索引擎的来龙去脉和搜索技巧。在搜索框内输入一个关键字
“搜索引擎”, 选中“搜索中文(简体)网页”选项,然后点击下面的“Google搜
索”按钮(或者直接回车),结果就出来了。
注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。
初阶搜索
上例中,单个关键字“搜索引擎”,搜索得的信息浩如烟海,而且绝大部分
并不符合自己的要求,怎么办呢?我们需要进一步缩小搜索范围和结果。
1,搜索结果要求包含两个及两个以上关键字
一般搜索引擎需要在多个关键字之间加上“ ”,而Google无需用明文的“
”来表示逻辑“与”操作,只要空格就可以了。现在,我们需要了解一下搜索引
擎的历史,因此期望搜得的网页上有“搜索引擎”和“历史”两个关键字。
示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页
搜索:“搜索引擎 历史”
结果:已搜索有关搜索引擎 历史的中文(简体)网页。 共约有78,600项查询
结果,这是第1-10项 。 搜索用时0.36秒。
用了两个关键字,查询结果已经从70多万项减少到7万多项。但查看一下搜索
结果,发现前列的绝大部分结果还是不符合要求,大部分网页涉及的“历史”,
并不是我们所需要的“搜索引擎的历史”。 怎么办呢?删除与搜索引擎不相关的
“历史”。我们发现,这部分无用的资讯,总是和“文化”这个词相关的,另外
一些常见词是“中国历史”、“世界历史”、“历史书籍”等。
2,搜索结果要求不包含某些特定信息
Google用减号“-”表示逻辑“非”操作。“A –B”表示搜索包含A但没有B
的网页。
示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史
”和“世界历史”的中文网页
搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史”
结果:已搜索有关搜索引擎 历史 -文化 -中国历史 -世界历史的中文(简体)
网页。 共约有36,800项查询结果,这是第1-10项 。 搜索用时0.22秒。
我们看到,通过去掉不相关信息,搜索结果又减少了将近一半。第一个搜索
结果是:
搜索引擎直通车≡搜索引擎发展历史
搜索引擎直通车, ... 搜索引擎专业介绍站点. ...
www.se-express.com/about/about.htm - 14k - 网页快照 - 类似网页
非常符合搜索要求。另外,第八项搜索结果:
463搜索王
本站检索 整个网站 在此输入关键词. 你的当前
位置:首页 >> Internet搜索手册 >> 搜索引擎的历史. ...
www.cnco.net/search/history.htm - 21k - 网页快照 - 类似网页
也符合搜索要求。但是,10个结果只有两个符合要求,未免太少了点。不过
,在没有更好的策略之前,不妨先点开一个结果看看。点开se-express.com的这
个名为“搜索引擎发展历史”的网页,我们发现,搜索引擎的历史,是与互联网
早期的文件检索工具“Archie”息息相关的。此外,搜索引擎似乎有个核心程序
,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,使搜索引擎深入人心的是“
Yahoo”。了解了这些信息,我们就可以进一步的让搜索结果符合要求了。
注意:这里的“ ”和“-”号,是英文字符,而不是中文字符的“+”和“-
”。此外,操作符与作用的关键字之间,不能有空格。比如“搜索引擎 - 文化”
,搜索引擎将视为关键字为“搜索引擎”和“文化”的逻辑“与”操作,中间的
“-”被忽略。
google高手必经之路-2
6.3,搜索结果至少包含多个关键字中的任意一个。
Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说
,搜索的网页中,要么有A,要么有B,要么同时有A和B。在上例中,我们希望搜
索结果中最好含有“archie”、“lycos”、“蜘蛛”等关键字中的一个或者几个
,这样可以进一步的精简搜索结果。
示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化
”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、
“Lycos”、“Yahoo”。
搜索:“搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化”
结果:已搜索有关搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文
化的中文(简体)网页。 共约有8,400项查询结果,这是第1-10项 。 搜索用时
0.16秒。
我们看到,搜索结果缩小到8千多项,前20项结果中,大部分都符合搜索要求
。如果你想了解一下解搜索引擎的历史发展,就不妨研究一下现在搜索到的结果
吧。
注意:“与”操作必须用大写的“OR”,而不是小写的“or”。
在上面的例子中,我介绍了搜索引擎最基本的语法“与”“非”和“或”,
这三种搜索语法Google分别用“ ”(空格)、“-”和“OR”表示。顺着上例的思
路,你也可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法:目标信
息一定含有的关键字(用“ ”连起来),目标信息不能含有的关键字(用“-”去掉
),目标信息可能含有的关键字(用“OR”连起来)。
7,杂项语法
7.1,通配符问题
很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符
等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含
“*”必须用""引起来。比如,“"以*治国"”,表示搜索第一个为“以”,末两
个为“治国”的四字短语,中间的“*”可以为任何字符。
7.2,关键字的字母大小写
Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。
7.3,搜索整个短语或者句子
Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。
但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。
示例:搜索关于第一次世界大战的英文信息。
搜索:“"world war I"”
结果:已向英特网搜索"world war i". 共约有937,000项查询结果,这是第
1-10项 。 搜索用时0.06秒。
google高手必经之路--3
7.4,搜索引擎忽略的字符以及强制搜索
Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”
等,以及一些符号如“*”、“.”等,作忽略处理。
示例:搜索关于www起源的一些历史资料。
搜索:“www的历史 internet”
结果:以下的字词因为使用过于频繁,没有被列入搜索范围: www 的. 已搜
索有关www的历史 internet的中文(简体)网页。 共约有75,100项查询结果,这是
第1-10项 。 搜索用时0.22秒。
我们看到,搜索“www的历史 internet”,但搜索引擎把“www”和“的”都
省略了。于是上述搜索只搜索了“历史”和“internet”。这显然不符合要求。
这里我顺便说一点搜索引擎分词的知识。当我们在搜索“www的历史”的时候,搜
索引擎实际上把这个短语分成三部分,“www”、“的”和“历史”分别来检索,
这就是搜索引擎的分词。所以尽管你输入了连续的“www的历史”,但搜索引擎还
是把这个短语当成三个关键字分别检索。
如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”
号。
搜索:“+www +的历史 internet”
结果:已搜索有关+www +的历史 internet的中文(简体)网页。 共约有
25,000项查询结果,这是第1-10项 。 搜索用时0.05秒。
另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例“”
world war I””中,“I”其实也是忽略词,但因为被英文双引号引起来,搜索
引擎就强制搜索这一特定短语。
搜索:“"www的历史" internet”
结果:已搜索有关"www的历史" internet的中文(简体)网页。 共约有7项查
询结果,这是第1-6项 。 搜索用时0.26秒。
我们看到,这一搜索事实上把“www的历史”作为完整的一个关键字。显然,
包含这样一个特定短语的网页并不是很多,不过,每一项都很符合要求。
注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,
加强制也不行。
google高手必经之路-4
8,进阶搜索
上面已经探讨了Google的一些最基础搜索语法。通常而言,这些简单的搜索
语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,
你还需要了解更多的东西。
8.1,对搜索的网站进行限制
“site”表示搜索结果局限于某个具体网站或者网站频道,如
“www.sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”
、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域
名”。
示例:上著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯
。
搜索:“"search engine" tips site:www.zdnet.com OR
site:www.cnet.com”
结果:已在www.zdnet.com内搜索有关"search engine" tips OR
site:www.cnet.com的网页。 共约有1,040项查询结果,这是第1-10项 。 搜索用
时0.09秒。
注意,在这里Google有个小BUG。“已在www.zdnet.com内搜索…”,其实应
该表述成“已在www.zdnet.com和www.cnet.com内搜索…”。
示例:搜索新浪科技频道中关于搜索引擎技巧的信息。
搜索:“搜索引擎 技巧 site:tech.sina.com.cn”
结果:已在tech.sina.com.cn搜索有关搜索引擎 技巧 的中文(简体)网页。
共约有163项查询结果,这是第1-10项 。 搜索用时0.07秒。
注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:
”将被作为一个搜索的关键字。此外,网站域名不能有“http://”前缀,也不能
有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是
“域名/频道名”方式。
8.2,在某一类文件中查找信息
“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,
Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,
Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文
档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。
其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已
经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,
大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性
文档,提供的资讯一般比较集中全面。
示例:搜索几个资产负债表的Office文档。
搜索:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt”
结果:已搜索有关资产负债表 filetype:doc OR filetype:xls OR
filetype:ppt的中文(简体)网页。 共约有481项查询结果,这是第1-10项 。 搜
索用时0.04秒。
注意,下载的Office文件可能含有宏病毒,谨慎操作。
示例:搜索一些关于搜索引擎知识和技巧方面的PDF文档
搜索:“"search engine" tips OR tutorial filetype:pdf”
结果:已向英特网搜索"search engine" tips OR tutorial filetype:pdf.
共约有12,600项查询结果,这是第1-10项 。 搜索用时0.22秒。
我们来看其中的一个结果:
[PDF]Search Engines Tips
文档类型: PDF/Adobe Acrobat - HTML 版
... http://www.google.com/press/zeitgeist.html See what people are
searching on at Google.com
* Search Engine Watch http://searchenginewatch.com/ Some free tips
...
www.allvertical.com/PromoKits/SearchEngineTips.pdf - 类似网页
可以看到,Google用[PDF]来标记这是一个PDF的文档检索,另外,它还给出
了该PDF文档的HTML版本,该HTML版保留了文档的文字内容和结构,但没有图片。
8.3,搜索的关键字包含在URL链接中
“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在
链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目
录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语
法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。
INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料
。
--------------------
google搜索方法
在搜索框上输入: “index of/ ” inurl:lib
再按搜索你将进入许多图书馆,并且一定能下载自己喜欢的书籍。
在搜索框上输入: index of /” cnki
再按搜索你就可以找到许多图书馆的CNKI、VIP、超星等入口!
在搜索框上输入: “index of /” ppt
再按搜索你就可以突破网站入口下载powerpint作品!
在搜索框上输入: “index of /” mp3
再按搜索你就可以突破网站入口下载mp3、rm等影视作品!
在搜索框上输入: “index of /” swf
再按搜索你就可以突破网站入口下载flash作品!
在搜索框上输入: “index of /” 要下载的软件名
再按搜索你就可以突破网站入口下载软件!
注意引号应是英文的!
第二部分
注意:文中[]符号是为了突出关键词,在实际搜索中是不包含的;本文采用的是意译;本译文已
经征得作者许可;本译文可任意转载,请保留本文的头信息
1. 双引号可以用减号代替,比如搜索["like this"]与搜索[like-this]是一个效果
2.
Google不会处理一些特殊的字符,比如[#](几年前还不行,现在可以了,比如搜索[c#]已经可以
搜到相应的结果),但是还有一些字符它不认识,比如搜索[t.]、[t-]与[t^]的结果是一样的
3. Google充许一次搜索最多32个关键词
4.
在单词前加~符号可以搜索同义词,比如你想搜索[house],同时也想找[home],你就可以搜
索[~house]
5. 如果想得到Google索引页面的总数,可以搜索[* *]
6.
Google可以指定数字范围搜索。搜索[2001..2005]相当于搜索含有2001、2002直到2005的
任意一个数的网页
7.
搜索[define:css]相当于搜索css的定义,这招对想学习知识的人很有效;也可以用[what is
css]搜索;对中文来说,也可以用[什么是css]之类的
8. Google有一定的人工智能,可以识别一些简单的短语如[whenwas Einstein
born?]或[einstein birthday]
9. 通过[link:]语法,可以寻找含有某个链接的网页,比如[link:blog.outer-
court.com]将找到包括指向 blog.outer-court.com超级链接的网页(最新的Google Blog
Search也支持这个语法),但是Google并不会给出所有的包含此链接的网页,因为它要保证
pagerank算法不被反向工程(呵呵,可以参见那两个Google创始人关于pagerank的论文,可
下载)
10. 如果在搜索的关键词的最后输入[why?],就会在结果中出现链接到Google
Answers的链接http://answers.google.com,在里面可以进行有偿提问
11. 现在出现了一种兴趣活动,叫做Google
Hacking,其内容是使用Google搜索一些特定的关键词,以便找到有漏洞的、易被黑客攻击
的站点。这个网站列出了这些关键词:Google Hacking Database(
http://johnny.ihackstuff.com/index....ule=prodreviews )
12. 在Google
中输入一组关键词时,默认是“与”搜索,就是搜索包含有所有关键词的网页。如果要“或”搜
索,可以使用大写的[OR]或 [|],使用时要与关键词之间留有空格。比如搜索关键词[Hamlet
(pizza |
coke)],是让Google搜索页面中或页面链接描述中含有Hamlet,并含有pizza与coke两个关
键词中任意一个的网页。
13. 并非所有的Google服务都支持相同的语法,比如在Google Group中支持
[insubject:test]之类的主题搜索。可以通过高级搜索来摸索这些关键词的用法:进入高级搜索
之后设置搜索选项,然后观察关键字输入窗口中的关键字的变化
14. 有时候Google懂得一些自然语言,比如搜索关键词[goog], [weather new york, ny],
[new york ny]或[war of the
worlds],此时Google会在搜索结果前显示出一个被业内称为“onebox”的结果,试试看吧!
15.
并非所有的Google都是相同的,它因国家版本(或是说语言版本)而异。在US版下,搜索[sit
e:stormfront.org]会有成千上万的结果,而在德语版下,搜索[site:stormfront.org]的结果,嗯
,自己看吧。Google的确与各国政府有内容审查协议,比如德国版,法国版(网页搜索),中
国版Google新闻
16.
有时候Google会提示你搜索结果很烂,比如你搜索关键词[jew]试试,Google会告诉你它给
出的搜索结果很烂,然后给你一个解释:http://www.google.com/explanation.html
17. 以前,搜索某些关键词如[work at Google]
时会看到Google给自己打的广告。可以去http://www.google.com/jobs/了解Google的工作
18.
对于一些“Googlebombed”(大概意思是指Google搜索的结果出问题了)的关键词,会有一个
广告链接到:http: //googleblog.blogspot.com/2005/09/googlebombing-failure.html
(中国大陆需要代理才能访问)。比如搜索[failure],第一条是美国布什总统介绍
19.
虽然现在Google还没有支持自然语言,但这里有一段录像显示了支持自然语言的搜索引擎
的使用效果:http://blog.outer-court.com/videos/googlebrain.wmv
20. 有人说在Google中搜索[president of the internet],其结第一条表明了president of
the
internet是谁,我也是这么认为的,而且你还可以使用这个logo支持本文作者:http://blog.out
er- court.com/files/president.gif
21. Google现在不再有“stop words”(被强制忽略的关键词),比如搜索 [to be or not to
be], Google返回的结果中间还列有相关的完整短语搜索结果
22. 在Google 计算器(http://www.google.com/help/features.html#calculator
)中有个彩蛋:输入[what is the answer to life, the universe and
everything?]时,会返回42。(关键词翻译过来的意思是指“生命、宇宙和一切的答案”,这是
一个著名科幻小说中的情节,详情参见http:
//en.wikipedia.org/wiki/The_Answer_to_Life,_the_Universe,
_and_Everything)。试试吧,哈哈
23.
你可以在搜索时使用通配符[*],这在搜索诗词时特别有效。比如你可以搜一下["love you
twice as much * oh love * *"] 试试
24. 同样,你的关键词可以全部都是通配符,比如搜索["* * * * * * *"]
25.
www.googl.com是在输错网址后的结果,也是个搜索网站,但搜索结果与Google完全不同
。而且此网站也赚Google的钱,因为它使用Google AdSense
26. 如果你想把搜索结果限制在大学的网站之中,可以使用[site:.edu]关键词,比如[c-
tutorial site:.edu],这样可以只搜索以edu结尾的网站。你也可以使用Google
Scholar来达到这个目的。也可以使用[site:.de]或[site:.it]来搜索某个特定国家的网站12.
在Google
中输入一组关键词时,默认是“与”搜索,就是搜索包含有所有关键词的网页。如果要“或”搜
索,可以使用大写的[OR]或 [|],使用时要与关键词之间留有空格。比如搜索关键词[Hamlet
(pizza |
coke)],是让Google搜索页面中或页面链接描述中含有Hamlet,并含有pizza与coke两个关
键词中任意一个的网页。
没有评论:
发表评论