Internet越来越酷,WWW的知名度如日中天。在Internet上发布公司信息、进行电子商务已经从时髦演化成时尚。作为一个Web Master,你可能对HTML、Javascript、Java、 ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所设 计的主页有什么关系?
Internet上的流浪汉--- Web Robot
有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他 们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序,它可以 穿越大量Internet网址的超文本结构,递归地检索网络站点所有的内容。这些程序有时 被叫 “蜘蛛(Spider)” , “网上流浪汉(Web Wanderer)”,“网络蠕虫(web worms)”或Web crawler。一些Internet网上知名的搜索引擎站点(Search Engines)都 有专门的Web Robot程序来完成信息的采集,例如Lycos,Webcrawler,Altavista等,以及中文搜索引擎站点例如北极星,网易,GOYOYO等。
Web Robot就象一个不速之客,不管你是否在意,它都会忠于自己主人的职责,任劳任怨、不知疲倦地奔波于万维网的空间,当然也会光临你的主页,检索主页内容并生成它所需要的记录格式。或许有的主页内容你乐于世人皆知,但有的内容你却不愿被洞察、索引。难道你就只能任其“横行”于自己主页空间,能否指挥和控制Web Robot的行踪呢?答案当然是肯定的。只要你阅读了本篇的下文,就可以象一个交通 警察一样,布置下一个个路标,告诉Web Robot应该怎么去检索你的主页,哪些可以 检索,哪些不可以访问。
其实Web Robot能听懂你的话
不要以为Web Robot是毫无组织,毫无管束地乱跑。很多Web Robot软件给网络站点的 管理员或网页内容制作者提供了两种方法来限制Web Robot的行踪:
1、Robots Exclusion Protocol 协议
网络站点的管理员可以在站点上建立一个专门格式的文件,来指出站点上的哪一部分 可以被robot访问, 这个文件放在站点的根目录下,即http://.../robots.txt.
2、Robots META tag
一个网页作者可以使用专门的HTML META tag ,来指出某一个网页是否可以被索 引、分析或链接。
这些方法适合于大多数的Web Robot,至于是否在软件中实施了这些方法,还依赖于 Robot的开发者,并非可以保证对任何Robot都灵验。如果你迫切需要保护自己内容, 则应考虑采用诸如增加密码等其他保护方法。
使用Robots Exclusion Protocol协议
当Robot访问一个 Web 站点时,比如http://www.sti.net.cn/,它先去检查文件http: //www.sti.net.cn/robots.txt。如果这个文件存在,它便会按照这样的记录格式去分析:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
以确定它是否应该检索站点的文件。这些记录是专门给Web Robot看的,一般的浏览者大概永远不会看到这个文件,所以千万不要异想天开地在里面加入形似<img src=*> 类的HTML语句或是“How do you do? where are you from?”之类假情假意的问候语。
在一个站点上只能有一个 "/robots.txt" 文件,而且文件名的每个字母要求全部是小写。在Robot的记录格式中每一个单独的"Disallow" 行表示你不希望Robot访问的URL, 每个URL必须单独占一行,不能出现 "Disallow: /cgi-bin/ /tmp/"这样的病句。同时在一个 记录中不能出现空行,这是因为空行是多个记录分割的标志。
User-agent行指出的是Robot或其他代理的名称。在User-agent行,'*' 表示一个特殊的含 义---所有的robot。
下面是几个robot.txt的例子:
在整个服务器上拒绝所有的robots:
User-agent: *
Disallow: /
允许所有的robots访问整个站点:
User-agent: *
Disallow:
或者产生一个空的 "/robots.txt" 文件。
服务器的部分内容允许所有的robot访问
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
拒绝某一个专门的robot:
User-agent: BadBot
Disallow: /
只允许某一个robot光顾:
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
最后我们给出 http://www.w3.org/站点上的robots.txt:
# For use by search.w3.org
User-agent: W3Crobot/1
Disallow:
User-agent: *
Disallow: /Member/ # This is restricted to W3C Members only
Disallow: /member/ # This is restricted to W3C Members only
Disallow: /team/ # This is restricted to W3C Team only
Disallow: /TandS/Member # This is restricted to W3C Members only
Disallow: /TandS/Team # This is restricted to W3C Team only
Disallow: /Project
Disallow: /Systems
Disallow: /Web
Disallow: /Team
使用Robots META tag方式
Robots META tag 允许HTML网页作者指出某一页是否可以被索引,或是否可以用来查 找更多的链接文件。目前只有部分robot实施了这一功能。
Robots META tag的格式为:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
象其他的META tag一样,它应该放在HTML文件的HEAD区:
<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="This page ....">
<title>...</title>
</head>
<body>
...
Robots META tag指令使用逗号隔开,可以使用的指令包括 [NO]INDEX 和[NO] FOLLOW。INDEX 指令指出一个索引性robot是否可以对本页进行索引;FOLLOW 指令指出robot是否可以跟踪本页的链接。缺省的情况是INDEX和FOLLOW。例如:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
一个好的Web 站点管理员应该将robot的管理考虑在内,使robot为自己的主页服务, 同时又不损害自己网页的安全。

最新回复
pqrs502 (2008-5-15 18:01:07)
中国澳洲留学网是澳洲留学行业的澳洲留学普及、澳洲留学采购、澳洲留学技术、澳洲留学会展、澳洲留学招标行业平台是中国最大的澳洲留学权威网站,并以及时的澳洲留学新闻、海量的澳洲留学资讯和独到的澳洲留学信息分析,为广大澳洲留学爱好者澳洲留学订制服务是最权威的澳洲留学专场会议,澳洲留学专家为您精选的澳洲留学产品,迎您来展示您的澳洲留学产品澳洲留学发布服务基于澳洲留学经验丰富的澳洲留学企划人员和准确的澳洲留学投放系统,澳洲留学可以为澳洲留学客户顾名思义就是忠诚与澳洲留学的用户,是集澳洲留学客户,网络澳洲留学媒体,致力与澳洲留学厂家为一体澳洲留学知识应用及澳洲留学产品的价值升华。
pqrs502 (2008-5-22 00:46:24)
雪肌妮丝国际美容加盟连锁机构是一家集科研、生产、连锁经营、售后服务、美容学校、美容院
于一体的大型综合性美容院家盟企业。
pqrs502 (2008-5-31 06:47:04)
深圳市深华国际旅行社成立于1989年,系经国家旅游局批准的设立的具备出境游, 香港旅游 及国内游组团资格的国家一类深圳旅行社、出境游组团社
pqrs502 (2008-6-03 01:14:28)
中国网站优化网是网站优化行业的网站优化普及、网站优化采购、网站优化技术、网站优化会展、网站优化招标行业平台是中国最大的网站优化权威网站,并以及时的网站优化新闻、海量的网站优化资讯和独到的网站优化信息分析,为广大网站优化爱好者网站优化订制服务是最权威的网站优化专场会议,网站优化专家为您精选的网站优化产品,迎您来展示您的网站优化产品网站优化发布服务基于网站优化经验丰富的网站优化企划人员和准确的网站优化投放系统,网站优化可以为网站优化客户顾名思义就是忠诚与网站优化的用户,是集网站优化客户,网络网站优化媒体,致力与网站优化厂家为一体网站优化知识应用及网站优化产品的价值升华。
pqrs502 (2008-6-06 00:29:32)
网站链接的有效维护,一直是搜索引擎优化项目操作中的工作重点。基本上影响搜索引擎排名的主流因素中有:网页标题、网站结构、网站内容以及网站的链接等方面。其中网站链接分为网站内部链接与网站外部链接,无论是网站内部链接或者网站外部链接,这2个环节的优化,都是目前所有的SEO都非常重视的地方。它对seo的作用是至关重要的,因此对网站的内外部链接的有效维护是搜索引擎优化项目中非常重要的一项工作!
有效链接维护工作的重点:
有效链接维护工作的重点对象是网站的外部链接以及网站的内部链接。
内部链接:
由于网站运行的时间过长,网站内部难免会出现一些地址已失效的链接,针对这个情况,链接的维护工作主要就是及时发现并清除这些失效的链接。
外部链接:
因为现阶段的seo已经被越来越多的网站管理员得到重视,大家都认识到外部链接在SEO中的重要地位。因此出现了一些外部链接的陷阱,比如把链接放在JS、框架、或者是用了rel='external nofollow'标签等。另外种情况就是在交换了链接之后,对方过段时间就把你的链接删除。外部链接的维护工作是十分必须的,重要程度或者高于内部链接的维护。
有效链接维护工作的好处:
内部链接:
及时发现网站内部失效链接并清理或者更改,可以使一些相关的网页的PR值得到提升或者排名得到提升。
外部链接:
外部链接是提升网站排名、网站权重、网站影响的重要方法之一。
总结
链接的维护工作需要及时的发现一些失效、不相关或者一些链接陷阱,确保进行的链接建设是有效的,seo的重点就是链接的建设与维护。有效链接的维护一半是为了搜索引擎优化,另外一半是为了用户体验。
pqrs502 (2008-6-10 11:22:52)
Amway安利上海专卖,安利中国 ,安利产品 ,安利保健品,安利首页,安利蛋白粉,安利保健品,安利蛋白粉,安利公司安利产品,长期优惠供应美国本土安利quixtar,安利中国,香港安利,安利纽崔莱,雅姿化妆品
pqrs502 (2008-6-13 23:29:51)
专业致力于离心机系列产品的生产、销售、服务.采用各先进技术研制的高速冷冻离心机和低速大容量离心机以及系列台式离心机,广泛应用于中心血站、血库、医院检验、放射免疫及高校、农业科学、生物工程、环保、科研等各个领域,其技术性能在国内处于领先地位。