《SEO优化入门》1.2:用robots.txt 和nofollw引导爬虫和保护网站隐私

《SEO优化入门》1.2:用robots.txt 和nofollw引导爬虫和保护网站隐私

《seo优化入门》教材

如果不用规则加以限制,网络爬虫会索引网站上的所有文件,会耗费搜索引擎爬虫的大量时间。所以,我们需要一个robots.txt文件,来引导搜索引擎爬虫的访问范围。

robot.txt文件

可以用记事本工具创建,也可以使用站长工具在线创建。

以下是本站的robots.txt文件,大家也可以打开www.hugseo.com/robots.txt查看。

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /feed

Disallow: /articles/*/feed

Sitemap: http://www.hugseo.com/sitemap.xml

 

  1. 文件头部规则:

    robots.txt文件的开头为User-agent:开头,用来指定搜索引擎蜘蛛,如果要针对百度搜索蜘蛛,可以输入

    User-agent:Baiduspider

    如果要对全体搜索引擎起作用,则输入

    User-agent: *

  2. Disallow规则:

    Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

    Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

  3. Allow规则:

    Allow规则同Disallow。

  4. Sitemap规则:

    Sitemap用来告诉搜索引擎网站地图的位置

    Sitemap: http://你的域名/sitemap.xml

    其中sitemap.xml是你的网站的网站地图文件。

  5. 为了避免收录WordPress系统文件:

    Disallow: /wp-admin/

    Disallow: /wp-includes/

    Disallow: /wp-content/plugins

    Disallow: /wp-content/themes

  6. 为了避免收录重复的内容:

    Disallow: /feed

    Disallow: /articles/*/feed

  7. 为了正确引导搜索引擎找到网址地图(如果有的话)

    Sitemap: http://你的域名/sitemap.xml

    其中sitemap.xml是你的网站的网站地图文件。

现在,robots.txt做好了,我们还要将此文件上传至服务器,防止网站的根目录。

nofollw属性

前面我知道了,可以用robots。txt文件来限制搜索引擎的访问某些文件,其实,我们还可以用nofollow属性来限制某些链接不被搜索引擎追踪。

一般来说,本站链接到外部站点的链接,会减少本站的权重,所以我们要在HTML代码中,使用属性rel="nofollow" ,来告知爬虫不要追踪这个链接,且在评估站点时忽略它。

nofollow属性目的是:不要让搜索引擎抓取网页上带有nofollow属性的任何出站链接,以减少垃圾链接分散本站的权重。

怎么使用?

比如本站有分享许多实用在线工具,都是带有链接的,为了不让这些链接不被爬虫跟踪,需要在链接代码加上nofollow属性:

<a href="http://s.zcjun.com/" rel="nofollow">网站缩略图在线生成</a>

 

 



狐哥SEO

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:2   其中:访客  1   博主  1

    • avatar voice站点 0

      好巧,这个域名我前几年注册过,然后用了一段时间,就换别的域名了,今天想起来,发现竟然能打开了

        • 狐哥SEO 狐哥SEO Admin

          @voice站点 嗯,感谢这个域名我们结识,以后多多向你学习!