添加Robots.txt优化你的WordPress站点

Robots协议(也称为爬虫协议、爬虫规则、机器人协议等),也就是通常添加到网站根目录的robots.txt 文件,Robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分,它的作用在于告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,从而优化网站的收录结果和权重。

利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

一、是否需要一个robots.txt文件?

虽然没有robots.txt文件也不会影响搜索引擎对网站的爬取和索引,但是如果你想要将你的XML网站指南提交给搜索引擎,那么该文件的存在就很有必要了;所以我们强烈建议大家创建一个robots.txt文件。

二、robots.txt文件一般保存在哪里?如何创建robots.txt文件?

Robots.txt文件一般保存在网站的根目录下。要通过FTP客户端连接网站或通过cPanel文件管理器进行查看。该文件跟普通文本文件一样,可以用文本编辑器(比如记事本)打开或编辑。如果你的网站没有robots.txt文件,那么你可以在电脑上创建一个文本文件并命名为robots.txt,然后上传到网站的根目录下。

三、如何使用robots.txt文件?

该文件的格式很简单。第一行通常是定义一个用户代理的名称,这里的用户代理实际上就是你想要连接的搜索机器人的名称。你也可以使用“*”来指示所有的搜索引擎机器人。从第二行开始,就是允许或禁止搜索的指令。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。知道Robots协议的作用后,下面具体说一下WordPress站点如何编写robots.txt文件:

WordPress站点默认在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:

  • User-agent: *
  • Disallow: /wp-admin/
  • Disallow: /wp-includes/
  • Allow: /wp-content/uploads/

这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件与希望抓取的文件,“ Disallow: ”是禁止抓取,“ Allow: ”是 允许 抓取。

使用方法:新建一个名称为robots.txt文本文件,将下面列表中的内容放进去,然后上传到网站根目录即可,也可点击下面下载Robots文件上传到网站根目录。

  • User-agent: *
  • Disallow: /wp-admin/
  • Disallow: /wp-content/
  • Disallow: /wp-includes/
  • Disallow: //comment-page-
  • Disallow: /?replytocom=
  • Disallow: /category//page/ Disallow: /tag//page/
  • Disallow: //trackback Disallow: /feed Disallow: //feed
  • Disallow: /comments/feed
  • Disallow: /?s=*
  • Disallow: //?s=\
  • Disallow: /?
  • Disallow: /attachment/
  • Sitemap: http://www.example.com/post-sitemap.xml

四、优化你的robots.txt文件

  • 1、不需要在robots.txt文件中添加WordPress登陆页面,管理目录,或注册页面,因为这些页面都已经被WordPress添加了noindex标记
  • 2、建议在robots.txt文件中添加禁止爬取 readme.html文件的指令。因为该文件可能被试图了解网站WordPress版本的人所利用。
  • 3、你还可以添加插件目录的禁止指令,这样可以提高网站的安全性。

五、在robots.txt 文件中添加你的XML Sitemap

如果你使用WordPress SEO插件或其他的插件生成的XML Sitemap,那么你的插件会自动尝试在robots.txt文件中添加Sitemap的相关指令。如果添加失败的话,插件会提示你连接你的XML Sitemap,那么你现在需要做的就是添加以下指令到robots.txt文件中。

Sitemap: http://www.example.com/post-sitemap.xml

Sitemap: http://www.example.com/page-sitemap.xml

下面分别解释一下各项的作用:

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
===用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: //comment-page-和Disallow: /?replytocom=
===禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category//page/和Disallow: /tag//page/
===禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback
===禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
===禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

6、Disallow: /?s=和Disallow: //?s=*\
===禁止搜索引擎抓取站内搜索结果

7、Disallow: /?
===禁止搜索抓取动态页面

8、Disallow: /attachment/
===禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

9、Sitemap: http://www.example.com/post-sitemap.xml
===Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址,以便于搜索引擎google等更方便地抓取网站。而sitemap.xml是遵守该协议的包含了一个网站所有链接的xml格式文件。 sitemap.xml文件可以手工编写,也可以通过软件自动生成,比如通过小爬虫在线生成工具。 sitemap.xml文件创建好了之后可以提交给各个搜索引擎。

Robots文件检测工具:https://ziyuan.baidu.com/robots/index

下一个准备好的Robots.txt文件:

提取码:m0c8

未经允许不得转载:下一个 » 添加Robots.txt优化你的WordPress站点

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏