WordPress网站如何配置robots.txt文件

robots.txt介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容,当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取,robots.txt必须放置在网站根目录且名称必须为小写

使用robots.txt的好处

  • 防止搜索蜘蛛抓取网站无关紧要的页面,以免服务器压力过大
  • 避免搜索引擎索引重复页面,集中网站权重
  • 屏蔽网站内的死链接,死链会影响搜索引擎对网站的评估
  • 屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面
  • 阻止搜索引擎索引网站隐私性的内容

WordPress应该怎样布置robots.txt

下面是小洪博客使用的robots.txt

User-agent: *
Disallow: /player/url=*
Disallow: /?s=*
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /author/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
sitemap:https://www.honglog.com/wp-sitemap.xml

参数说明

  • /player/url=* 这是小洪博客禁止索引本站视频解析的参数,这条无需使用
  • /?s=* 禁止索引博客的搜索页面,无需索引,因为很多灰产会利用搜索页面来推广
  • /cgi-bin/ 禁止索引服务器cgi目录
  • /wp-admin/ 禁止索引wordpress后台
  • /wp-includes/ 禁止索引wordpress程序运行的必须库
  • /wp-content/目录中plugins,cache,themse无需索引,可根据需求决定
  • /author/ 禁止索引作者文章列表,重复内容,可根据需求决定
  • /trackback/ 重复内容,无需索引
  • /feed/ 重复内容,无需索引
  • /comments/ 重复内容,无需索引
  • sitemap 声明自己的网站sitemap地址

可根据自己站点特性来修改文件内容,然后保存为robots.txt放置在网站根目录

版权声明:
作者:HONG
链接:https://www.honglog.com/422.html
来源:小洪博客
本站遵循cc共享许可协议:BY-NC-SA 4.0 转载请注明出处
THE END
分享
二维码
打赏
< <上一篇
下一篇>>
文章目录
关闭
目 录