请教一个robots.txt的规则。-Web技术-全球主机交流论坛

砍柴郎 发表于 2017-9-30 22:20:04

请教一个robots.txt的规则。

我有一个网站，由于商品介绍页面会在一定时间内失效（失效后这个页面就没有了），如果百度收录了商品页面，当商品失效了，就会是403。
我现在想不让百度收录这种商品介绍页面，是不是在网站根目录下建立一个robots.txt文件。写上以下语句，就可以让百度不抓取商品页面了（当然，不要影响网站其他页面的抓取）

商品页面的格式如下：http://www.ABC.COM/index.php/item/id/499055.html

我百度了一下，想问以下语句是否正确？

User-agent: *
Disallow: /*/item/id/$

倾城翻翻 发表于 2017-9-30 22:20:05

你可以写个跳转规则，虽然商品页面没有了，但是搜索引擎还是收录了地址，只要从过期商品地址来的，做个跳转到首页。做一个404的页面，然后跳转。

leaveoff 发表于 2017-9-30 22:23:52

正确

砍柴郎 发表于 2017-9-30 22:26:14

leaveoff 发表于 2017-9-30 22:23
正确

/item/id/
请问这些斜杠没问题吧？

倾城翻翻 发表于 2017-9-30 22:27:16

你这样处理不太好啊，就那个写法，如果不写具体页面，所有的商品页都被K了。

砍柴郎 发表于 2017-9-30 22:29:26

倾城翻翻发表于 2017-9-30 22:27
你这样处理不太好啊，就那个写法，如果不写具体页面，所有的商品页都被K了。 ...

但商品页的有效期确实不长，没办法。只要全部屏蔽了。

砍柴郎 发表于 2017-10-1 09:05:24

倾城翻翻发表于 2017-9-30 22:20
你可以写个跳转规则，虽然商品页面没有了，但是搜索引擎还是收录了地址，只要从过期商品地址来的，做个跳转 ...

多谢哥们！

页: [1]

全球主机交流论坛's Archiver

请教一个robots.txt的规则。