砍柴郎 发表于 2017-9-30 22:20:04

请教一个robots.txt的规则。

我有一个网站,由于商品介绍页面会在一定时间内失效(失效后这个页面就没有了),如果百度收录了商品页面,当商品失效了,就会是403。
我现在想不让百度收录这种商品介绍页面,是不是在网站根目录下建立一个robots.txt文件。写上以下语句,就可以让百度不抓取商品页面了(当然,不要影响网站其他页面的抓取)

商品页面的格式如下:http://www.ABC.COM/index.php/item/id/499055.html


我百度了一下,想问以下语句是否正确?

User-agent: *
Disallow: /*/item/id/$

倾城翻翻 发表于 2017-9-30 22:20:05

你可以写个跳转规则,虽然商品页面没有了,但是搜索引擎还是收录了地址,只要从过期商品地址来的,做个跳转到首页。做一个404的页面,然后跳转。

leaveoff 发表于 2017-9-30 22:23:52

正确

砍柴郎 发表于 2017-9-30 22:26:14

leaveoff 发表于 2017-9-30 22:23
正确

/item/id/
请问这些斜杠没问题吧?

倾城翻翻 发表于 2017-9-30 22:27:16

你这样处理不太好啊,就那个写法,如果不写具体页面,所有的商品页都被K了。

砍柴郎 发表于 2017-9-30 22:29:26

倾城翻翻 发表于 2017-9-30 22:27
你这样处理不太好啊,就那个写法,如果不写具体页面,所有的商品页都被K了。 ...

但商品页的有效期确实不长,没办法。只要全部屏蔽了。

砍柴郎 发表于 2017-10-1 09:05:24

倾城翻翻 发表于 2017-9-30 22:20
你可以写个跳转规则,虽然商品页面没有了,但是搜索引擎还是收录了地址,只要从过期商品地址来的,做个跳转 ...

多谢哥们!
页: [1]
查看完整版本: 请教一个robots.txt的规则。