网站的后台内部数据要保密,防止被黑客等不法分子攻击网站安全和窃取资料文件,以及和搜索引擎蜘蛛遵守robots协议. robots是一个协议,给搜索引擎蜘蛛看的,告诉搜索引擎那些文件不准抓取,那些文件可以抓取,就像一个守门 的保安站在门口,有好比如入学先要看校规一样,robots文件是放在根目录里面的,格式为robots.txt 二:robots文件解读 User-agent: * User-agent指的是针对谁,允许谁的意思,*指的匹配所有的意思,整句话可以理解为允许所有的意思 User-agent: Baiduspider指的是允许百度蜘蛛抓取 allow指的是允许 /指的是目录下面的层级,路径层次 allow:/ 指的是允许抓取整个网站的目录 Disallow指的是不允许 Disallow:/ 指的是不允许抓取整个网站的目录 Disallow: /data/指的是不允许抓取data/下面的文件 $:美元符号指的是匹配文件类型的意思,比如:jpg,png,txt,html等文件格式 三:robots需要屏蔽的内容 Disallow: /api/ Disallow: /data/ Disallow: /sourcel/ Disallow: /install/ Disallow: /template/ 四:网站地图可以写入robots吗 网站地图有两种,一种是html的,另一种是xml的,蜘蛛第一时间访问的是robots,所以我们把网站的地图也放在这里,更容易让蜘蛛知道我们网站的文件有什么,两种文件地图都可以写入robots里面,比如 Sitemap: http://www.habaijian.com/sitemap.xml Sitemap: http://www.habaijian.com/sitemap.html 五:如何写一个简单的robots User-agent: * Disallow: /api/ Disallow: /data/ Disallow: /sourcel/ Disallow: /install/ Disallow: /template/ Sitemap: http://www.habaijian.com/sitemap.xml Sitemap: http://www.habaijian.com/sitemap.html 注意点:不要随便屏蔽蜘蛛,会影响收录,收录都没了,那么我们也就没什么流量,流量没有网站就完了,robots的生效时间一般是9天或者两个月左右。 分享来自:http://www.habaijian.com/rumenjiaocheng/142.html |
点击查看更多