魔扣论坛

魔扣源码论坛业务
查看: 277|回复: 1

robots.txt文件问题攻略大全

[复制链接]
  • TA的每日心情
    难过
    20 小时前
  • 签到天数: 2954 天

    [LV.Master]开坛老将

    7万

    主题

    227

    回帖

    27万

    积分

    管理员

    Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30

    魔扣币
    745683
    贡献
    157891
    威望
    32799

    最佳新人活跃会员热心会员推广达人宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2019-5-27 08:45:11 | 显示全部楼层 |阅读模式
    魔扣币兑换比例:【 50以下 : ¥1 = 10 魔扣币 】丨【 50 - 100 :¥1 = 20 魔扣币】丨【 100以上:¥1 = 30 魔扣币 】

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?立即注册

    x
    robots.txt文件
                    robots.txt文件问题攻略大全,本文中seo实验室将大家常遇到的关于robots.txt文件的相关问题进行汇总,希望大家又长知识了。
    1、robots.txt是什么?
    解答:robots.txt是一个纯文本文件。简单说就是一个互联网协议,是针对搜索引擎蜘蛛抓取网站时的一个提前声明。通过robots.txt文件告诉蜘蛛,该网站的哪些文件你能访问抓取,哪些文件不要去访问抓取,从而规避一些隐私文件或不想被收录的文件被蜘蛛爬取到,起到一个引导蜘蛛的作用。
    搜索引擎蜘蛛爬取网站的第一个文件会优先选择robots.txt文件,所以在引导蜘蛛时robots.txt文件就显得尤为重要。

    2、robots.txt写法
    解答:robots.txt文件的写法,seo实验室在《robots编写秘籍》一文中有详细的说明,这里做几个重点说明。
    user-agent:* 这里的星号,代表泛指所有的搜索引擎,如需要特指某个蜘蛛,则将各个搜索引擎蜘蛛的名称写下即可。
    各大常用搜索引擎蜘蛛名称如下:
    Google蜘蛛:googlebot
    百度蜘蛛:baiduspider
    yahoo蜘蛛:slurp
    alexa蜘蛛:ia_archiver
    msn蜘蛛:msnbot
    bing蜘蛛:bingbot
    altavista蜘蛛:scooter
    lycos蜘蛛:lycos_spider_(t-rex)
    alltheweb蜘蛛:fast-webcrawler
    inktomi蜘蛛:slurp
    有道蜘蛛:YodaoBot和OutfoxBot
    热土蜘蛛:Adminrtspider
    搜狗蜘蛛:sogou spider
    SOSO蜘蛛:sosospider
    360搜蜘蛛:360spider
    屏蔽所有蜘蛛写法:
    user-agent:*
    disallow: /
    提示:这里的斜杠代表网站根目录。
    屏蔽单个搜索引擎蜘蛛写法(如屏蔽谷歌):
    user-agent:googlebot
    Disallow: /
    屏蔽单个目录:
    user-agent:*
    Disallow: /a/
    提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽;加斜杠/a/表示只代表a目录下的所有文件。
    屏蔽单个页面:
    user-agent:*
    Disallow: /123.html
    释放已屏蔽目录中的某个文件:
    user-agent:*
    Disallow: /a/
    Allow: /a/img/
    屏蔽所有动态页面:
    user-agent:*
    Disallow: /*?*
    加入网站地图文件:
    user-agent:*
    sitemap: http://www.seo-6.com/sitemap.xml
    Sitemap: http://www.seo-6.com/sitemap.html
    提示:尽量把链接写完整,免得抓取出错。
    关于robots具体屏蔽那些文件,请阅读《robots具体禁止什么文件》一文,文中有详细阐述,这里不细讲。
    3、robots.txt放在哪里?
    解答:robots.txt必须指定放在一个网站的根目录下,且文件名必须全部小写。
    相应url地址例如:
    http://www.seo-6.com/robots.txt
    4、robots.txt文件存在限制指令
    解答:这个也就是大家,常看到某些网站,快照描述写着“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容”,其实就是该网站屏蔽了搜索引擎抓取,淘宝最为明显。

    就是这个写法:
    user-agent:*
    disallow: /
    解决办法,进入网站根目录,找到robots.txt文件,删除掉里面的“disallow: /”,然后等待快照更新就可以了。
    5、robots.txt怎么看?
    解答:都是进入网站空间,找到根目录下的robots.txt文件,打开观察写法,文件屏蔽,查看是否有误或新增即可。直接观察可以在浏览器输入主域名+robots.txt即可观察,修改还是要到服务器空间或ftp里面处理。
    6、robots.txt可以删除吗?
    解答:可以删除,但是对蜘蛛很不友好,建议不要删除,且把内容写完整。
    7、robots.txt允许收录
    解答:允许收录也就是写法,参考第二点写法规则即可。
    8、robots.txt安全防渗透说明
    解答:一般robots.txt文件中,我们会写到屏蔽后台路径如下:
    user-agent:*
    Disallow: /admin/
    这个路径我们不能像上面这样直接写出来,很容易被别人窥视加以利用,所以一般我们需要设置复杂一点,并用星号泛指来表示。
    如下:
    user-agent:*
    Disallow: /a*n/
    将中间部分用泛指表示出来,蜘蛛是可以根据前后对照识别出文件,但别人想要知道就很难了,可防止被攻击,增加安全性。
    9、robots.txt文件本身安全吗?
    解答;robots.txt本身是没安全问题的,但如果空间被入侵,robots.txt文件被修改可能就会出错了。不过也很容易察觉到,一旦你发现异常了,修改回来就好了,所以robots.txt文件也需要时常看看是否有问题,做好安全维护工作。
    好了以上就是这些内容,相信大家已经掌握robots要诀了,还没明白的就多看几遍。
            相关阅读
    解决FTP上传文件速度慢的问题
    我们在利用ftp的storeFile()上传存储文件的时候,为了让上传速度提升,建议采用添加缓冲区的方式,根据上传文件的大       小,设置
    Windows远程时无法复制文件--杀进程rdpclip.exe,然后再
    1.远程登陆到主机上2.任务管理器杀进程rdpclip.exe3.【开始】,搜索rdpclip.exe,点击运行此时重新复制文件,可以跨主机复制啦原以为是
    产品经理之技术篇:配置文件
    文章为作者经历一个项目后对配置文件的思考总结,希望能够给你一些启发。一、为什么要了解配置文件?配置文件是技术童鞋在开发过程中
    ffmpeg添加字幕(包含srt文件)
    words.srt代码
    1
    00:00:00,0 --> 00:00:10,540
    旅行有起点也总有终点,旅行是结束也是重生。
    生活并未给我们放纵和沉溺的机会,那
    C语言:lseek函数-----改变文件偏移量
    1.文件偏移
    通常调用read或write每读写一个文件,就会改变文件的读写位置。在linux中同样可以使用lseek函数来修改文件偏移量,即读

    该用户从未签到

    1

    主题

    261

    回帖

    523

    积分

    高级魔扣

    Rank: 4

    魔扣币
    261
    贡献
    261
    威望
    0
    发表于 2023-2-11 09:00:04 | 显示全部楼层
    秀起来~
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    • 联系我们
    • 新浪微博 :
    • 在线客服 :魔扣科技 
    • 源码QQ群 :魔扣源码论坛官方总群
    • 联系邮箱 :charlin#morko.net
    • 微信扫一扫
    快速回复 返回顶部 返回列表