网站禁止垃圾搜索引擎爬虫访问的方法

服务器Nginx屏蔽禁止

Nginx屏蔽爬虫方法: 通过修改Nginx的配置文件nginx.conf,禁止网络爬虫的user_agent,返回403。具体操作方法是:

1、进入nginx的配置目录,例如cd /usr/local/nginx/conf

2、添加agent_deny.conf配置文件 vim agent_deny.conf 

配置文件的Server里面进行添加如下代码:

#forbidden UA
        if ($http_user_agent ~* "Bytespider|Googlebot|PetalBot|AhrefsBot|Barkrowler") {
        	return 403;
        }

其实垃圾爬虫不仅仅这几个,我们整理了常见的一些垃圾爬虫及对应的配置代码,供大家参考:

#禁用垃圾爬虫
    if ($http_user_agent ~* "RepoLookoutBot|BLEXBot|Bytespider|DotBot|DataForSeoBot|SemrushBot|Googlebot|PetalBot|AhrefsBot|Barkrowler|MJ12bot|FeedDemon|JikeSpider|Indy Library|AskTbFXTV|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|heritrix|EasouSpider|Ezooms") 
    {
        return 403;
    }

网站禁止垃圾搜索引擎爬虫访问的方法-资源工坊-游戏模组资源分享

 

本站提供服务器出租☞💻多人联机.服务器24小时运行.小白开服无忧💻
© 版权声明
THE END
喜欢就支持一下吧
点赞11赞赏 分享
评论 抢沙发
头像
禁止恶意灌水,违者封禁!
提交
头像

昵称

取消
昵称表情

    暂无评论内容