总结分析:
总结分析:
$ua=$_SERVER['HTTP_USER_AGENT'];
通过UA信息防止镜像
wp_die('郑重警告:请勿采集本站,因为采集的站长木有小JJ!');
//获取UA信息
}else{
foreach($now_uaas$value)
稳定主机基本上是个站点优化里老生常谈的问题了,但是对于一个喜爱折腾的草根站长来说,有时候真的是“Nodo!Nodie!”呀,不折腾就不会有那么多的问题,前一阵子为了好玩在侧边栏里加入了“百度打赏”的组件,没有想到造成了评论链接一直报“连接超时”的提示框,废了很大的功夫才找到是“百度打赏”的一段代码链接死链造成的。又因为折腾缓存插件缓存了全站的JS文档,造成网站评论提交后出现“404页面”都半个多月了才发现,囧呀!
header("Content-type:text/html;charset=utf-8");
wp_die('郑重警告:请勿采集本站,因为采集的站长木有小JJ!');
恶意镜像的处理
header("Content-type:text/html;charset=utf-8");
functiondeny_mirrored_request()
//判断是否是数组中存在的UA
复制代码
总结分析:
2、因疏忽删除了robots.txt,而主题已经不支持“主域名.com/page/”的链接形式,收录了一大量“主域名.com/page/”的无效链接,这些链接都是指向“主域名.com”的。
用到的代码如下(以下代码都是添加到主题的Function.php里的,):
主机的稳定性很关键
1、恶意镜像泛滥严重。
3、主机因为配置不当造成稳定性下降,经常宕机,百度站长平台收录抓取报错频繁。
add_action('init','deny_mirrored_request',0);
因为疏忽删除了robots.txt,现在看来这是一个不可原谅的疏忽呀!在robots.txt加上“Disallow:/page/”禁止搜索引擎抓取,并且在百度站长平台里提交“主域名.com/page/”死链来去除搜索结果里的这些无用链接,经过3-5天后搜索结果里没有这些死链了。
}
复制代码
if(eregi($value,$ua)){
$now_ua=array('PHP','FeedDemon','BOT/0.1(BOTforJCE)','CrawlDaddy','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','IndyLibrary','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','MicrosoftURLControl','YYSpider','jaunty','Python-urllib','lightDeckReportsBot');
目前看来,举报反馈还是有效果的,两个代码也起到了一些作用,毕竟恶意镜像是为了借助镜像网站的流量来达到不可告人的目的的,直接跳转回指定域名对其反制还是“有的放矢”的。
另外除了举报和反馈外,还通过在百度里搜索网站首页标题可以在结果里找到恶意镜像的网址域名并记录下来,通过ping解析获得IP,通过.htacess来屏蔽这个IP,这个工作要经常性的去做,日积月累的可以有效的遏制恶意镜像的。
恶意镜像最近泛滥成灾,发现很多博客都遇到这个问题,特别是在百度的搜索结果里特别的多,谷歌里这种问题几乎没有,看来百度在这方面的技术有待提高呀,至于这种恶意镜像实现原理据说是“反向代理”实现的,成本非常的低,防范措施网上倒是不少,但经过我近一周的测试,有用的很少很少,最后就找到一个自动跳转会指定域名代码有点效果以及一个通过判断UA信息来防止恶意镜像的代码。经过近十天的使用感觉也是治标不治本的方法,没有办法了只能采用最笨的方法,那就是向百度反馈和举报了。
add_action('wp_footer','deny_mirrored_websites');
echo'<imgstyle="display:none"src=""onerror=\'varstr1="'.$currentDomain.'";str2="docu"+"ment.loca"+"tion.host";str3=eval(str2);if(str1!=str3){do_action="loca"+"tion."+"href=loca"+"tion.href"+".rep"+"lace(docu"+"ment"+".loca"+"tion.ho"+"st,"+"\"'.$currentDomain.'\""+")";eval(do_action)}\'/>';
robots.txt文档还是非常重要的,绝对是不能没有的,特别是国内网站,因为百度自身技术的不成熟对于链接的分析和辨析能力还是依赖人工的多一些,所以robots.txt一定要用好了,并且robots.txt的要随着网站的连接结构调整而进行相应的配置,这次首页品牌词权重的丢失估计跟robots.txt有很大的关系,失效的“主域名.com/page/”应该是分化了首页链接的权重的。
if(!is_admin()){
//禁止空USER_AGENT,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT
robots.txt的启用