网站优化
当前位置:主页 > 建站资讯 > 网站优化 >
百度蜘蛛获取不存在的目录和相应的解决方案
发布日期:2021-03-24 阅读次数: 字体大小:

我相信您在分析百度蜘蛛日志时经常会发现问题,即百度蜘蛛经常爬网一些不存在的目录,例如:我的网站没有这些目录,但是百度蜘蛛已经在爬网,否则您将 找到百度蜘蛛正在爬您自己的私有目录,或php文件,这是为什么? 今天,我将为您提供详细的分析并解释相应的解决方案。 本文有很多干货,建议您仔细阅读。

百度蜘蛛获取不存在的目录和相应的解决方案


1,如果蜘蛛只抓取首页,而不抓取内页,会发生什么! 很简单,域名存在问题。 一般来说,如果您遇到这种情况,域名可能正在审查期内,也就是说您从事的行业不合法,或者您的程序涉嫌作弊,但域名所占比例相对较大 。 如果程序有问题,开始百度蜘蛛也将抓一些。

百度蜘蛛获取不存在的目录和相应的解决方案


2,如果百度蜘蛛抢了一些私有文件,例如php,zip,rar,会发生什么! 在这种情况下,您必须判断当前IP是否是伪造的Spider文件,因为许多IP会自动更改其UA,就像百度蜘蛛,您无法从Spider日志中分辨出,您可以识别IP,使用 ip138看看它是否是蜘蛛IP。 如果不是,则果断地阻止它。 如果数量太多,请根据IP段将其阻止。

百度蜘蛛获取不存在的目录和相应的解决方案

百度蜘蛛获取不存在的目录和相应的解决方案


3,如果百度蜘蛛抢了一些私有目录,那么在真正的蜘蛛的情况下该怎么办。 如果您确认它是正确的百度蜘蛛,则百度可能正在爬网您的页面内部程序,检查您正在使用的程序的版本等,这些百度将有一个区别策略,通常来说,该程序是由 百度本身就把高分放在首位,仅此而已。 为了防止Spider抓取我们的私有目录,我们通常使用robots.txt进行阻止,请记住:有效时间约为24小时。

百度蜘蛛获取不存在的目录和相应的解决方案


4,如果蜘蛛抓取了一些不存在的目录和一些不存在的文件怎么办?
首先,仍然要判断它是否是真正的蜘蛛。 如果是真正的蜘蛛,那么百度会爬网一些不存在的目录,因为您之前已经为该域名做过一些站点,现在您就可以开始做。 百度将根据之前的评分和网址进行抓取。 获取并查看以前的站点是否已还原。 一般来说,这种爬网会在30天内自动消失。 如果30天后问题仍然存在,则必须阻止此类链接。 简而言之:这种爬网对于您的网站而言,没有太大的危害,只是进行调查。还有另一种情况。 如果您在当前域名中添加301个其他站点,则爬网程序将根据另一个站点的URL来爬网您的站点。 这时,您还会发现百度正在爬网一些不存在的目录。,但是请不要担心,这不会伤害您的网站。

百度蜘蛛获取不存在的目录和相应的解决方案


5,蜘蛛爬行,301、304、200、403、404、444状态码怎么办?
首先,我们必须了解301状态码是重定向。 如果您的顶级域名(例如daidaiseo.com-“ https://www.jianzhanlong.com(建站龙)),则当百度抓取daidaiseo.com上的资源时,它将出现301重定向的代码,如果您在https://www.jianzhanlong.com(建站龙)上获取资源, 它应该是200状态码,这表示抓取成功
为什么要进行爬网304状态码?如果您在日志上看到304状态码,则表示您的资源一直没有改变,属于 静态页面资源304状态码,对网站的影响相对较小,一般来说,百度CDN已被缓存,很容易出现304状态码,但是只要您每天向百度提交资源并保留它们
403是权限问题。禁止访问。这是因为您的服务器已设置,而找不到444的服务器,而404是空页。此页丢失 。这三个状态码表示网站存在问题直播:请勿让网站上有大量404菜单,您可以将状态码更改为403以限制访问。如果全部为404,则表示 大量 网站上的页面数量不可用,百度得分将降低。 好吧,我今天将解释很多。,稍后我将继续分享这方面的知识点。

标签:顶级域名php文件301重定向百度蜘蛛状态码304状态码静态页面资源百度蜘蛛日志