搜索引擎抓取您的网站,将内容放入其索引中。你的网站越大,抓取的时间就越长。浏览你的网站所花的时间非常重要。如果你的网站只有1000页或更少,那么这不是你需要考虑的话题。如果您计划开发您的网站,在本文中,我们将介绍爬行效率以及您可以采取的措施。所有搜索引擎都以相同的方式爬行。
1.爬虫如何抓取你的网站?
百度会在网络上的某个地方找到您网站的链接。
此时,URL是虚拟堆的开始。之后,过程非常简单:百度蜘蛛从那一堆中获取一个页面;它抓取页面并索引所有内容以供百度使用;然后它将页面上的所有链接添加到堆中。在抓取过程中,百度蜘蛛可能会遇到重定向。它被重定向到的URL在堆上。
您的主要目标是确保百度蜘蛛可以访问网站上的所有页面。第二个目标是确保快速捕获新内容和更新内容。一个好的网站架构将帮助你实现这个目标。尽管如此,你仍然可以很好地维护你的网站。
第二,爬行深度
在谈论爬行时,一个重要的概念是爬行深度的概念。假设您有1个链接,从您网站上的1个网站到1个网页。这个页面链接到另一个页面、另一个页面、另一个页面等等。百度蜘蛛还会继续爬行一段时间。但在某个时候,它会决定不需要继续爬行。当这种情况发生时,它取决于链接到第一页的重要性。
这似乎是理论上的,所以让我们看一个实际的例子。如果你有10,000篇文章,所有文章都属于同一类别,每页显示10篇文章。这些页面仅链接到“下一页”和“上一页”。百度需要抓取1000个页面才能获得这10000个帖子中的第一个。在大多数网站上,它不会这样做。
这就是为什么使用类别/标签和其他分类法进行更细粒度的细分非常重要。不要过度使用它们。根据经验,标签只有在连接三个以上的内容时才有用。此外,请确保优化这些类别的文件。
用数字链接到更深的页面,这样百度蜘蛛可以更快地到达目的地。假设您将第1页链接到第1页的第10页,并继续这样做。在上面的例子中,最深的页面距离主页只有100次点击。
保持网站快速运行。你的网站速度越慢,抓取的时间就越长。
第三,XML网站地图和爬行效率
您的站点应该有一个或多个XML站点地图。这些XML站点地图告诉百度哪些URL存在于您的网站上。一个好的XML站点地图还会显示您上次更新特定URL的时间。大多数搜索引擎会比其他搜索引擎更频繁地搜索XML站点地图中的URL。
在百度搜索控制台中,XML站点地图为您提供了额外的好处。对于每个网站地图,百度会向您显示错误和警告。为此,您可以为不同类型的URL创建不同的XML站点地图。这意味着您可以看到网站上哪些类型的URL问题最多。
第四,爬行效率低的问题
1.许多404和其他错误
百度抓取您的网站时会遇到错误。它通常只是从堆中挑选下一页。如果在抓取过程中网站出现很多错误,百度蜘蛛就会变慢。这是因为它害怕爬得太快会出错。为了防止百度蜘蛛变慢,您需要修复尽可能多的错误。
百度将在其网站管理员工具中向您报告所有这些错误,360和搜狗也将如此。我们之前介绍过百度搜索控制台和360站长工具中的错误。
你不会是我们见到的第一个客户。它在百度搜索控制台中有3000个实际网址和20000个错误。不要让你的网站变成这个网站。每月至少定期修复一次这些错误。
2.301重定向太多
我最近在一个刚刚完成域名迁移的网站上咨询。网站很大,所以我用我们的一个工具对网站进行了全面抓取,看看我们应该修复什么。显然,我们有一个大问题。这个网站上的一大群URL总是链接到没有尾随斜杠的链接。如果您使用不带斜杠的URL,301将被重定向。您将被重定向到带有斜杠的版本。如果您网站上的一两个URL有问题也没关系。事实上,这通常是主页的问题。如果这是你网站上250,000个URL的问题,那么这将成为一个更大的问题。百度蜘蛛不用爬25万个网址,而是爬50万个网址。这不是很有效率。
这就是为什么当您更改URL时,您应该始终尝试更新网站中的链接。如果你不这样做,随着时间的推移,你会得到越来越多的301重定向。这会降低你的抓取速度和用户速度。大多数系统需要一秒钟让服务器重定向。这将使页面加载时间增加一秒钟。
3.蜘蛛陷阱
如果你的网站在百度眼里更权威,那么有趣的事情就会发生。即使链接明显没有意义,百度也会抓取。给百度一个虚拟的无限旋转楼梯将继续前进。
版权声明:本文内容由网民自发贡献,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不具有所有权,不承担相关法律责任。如果您发现任何涉嫌抄袭的内容,请发送电子邮件至365161286@qq.com进行举报。一经核实,本网站将被立即删除。
转载请注明来自专注于seo技术、教程和推广-小龙SEO培训教程,本文标题:《百度蜘蛛爬行定律》
发表评论