《搜索引擎原理系列教程》不是一本书,但由于其实用的信息和内容,它也弥补了百度白皮书的一些缺点——文字肤浅。此外,值得鼓励的是,本教程完全由一位私人SEO爱好者总结而成,这种精神值得称赞。这里还是想说三个方面,也是SEOER比较关心的三个方面:收录、索引和排名。
一。包容性
搜索引擎收集网页的过程实际上是一个复杂的过程,简单地分为四个步骤:
1.调度程序是整个收集过程的核心,其中有一个已访问的URL库和一个未访问的URL库,统称为URL库。首先,调度程序会从URL库中取出一个未被访问过的URL并将其分配给蜘蛛,以便蜘蛛可以抓取未被爬取的URL。
2.当蜘蛛获得一个URL时,它将向返回的URL发送请求。流程如下:URL对应域名的DNS解析-》与IP的Socket连接-》连接成功后的http请求-》接收网页信息。
3.蜘蛛获取网页信息后,会将源代码返回给调度器,调度器将源代码保存到网页数据库中。
4.调度程序将提取已爬网网页的链接,将未封顶的URL存储到未访问的URL库中,并将刚爬网的URL更新到已爬网的URL库中。
这将涉及减肥。
调度程序的工作流程
1.依次从访问过的URL列表中取出URL,并将其分配给每个蜘蛛。
2.蜘蛛获取URL,对其进行爬行以获取网页的源代码,并从源代码中提取URL以获取网页中包含的所有URL。
3.调度器顺序检查所获得的URL是否存在于被访问的URL库中。如果它存在,则意味着它已被爬网,则该URL将被丢弃;如果不存在,则意味着该URL尚未被爬网,然后将其按顺序添加到未访问的URL列表中,并在等待后进行爬网。
4.重复步骤1,直到未访问的表为空。
第二,指数
网页预处理
1.索引原始网页。
2.对搜索到的网页库进行网页切分,将每一页转化为一组词。(正向索引)
3.将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排列表和索引词列表)。
一般来说,搜索引擎从网页数据库中获取网页,然后过滤代码,然后提取文本信息,然后切词。下一步是过滤关键词集以获得网页关键词的正向索引,最后搜索引擎将正向索引转换为网页的反向索引。正是这项技术使搜索引擎能够在1S内将搜索结果呈现给用户。
此外,搜索引擎做的行动是网页净化和重复消除。除了去除网页中的噪声内容、提取网页主题和相关内容之外,还去除了网页中的内容重复。
有些同学可能会问,搜索引擎是如何识别主要内容的?事实上,该算法通过构建HTML标签树和投票来识别文本。
例如,让我们制定一个规则,
1.如果文本块的文本长度少于10个单词,0点。10到50个单词之间,得5分。50到250个单词之间,8分。250字以上,10分。
2.如果文本块的文本位置在右侧,则得分为0。在顶部,得到3分。在左边,得到5分。在中间,得到10分。
然后我们可以得出结论,页面的标题是9,加粗的H1标签是8等等,DIV部分的广告部分是0并被丢弃。
搜索引擎必须通过三个步骤来消除重复页面。首先是特征提取,然后是相似度计算、相似度评估,最后是去重。
实际上,搜索引擎算法与用户交互的过程就是一个查询过程。比如用户搜索“搜索引擎原理”,算法分词后得到“搜索引擎”和“原理”。我们在倒排索引表中找到包含这两个文档的列表,然后对用户查询和上一步在文档列表中找到的一个记录进行矢量化,然后找到查询向量和文档向量之间的相似度,然后从高到低对它们进行排序,最后我们看到。
第三,排名
最后,让我们以一个例子作为结尾:
搜索引擎的网页权重=网页中单词的基本权重+链接权重+用户评价权重。
网页中单词的基本权重
1,例如,关键字“搜索引擎”在
2.关键词“搜索引擎”可能在文档的其他地方出现n次,每次出现可以计算一个WBT1,因此关键词“搜索引擎”在整个文档中的权重可以计算如下:
WBT(关键词,网页)=WBT,+ WBT,+…+WBTT =》wBT。
相关排序–计算链接权重
相关排名-用户评价权重的计算
….
最终重量的计算
搜索引擎可以通过配置KWB、KWL和KWU来设定影响权重的因素。例如,如果搜索引擎将KWL设置为0.8,而KWB和KWU都为0.1,这意味着搜索引擎更关注链接对权重的影响。通过这种算法,可以很容易地调整算法。
版权声明:本文内容由网民自发贡献,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不具有所有权,不承担相关法律责任。如果您发现任何涉嫌抄袭的内容,请发送电子邮件至365161286@qq.com进行举报。一经核实,本网站将被立即删除。
转载请注明来自专注于seo技术、教程和推广-小龙SEO培训教程,本文标题:《百度搜索引擎排名原则》
发表评论