瑟奇营销

SEO大神Zero:浅谈搜索引擎的网页文档结构化

为了不断章取义,首先要对几个常见的术语加以或者重写认识和理解。
        1、半结构化数据
        互联网上的数据,一般都是以网页为载体表现,那万维网的网页是具有一定的结构性,这种结构性的表现是基于html标记语言。这种网页原始数据被称为“半结构化数据”。

        2、网页数据的信息抽取
        对于半结构化的数据,是不能满足网页结构化的需要。那首要的工作是分门别类的从半结构化网页中抽取出有价值的能够代表网页的属性。锚文本,标题,正文标题,正文,正向链接。这样技术实现被称为“网页数据的信息抽取”。

        3、锚文本
        或许看到这里的时候,会有人抱怨,这个你也需要解释。这都是一下最基础的知识!我会选择沉默,但请你看完之后在下定论。网页中关于链接的一段描述,通常以文本图片的方式出现。以链接的方式可以指向文中的某个位置,也可以指向其他网页。或许这样的认识,对于你在其他地方看到的理解有些不同吧。细心的人,总是能超越别人很多的。
      
       通过以上几个术语的学习,我们要开始进入搜索引擎结构化数据的大门,从而通过这些基础理论知识指导我们如何做好网页文档。网页抽取信息中,提到了几个重要的因素,下面先从这里开始谈起:
        1.标题:title包含了网页的基本含义,和锚文本相同的是,都是用来描述网页的内容的属性。
        2.正文标题:在html网页中,<title>标签中的文字没有任何描述能力,因而并不是合格的标题,为此需要抽取正文中的适当文字作为正文标题。
        3.锚文本:除了网页标题可以描述网页以外,还会有一些锚文本来描述它,特别是对于某些没有标题的网页,锚文本是最有益的补充。
        4.正文:锚文本、标题和正文标题都是网页的简短描述,而正文是一个网页的主题内容,它完整的表述了网页的主题内容,一般出现在<DIV>、<table>、<p>等。
          5.正向链接:正向链接是引导用户继续在网上冲浪的链接,这些链接的文字也是其他网页的锚文本。一个网页至少包含这5个属性。
        我相信,通过这里的学习,大家已经对网页文档的构建和理解,都会有所新的认识。之前的那种为什么标题是重要权重标签,为什么锚文本重要呢,为什么锚文本不只是文字形式展现,为什么链接对SEO比较重要等等一些为什么,大家都会有些认识和理解。这就是你掌握了原理性的知识,才会知道这些作用后会有什么样的SEO效果。接下来我们就谈谈搜索引擎做好信息抽取这一步之后,所要面临的结构化过程和如何实现!

      搜索引擎的网页文档结构化
        搜索引擎的网页结构化的过程一般可以理解为两步走:第一建立HTML标签树,第二通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。

        首先我们来看一下建立HTML标签树是怎么实现
              由于HTML标签有一定的嵌套关系,因此通过一定的技术手段整理一个网页的所有html标签,就会得到的是树状结构。这就是建立HTML标签树。
        
        再看第二通过投票方法识别正文的文本
        通过建立标签书的实现,正文就具有了分块保存的特性,因此引入文本块的概念。一般来说网页会出现3种类型的文本块。
       (1)主题型文本块
        是指大段文字的文本块,例如<p></p>,<td><td/>等
       (2)目录型文本块
        是指描述链接的文本块,例如<a href=””> <a/>
       (3)图片型文本块
        是描述图片的文本块,例如<img src=””/> 目录型文本块和图片型文本块容易识别。
        如何判读那个文本块是正文,常规的采用手法是”投票算法”计算,这种方法在搜索引擎中特别重要。在这个投票算法中,(重点:除掉一个最高分和最低分)别人为是相对客观和可信的。通过一些规则为每一个文本块打分,得分最高的别人为是正文的可能性足够大,并且可以接受。投票实际规则比较复杂!搜索引擎一般定义为【文本的长度】和【文本的位置】右侧为0分,顶部为3分,左侧为5分,中间为10分。
       剩下的工作就是采用深度优先遍历标签树依次记录主题类型的文本块,即可得到该网页的正文。

SEO大神Zero:浅谈搜索引擎的网页文档结构化

发表评论

邮箱地址不会被公开。 必填项已用*标注

滚动到顶部