通过了解搜索引擎基本工作原理掌握SEO优化技巧
对于一个SEO新手来说,你不需要考虑太多的东西,明白了伪原创也是制胜的法宝的真谛,了解获取外链资源的方法,足以让你受益匪浅。而随着SEO工作的不断深入,你也就会慢慢的发现充分利用好网络给予你的一针一线的重要性。了解搜索引擎的工作原理,其意义自然不在话下。

搜索引擎的工作原理,简单来说,主要是三个步骤:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。排名这一块设计算法问题,暂且不去深究,这里主要说说爬行和抓取以及预处理两个方面。
搜索引擎爬行和抓取原理
通过蜘蛛程序,各搜索引擎在访问网站时都会先去抓取网站根目录下的robots.txt文件,从而获取网站中被禁止爬取网址的信息。对于被禁止抓取部分的网址,不会被搜索引擎收录。

每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。为了获取更多的信息,蜘蛛会通过顺着页面上的链接来抓取页面。从理论上来说,蜘蛛可以通过链接抓取整个互联网上的信息,但是在实际操作中,考虑到页面的复杂程度,蜘蛛会采取深度抓取和广度抓取两种方式来进行页面抓取的工作。为了避免重复爬行和抓取,搜索引擎会建立包括已发现但未被抓取以及已被抓取的两个网页地址库进行参考对比,而被抓取的页面会进入原始的页面数据库。到此为止,原始数据库的建立就告一段落了。
搜索引擎预处理(索引)阶段原理
蜘蛛抓取到网页后,建立原始数据库,搜索引擎会对网页进行文字提取的处理,当然,除了页面上显示的文字外,搜索引擎还会对诸如meta标签、flash替代文件,锚文本、alt标签等部分的文字进行提取。提取文字完毕,便会进入下一个阶段:分词。
不管百度算法怎么样,但是不可否认的是,百度的中文分词技术在搜索引擎中的霸主地位无人可以撼动。对于页面上抓取到的文字,搜素引擎会进行分词处理,比如将“十堰网站优化”分为“十堰”、“网站优化”两个部分。而分词的方法,一般会有词典与统计两种手段。词典不需要太多解释;至于统计,是指通过分析大量文本从而计算字与字之间相邻出现的概率,概率越大,越容易形成一个词。百度目前是将两种方法结合使用,来达到最佳的效果。
说到这里,大家会问,针对一些中文中常出现的词,比如“的”、“了”、“呀”之类没有实际意义但是使用频率又很高的词,会怎么样处理呢?答案是剔除,从而提高搜索引擎的计算效率。
在浏览网页的信息时,我们会发现,有一些板块,在网站是重复出现的,比如“导航”、“广告”等,这部分东西,对于所属页面的显示内容来说,并没有实际的意义。搜索引擎也会将此部分内容进行处理,从而筛选出所收录页面阐述表达内容的最终文字部分。当然,文字部分筛选出来之后,搜索引擎还会对各个网页上所显示的最终文字内容进行对比,从而删除掉重复的内容进行显示。
经过上述的几个步骤,就可以建立索引库了,此时的索引会分为正向索引和倒排索引两个阶段。正向索引,可以简单的理解为将收录页面的网址为主键,以该页面上进行分词处理之后的结果为内容建立起的数据库,如下图所示。

正向索引结束,我们可以发现还不能用于排名,这时就需要倒排索引,即以关键词为主键,以包含该关键词的网址及对应内容为内容建立索引数据库,如下图所示。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
至此,搜索引擎再通过对链接分析以及特殊文件的处理,预处理(索引)阶段也就完成了。从中我们也可以看出,了解了搜索引擎原理,对于日常的SEO工作理解以及启发作用还是十分明显的。比如,你在伪原创的过程中,只是简单的给一些文章加简单的助词或者对小部分的文字内容进行简单的修改,不好意思,你的文章在预处理甚至是爬行和抓取阶段就被pass了。
知道了搜索引擎抓取原理,在日常优化中你还需要注意一下技巧:
网站url优化建议
网站创建具有良好描述性、规范、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取您的网站。网站设计之初,就应该有合理的url规划。
1、在系统中只使用正常形式url,不让用户接触到非正常形式的url。
2、不把session id、统计代码等不必要的内容放在url中。
3、不同形式的url,301永久跳转到正常形式。
4、防止用户输错而启用的备用域名,301永久跳转到主域名。
5、使用robots.txt禁止Baiduspider抓取您不想向用户展现的形式。
网站title信息优化建议
网页的title用于告诉用户和搜索引擎这个网页的主要内容是什么,而且当用户在百度网页搜索中搜索到你的网页时,title会作为最重要的内容显示在摘要中。搜索引擎在判断一个网页内容权重时,title是主要参考信息之一。
1、首页:网站名称或者 网站名称_提供服务介绍or产品介绍
2、频道页:频道名称_网站名称。
3、文章页:文章title_频道名称_网站名称。需要注意:1.标题要主题明确,包含这个网页中最重要的内容。2.简明精练,不罗列与网页内容不相关的信息。3.用户浏览通常是从左到右的,重要的内容应该放到title的靠前的位置。
4、使用用户所熟知的语言描述。如果你有中、英文两种网站名称,尽量使用用户熟知的那一种做为标题描述。
网站meta信息优化建议
meta description是meta标签的一部分,位于html代码的区。meta description是对网页内容的精练概括。如果description描述与网页内容相符,百度会把description当做摘要的选择目标之一,一个好的description会帮助用户更方便的从搜索结果中判断你的网页内容是否和需求相符。meta description不是权值计算的参考因素,这个标签存在与否不影响网页权值,只会用做搜索结果摘要的一个选择目标。推荐做法:
1、网站首页、频道页、产品参数页等没有大段文字可以用做摘要的网页最适合使用description。
2、为每个网页创建不同的description,避免所有网页都使用同样的描述。
3、长度合理,不过长不过短。
网站图片alt优化技巧
建议为图片加alt说明。因为这样做可以在网速较慢图片不能显示时让用户明白图片要传达的信息,也能让搜索引擎了解图片的内容。同理,使用图片做导航时,也可以使用alt注释,用alt告诉搜索引擎所指向的网页内容是什么。
网站flash信息建议
Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度无法识别。所以如果一定要使用flash,建议给object标签添加注释信息。这些信息会被看作是对Flash的描述信息。让搜索引擎更好的了解您flash的内容。
不建议使用frame和iframe框架结构,通过iframe显示的内容可能会被百度丢弃。
通过对搜索引擎工作原理的了解,再结合你所掌握的网站seo优化方法,相信会有事半功倍的效果
- 本文标题:通过了解搜索引擎基本工作原理掌握SEO优化技巧
- 本文地址:https://www.seoserp.cn/jingyan/1179.html
- 本方法技巧版权归原创作者所有,与本站立场无关。转载请注明出处。