搜索引擎工作过程与seo

作者：谷歌推广
发表时间：2020-01-02 00:53
来源：迅龙网络

　　基于词典匹配和基于统计的分词方法各有优劣，实际使用中的分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。

　　中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索"搜索引擎优化"，从快照中可以看到，百度把"搜索引擎优化"这六个字当成一个词。

　　排名

　　除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。

　　深度优先搜索亦称为纵向搜索。由于一个有解的问题树可能含有无穷分枝，深度优先搜索如果误入无穷分枝(即深度无限)，则不可能找到目标节点。所以，深度优先搜索策略是不完备的。另外，应用此策略得到的解不一定是最佳解(最短路径)。

　　搜狗蜘蛛： Sogou+web+robot+(+#07) ·

　　Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算，虽然它们并不称为PR.

　　2.中文分词

　　预处理：搜索赢球对抓取来的页面数据文字进行文字提取、中文分词、索引等处理，以备排名程序调用。

　　(1)人工录入的种子网站。

　　今天愚人节哈

　　和爬行抓取一样，预处理也是在后台提前完成的，用户搜索时感觉不到这个过程。

　　蜘蛛代理名称：

　　分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔，搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符，一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词，哪些字本身就是一个词。比如"减肥方法"将被分词为"减肥"和"方法"两个词。

　　经过搜索引擎蜘蛛抓取的界面，搜索引擎程序计算得到倒排索引后，收索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键字后，排名程序调用索引库数据，计算排名显示给客户，排名过程是与客户直接互动的。

　　3.去停止词

　　搜搜蜘蛛：Sosospider+(+) ·

　　爬行和抓取是搜索引擎工作的第一步，完成数据收集任务。

　　除去HTML代码后，剩下的用于排名的文字只是这一行：

　　在深度优先搜索算法中，是深度越大的结点越先得到扩展。如果在搜索中把算法改为按结点的层次进行搜索，本层的结点没有搜索处理完时，不能对下层结点进行处理，即深度越小的结点越先得到扩展，也就是说先产生的结点先得以扩展处理，这种搜索算法称为广度优先搜索法。

　　了解了搜索引擎的去重算法，SEO人员就应该知道简单地增加"的"、"地"、"得"、调换段落顺序这种所谓伪原创，并不能逃过搜索引擎的去重算法，因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别，而是进行到段落级别，混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

　　广度优先搜索

　　9.特殊文件处理

　　为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。最简单的爬行遍历策略分为两种，一是深度优先，二是广度优先。

　　搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏，而不是取决于页面本身如何，所以SEO人员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎，某几个字应该被当做一个词处理，尤其是可能产生歧义的时候，比如在页面标题、h1标签及黑体中出现关键词。如果页面是关于"和服"的内容，那么可以把"和服"这两个字特意标为黑体。如果页面是关于"化妆和服装"，可以把"服装"两个字标为黑体。这样，搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。

　　英文雅虎蜘蛛：Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; )

　　这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢将搜索词完整匹配地出现在页面上，也就是说搜索"够戏博客" 时，这四个字连续完整出现更容易在百度获得好的排名。Google就与此不同，不太要求完整匹配。一些页面出现"够戏"和"博客"两个词，但不必完整匹配地出现，"够戏"出现在前面，"博客"出现在页面的其他地方，这样的页面在Google搜索"够戏博客"时，也可以获得不错的排名。

　　5.去重

　　跟踪链接

　　· 页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样，说明页面没有更新，蜘蛛也就没有必要经常抓取。如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快跟踪，抓取新页面。

　　搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

　　排名：用户输入关键字后，排名调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

上一篇：如何让企业的网络营销价值最大化？下一篇：谷歌更新移动搜索算法，外贸推广公司和电商卖家们要注意了！