搜索引擎优化（SEO）基础原理

最开始，最简单的思路是，每个字都切开，这个以前叫字索引，每个字建立索引，并标注位置，如果用户搜索一个关键词，也是把关键词拆成字来搜索再组合结果，但这样问题就来了。

蜘蛛抓取的是网页的内容，那么要想让用户快速的通过关键词搜索到这个网页，就必须对网页做关键词的索引，从而提升查询效率，简单说就是，把网页的每个关键词提取出来，并针对这些关键词在网页中的出现频率，位置，特殊标记等诸多因素，给予不同的权值标定，然后，存储到索引库中。

搜索引擎的核心技术架构，大体包括以下三块，第一，是蜘蛛/爬虫技术；第二，是索引技术；第三是查询展现的技术；当然，我不是搜索引擎的架构师，我只能用比较粗浅的方式来做一个结构的切分。

前者是百度贴吧，百度mp3，百度知道，百度百科，百度文库。

用户点击行为采集和反馈部分

另一个经典案例是你看出什么了？你可能什么都没看出来，我提醒一句，百度实质上全面禁止了360的蜘蛛抓取。

这是三大部分，多说一点，其实还有第四部分。

一个经典案例是 https://www.taobao.com/robots.txt你会看到，淘宝至今仍有关键目录不对百度蜘蛛开放，但对google开放。