分词技术是搜索引擎对用户提交的关键词进行处理以后,根据用户的关键词串进行匹配的一种技术。虽然谷歌是这种技术的创始者,但由于中文比英文复杂得多,所以中文分词这方面还是百度领先。
中文分词有三种方法:字符串匹配的分词法、词义分词法以及统计分词法。
这里概念就不介绍了,我们直接分析案例。我们以“金融网站建设”作为例子,假如这就是你网站的关键词:
这个关键词用字符串匹配的分词是“金融网站建设”,词义分词是“金融网站”、“网站建设”,统计分词是“金融”、“网站”、“建设”。一个词分成这么多个,百度还会按照这些分词词语的匹配、词义的匹配、词语出现的频率,最后决定根据哪些词语捕捉网页。
话不多说,我们在百度输入“金融网站建设”,从搜索结果我们可以看到,除去广告,排名第一的网站红色的关键词大体都是“金融网站建设”以及其分词:
这里有人可能会奇怪,有些网站词义不太相近位置也很靠前,比如:
这主要是因为除去标题意思相近,文章的被关注率,网站主题,网站的外链及权重也是决定其排名的因素。但是这和我们的主题无关就不多介绍了。
然后我们再用百度快照来看一下
你能看到“金融网站建设”被标黄,这是百度给的权重。其中黄色>蓝色>绿色,这里我们看到的全部是黄色,这也就是为什么该网站排名靠前的原因。
所以以这个内容为例,我们最优先考虑的关键词应当是“金融网站建设”以及“金融”,然后再考虑“金融网站”,再考虑“网站建设”。因为“建设这个内容太宽泛可能与行业无关,我们就不予考虑了。
通过中文分词技术,再熟悉网民搜索的习惯,我们将更容易为我们的网站确定关键词,在提升网站排名上如鱼得水。