关键词分词是什么
关键词分词又叫切词,它是将连续的字序列按照一定规则重新组合成词序列的过程。分词的方式有种:字典匹配的分词方法、统计匹配的分词方法、理解匹配的分词方法。
以中文为例,中文关键词分词指的是将一个较长的汉语分成一个一个的单独词语,再按照一定的规格重新组合成词序的过程,也被称为中文的切词。
例如:广州SEO博客,可以分成广州SEO、广州博客、SEO博客。
字典匹配的关键词分词方法
正向匹配、逆向匹配和混合匹配。
正向匹配:广州SEO博客(广州、SEO、博客)
逆向匹配:广州SEO博客(博客、SEO、广州)
混合匹配:360°广州SEO技术博客(360°博客、广州SEO博客、360°技术博客、广州技术博客)
统计匹配的关键词分词方法
搜索引擎会根据用户搜索习惯,分析统计大量的数据样本,扫描计算字或词或句子出现的概率,几个字相邻出现越多,就越能形成一个词或句。
例如:当用户搜索“苹果”时,基本出现的是手机,由于用户搜索“苹果”大多需求的是数码类的,所以搜索引擎会统计后为用户展现关于苹果手机的页面。
理解匹配的关键词分词方法
搜索引擎模拟中文语法理解句子,自动匹配关键词,为用户匹配相应的页面。
例如:广州SEO技术博客搜索引擎可以理解为:广州博客、广州技术、广州SEO、广州SEO技术、广州SEO博客、广州技术博客、SEO技术、SEO博客、SEO技术博客、技术博客。
关键词分词简单来说分为字典匹配、统计匹配、理解匹配,是搜索引擎工作原理之一。