注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

谷普下载 163博客

谷普下载 www.gpxz.com 官方认证安全下载网站

 
 
 

日志

 
 

SEO优化:百度分词技术讲解  

2012-02-19 17:32:21|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

分词是中文搜索引擎特有的步骤,搜索引擎存储和处理用户的搜索请求,以最短时间反馈高度匹配的结果。缩短检索时间。所以分词的质量直接影响了搜索结果的精确度。

1.什么是百度中文分词?
中文与英文不同,是由一个个汉字连接成的,因此分起来相对比较复杂。百度的中文分词是将一个汉语句子切分成一个个的单独的词,然后按照一定的规则重新组合成一个序列的过程,简称“中文分词,
当用户向搜索引擎提交查询后,搜索引擎收到用户的信息要做一系列的处理。首先是到数据库里面索引相关的信息。

2.基于字典匹配的分词方法
这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式:1、正向最大匹配法(由左到右的方向);2、逆向最大匹配法(由右到左的方向);3、最少切分(使每一句中切出的词数最小);4、双向最大匹配法(进行由左到右、由右到左两次扫描)
a.词义分词法   这种其实就是进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。

b.基于统计的分词方法虽然分词字典解决了很多问题,但还是远远不够的,搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。发现两个相邻的字出现的频率最多,那么这个词就很重要。
所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,http://fanli.lebaw.com/“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库.

c.统计的分词方法  这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。
回归正题,了解百度的分词原理,利用这个原理其实就很容易能把一个词语的排名做上来。
那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢?我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。

文章整理:乐吧网购物 http://www.lebaw.com/

  评论这张
 
阅读(1347)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018