魔扣论坛

魔扣源码论坛业务
查看: 203|回复: 1

关于百度分词算法,SEO站长不得不知的一些技巧

[复制链接]
  • TA的每日心情
    无聊
    22 小时前
  • 签到天数: 2928 天

    [LV.Master]开坛老将

    7万

    主题

    227

    回帖

    27万

    积分

    管理员

    Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30Rank: 30

    魔扣币
    744987
    贡献
    157747
    威望
    32799

    最佳新人活跃会员热心会员推广达人宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2019-5-26 22:45:13 | 显示全部楼层 |阅读模式
    魔扣币兑换比例:【 50以下 : ¥1 = 10 魔扣币 】丨【 50 - 100 :¥1 = 20 魔扣币】丨【 100以上:¥1 = 30 魔扣币 】

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?立即注册

    x
    分词算法
                    说到百度中文分词算法,我们广大SEO站长一般是很少去研究,但只要我们网民还在使用百度搜索,就离不开百度分词算法,而百度之所以能够超越其他搜索引擎,就是百度对中文分词的领悟有超强功底。比如像我们做百度SEO的站长,即使我们文章写的比较好,但是标题写的一般,也会导致关键词排名靠后,因为百度会把我们输入的标题文字拆分成一个个单独的词汇。同样这也就是为什么标题堆积关键词是毫无意义的。虽然百度分词技术算法是非常复杂的,但我们仍可以探究下百度搜索引擎实现的原理,管中窥豹,可见一斑,对我们做百度SEO的站长而言还是非常有意义。

    什么是百度中文分词算法
    百科的解释是这样的:百度针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。而百度中文分词算法就是把汉语句子分成若干个相互独立、完整、正确的单词。词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知识都来自机器词典(给出词的各项信息) 、句法规则(以词类的各种组合方式来描述词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。说得很专业,从这里我们SEO站长大致可以了解到百度的中文分词算法主要依赖于机器词典,因此百度搜索引擎在进行分词时是有一个专有词典的,里面大概包含了众多的历史人名、地名以及各行各业的专有名词,从而来判断我们搜索的句子所表达的是什么意思,并展示一个我们想要的结果页,我们用简单的例子来看一下。
    比如
    在百度搜索“seo实验室SEO博客关注互联网和搜索引擎”,百度搜索引擎就会将标题拆分为“seo实验室/SEO/博客/关注/互联网/和/搜索引擎”。那百度是不是一定会这样进行分词呢?这也不一定,因为“seo实验室”这个词可能并未进入百度的专有词典,但“尹”这个词是在百度专有词典中的,所以百度也有可能将标题分词为“尹/华峰/SEO/博客/关注/互联网/和/搜索引擎”。
    当然,随着百度的专有词典词汇大量增加,这个分词判断也会不断改变,来适应人们的搜索行为。有时候我们网民也会发现,本来表达的是同样的意思,但是用不同的词来搜索,展现的信息也是不尽相同,这也许是分词技术还不太完善的关系造成的。不妨我们再来看看百度分词算法的分类,以下选自百科。
    百度分词算法分类
    1.正向最大匹配法(由左到右的方向)
    首先粗分,按照句子把文本切成一个一个句子。然后把每个句子切成单字。字典按照树形结构存储,比如这句话“春天还会远吗”首先查找“春”字开头的词,然后按照字典树形结构往下走一个节点,查找“春”后面一个字是“天”的词,然后又下沉一个节点,找“还”下面是“会”的词,如果找不到,查找就结束。
    2.逆向最大匹配法(由右到左的方向)
    就是朝相反的方向发掘可以匹配的文字,比如网上商城这个文字串,那么会向左延伸在网上的前面会出现的结果是区域性的文字,比如上海或者北京等,在商城的前面会出现更精准的定义文字符,比如爱家,女人等专属性强的文字符。
    3.最少切分(使每一句中切出的词数最小)
    正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。就是向左右纵深挖掘比较匹配的结果值。
    上面这三种便是百度常见的分词处理手段了,下面我们再来探究下百度搜索引擎通过分词算法是如何给关键词进行排名的,我们SEO站长在写原创文章的时候又有哪些需要注意的呢?
    百度分词排名注意事项:
    a.当我们在百度搜索框输入短语,里面包含分词时,百度就会进行切词来展现结果页。百度根据切分出来的词在网页内容中出现的密度和相关性进行判断,当内容质量比较高就会优先展示。
    b.如果完全匹配,就是网民搜索的短语完全出现在网页内容中,并且网页内容质量比较高,那么网页就回得到搜索引擎优先排列。
    c.如果是不完全匹配,即便内容质量比较高,但关键词在网页中出现得不完整,那么不完全匹配的网页会比完全匹配的网页有劣势,排名靠后。所以,在做百度SEO时,我们也要注意分词,确保网页出现的关键词是符合大多数网民的搜索需求的。
    总结:通过这些小细节,我们SEO站长就可以利用百度这种中文分词手段来展现我们的关键词排名。百度分词算法的目的不是为了展示所有结果,全部展示也没有意义可言,只需把优质和相关性高的内容排在前面即可。所以我们站长首先要做的还是生产优质内容,同时,让我们的网站标题和内容最大化去完全匹配关键词,这样,我们的网页就会在百度关键词搜索中得到优先排列。
            相关阅读
    详细解读百度搜索细雨算法2.0
      对前阵子即将上线的细雨算法2.0,百度官方近日给出了针对细雨算法2.0的具体问题的错误示例和整改建议,帮助站长们具体地理解细雨
    启发式算法
    现代启发式算法
    启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启
    运营不可不知的“事件营销”经典案例
    的确,必须没事找事,作为运营,你奏需要这么干。有一些事件我们很有必要熟知,总有一款会启发您。尝试归纳事件营销中具备二次传播基因的
    MD5算法
    MD5算法最近看了一个MD5的视频,突然发现MD5挺意思的,所以记录一下代码(写好封装),没准以后要用。也为一些寻找MD5算法的人提供便利。MD
    数据结构与算法(一)---重点复习知识
    吐槽
    国庆假期第二天,去实验室开门,给猫猫铲丑丑,然后给她换猫粮,换水,喂这货吃的emmmmmm,然后今天就把之前在极客时间上买的数据结构与

    该用户从未签到

    1

    主题

    259

    回帖

    519

    积分

    高级魔扣

    Rank: 4

    魔扣币
    259
    贡献
    259
    威望
    0
    发表于 2023-2-8 22:40:01 | 显示全部楼层
    欢迎你,亲爱的朋友,欢迎您光临并留下美好的祝福。相信通过网络的交流,我们会从陌生到相识相知,不断增进彼此信任,友谊会不断加深,这是我们前世修来的缘分。让我们珍惜这份缘,魔扣源码论坛愿我们友谊永存!
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    • 联系我们
    • 新浪微博 :
    • 在线客服 :魔扣科技 
    • 源码QQ群 :魔扣源码论坛官方总群
    • 联系邮箱 :charlin#morko.net
    • 微信扫一扫
    快速回复 返回顶部 返回列表