加入收藏 | 设为首页 | 会员中心 | 我要投稿 吉安站长网 (https://www.0796zz.com.cn/)- 科技、图像处理、媒体智能、办公协同、操作系统!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

要进入人工智能领域发展

发布时间:2021-02-06 16:34:02 所属栏目:外闻 来源:互联网
导读:基于规则的分词一般都较为简单高效,但是词典的维护面临很庞大的工作量。在网络发达的今天,网络新词层出不穷,很难通过词典覆盖所有词。另外,词典分词也无法区分歧义以及无法召回新词。 在实际项目中,我们是否会考虑使用规则分词? 虽然使用规则分词的分词

基于规则的分词一般都较为简单高效,但是词典的维护面临很庞大的工作量。在网络发达的今天,网络新词层出不穷,很难通过词典覆盖所有词。另外,词典分词也无法区分歧义以及无法召回新词。

在实际项目中,我们是否会考虑使用规则分词?

虽然使用规则分词的分词准确率看上去非常高,但是规则分词有几个特别大的问题:

  • 不断维护词典是非常烦琐的,新词总是层出不穷,人工维护费时费力;
  • 随着词典中条目数的增加,执行效率变得越来越低;
  • 无法解决歧义问题。

3. 双向最大匹配

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。

据Sun M.S.和Benjamin K.T.研究表明,对于中文中90.0%左右的句子,正向最大匹配和逆向最大匹配的切分结果完全重合且正确,只有大概9.0%的句子采用两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,或者正向最大匹配和逆向最大匹配的切分结果虽重合却都是错的,或者正向最大匹配和逆向最大匹配的切分结果不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。

前面列举的“南京市长江大桥”采用双向最大匹配法进行切分,中间产生“南京市/ 江/ 大桥”和“南京市/ 长江大桥”两种结果,最终选取词数较少的“南京市/ 长江大桥”这一结果。

双向最大匹配的规则如下所示。

(1) 如果正反向分词结果词数不同,则取分词数量较少的那个结果(上例:“南京市/江/大桥”的分词数量为3,而“南京市/长江大桥”的分词数量为2,所以返回分词数量为2的结果)。

(2) 如果分词结果词数相同,则:

  • 分词结果相同,就说明没有歧义,可返回任意一个结果。
  • 分词结果不同,返回其中单字较少的那个。比如前文示例代码中,正向最大匹配返回的结果为“['研究生', '命', '的', '起源']”,其中单字个数为2个;而逆向最大匹配返回的结果为“['研究', '生命', '的', '起源']”,其中单字个数为1。所以返回的是逆向最大匹配的结果。

参考代码如下所示。
 

. 逆向最大匹配

逆向最大匹配简称为RMM法。RMM法的基本原理与MM法大致相同,不同的是分词切分的方向与MM法相反。

逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的m个字符(m为词典中最长词数)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。

在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。

统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。比如之前的“南京市长江大桥”,按照逆向最大匹配,最终得到“南京市”“长江大桥”的分词结果。

当然,如此切分并不代表完全正确,可能有个叫“江大桥”的“南京市长”也说不定。逆向最大匹配法示例代码如下。


(编辑:吉安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读