生物识别市场中的四大“爆款”

发布时间：2021-02-06 16:34:47 所属栏目：外闻来源：互联网

导读：2. 规则分词基于规则的分词是一种机械分词方法，需要不断维护和更新词典，在切分语句时，将语句的每个字符串与词表中的每个词进行逐一匹配，找到则切分，找不到则不予切分。按照匹配划分，主要有正向最大匹配、逆向最大匹配以及双向最大匹配这3种切分方法

2. 规则分词

基于规则的分词是一种机械分词方法，需要不断维护和更新词典，在切分语句时，将语句的每个字符串与词表中的每个词进行逐一匹配，找到则切分，找不到则不予切分。

按照匹配划分，主要有正向最大匹配、逆向最大匹配以及双向最大匹配这3种切分方法。

1. 正向最大匹配

正向最大匹配(Maximum Match)通常简称为MM法，其执行过程如下所示。

从左向右取待切分汉语句的m个字符作为匹配字段，m为机器词典中最长词条的字符数。
查找机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

比如我们现在有个词典，最长词的长度为5，词典中存在“南京市长”“长江大桥”和“大桥”3个词。

现采用正向最大匹配对句子“南京市长江大桥”进行分词，那么首先从句子中取出前5个字“南京市长江”，发现词典中没有该词，于是缩小长度，取前4个字“南京市长”，词典中存在该词，于是该词被确认切分。

再将剩下的“江大桥”按照同样方式切分，得到“江”“大桥”，最终分为“南京市长”“江”“大桥”3个词。显然，这种结果不是我们所希望的。正向最大匹配法示例代码如下。

1. 分词的概念和分类

“词”这个概念一直是汉语言学界纠缠不清而又挥之不去的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题迄今为止也未能有一个权威、明确的表述，当今更是没有一份令大家公认的词表。

问题的主要难点在于汉语结构与印欧体系语种差异甚大，对词的构成边界很难进行界定。比如在英语中，单词本身就是“词”的表达，一篇英文文章的格式就是“单词”加分隔符(空格)。

而在汉语中，词以字为基本单位，但是一篇文章的语义表达却仍然是以词来划分。因此，需要针对中文汉字，将其按照一定的方式进行组织，分成不同的词。

中文分词是让计算机自动识别出句子中的词，然后在词间加入边界标记符。这个过程看似简单，然而实践起来要复杂得多，主要困难在于分词歧义。

下面以NLP分词的经典场景为例进行说明，短语“结婚的和尚未结婚的”，应该分词为“结婚/的/和/尚未/结婚/的”，还是“结婚/的/和尚/未/结婚/的”呢?对于这个问题，机器很难处理。此外，像未登录词、分词粒度粗细等都是影响分词效果的重要因素。

自中文自动分词被提出以来，历经近30年的探索，先后出现了很多分词方法，可主要归纳为规则分词、统计分词和混合分词(规则+统计)这3个流派。最近这几年又兴起了以深度学习的方式进行分词，比如BILSTM+CRF。

规则分词是最早兴起的方法，主要通过人工设立词库，按照一定方式进行匹配切分，其实现简单高效，但对没有录入词库的新词很难进行处理。

随后统计机器学习技术兴起，应用于分词任务上就有了统计分词方法。该方法能够较好地应对新词发现等特殊场景。然而在实践中，单纯的统计分词也有其缺陷：太过依赖语料的质量。因此实践中多是采用规则分词和统计分词这两种方法的结合，即混合分词。

（编辑：吉安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Maxar携手多领域行业创	100Mbps！美国倡议全球
TikTok电商：东南亚冲	土耳其今年矿产出口估