中文处理的迷思之一：切词特有论

作者liwei999

12 月 28, 2011

电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中，准备提出来分别讨论。

迷思之一：切词是中文（或东方语言）处理特有的前提，因为中文书写不分词。

切词作为中文处理的一个先行环节，是为了模块化开发的方便，这一点不错。但它根本就不特有。

任何自然语言处理都有一个先行环节，叫 tokenization，就是把输入的字符串分解成为词汇单位：无论何种书面语，没有这个环节，辞典的词汇信息就无以附着，在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已，没有什么“特有”的问题。

有说：中文书写不分词，汉字一个挨一个，词之间没有显性标识，而西文是用 space（空白键）来分词的，因此分词是中文处理的特有难题。

这话并不确切，语言学上错误更多。具体来说：

1 汉语词典的词，虽然以多字词为多数，但也有单字词，特别是那些常用的功能词（连词、介词、叹词等）。对于单字词，书面汉语显然是有显性标志的，其标志就是字与字的自然分界（如果以汉字作为语言学分析的最小单位，语言学上叫语素，其 tokenization 极其简单：每两个字节为一个汉字），无需 space.

2 现代汉语的多字词（如：中华人民共和国）是复合词，本质上与西文的复合词（e.g. People's Republic of China）没有区别，space 并不能解决复合词的分界问题。无论中西，复合词都主要靠查词典来解决，而不是靠自然分界（如 space）来解决（德语的名词复合词算是西文中的一个例外，封闭类复合词只要 space 就可以了，开放类复合词则需要进一步切词，叫 decompounding）。如果复合词的左边界或者右边界有歧义问题（譬如：“天下” 左右边界都可能歧义， e.g. 今天下雨；英语复合副词 "in particular" 的右边界可能有歧义：e.g. in particular cases），无论中西，这种歧义都需要上下文的帮助才能解决。从手段上看，中文的多字词切词并无任何特别之处，英语 tokenization 用以识别复合词 People's Republic of China 和 in particular 的方法，同样适用于中文切词。

中文处理的迷思之一：切词特有论

作者liwei999

作者 liwei999

相关文章

DeepSeek-V3解析及技术报告英中报告对照版

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

新浪张俊林：大语言模型的涌现能力——现象与解释

发表回复

You missed

Qwen2.5-Omni：迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

Google DeepMind 发布多模态轻量级开源模型 Gemma 3：性能与功能全面升级

DeepSeek-V3解析及技术报告英中报告对照版

Qwen2.5-VL：阿里巴巴新一代多模态大模型的技术突破与应用前景

作者liwei999

相关文章：

作者 liwei999

相关文章

发表回复

You missed