中文分词文章索引和分词数据资源分享

昨天在AINLP公众号上分享了乐雨泉同学的投稿文章：《分词那些事儿》，有同学留言表示"不过瘾"，我想了想，其实我爱自然语言处理博客上已经积攒了不少中文分词的文章，除了基于深度学习的分词方法还没有探讨外，“古典”机器学习时代的中文分词方法都有涉及，从基于词典的中文分词（最大匹配法），到基于统计的分词方法（HMM、最大熵模型、条件随机场模型CRF），再到Mecab、NLTK中文分词，都有所涉及。回头看，这些文章最早的大概有10年了，现在看有些稚嫩，可能不适宜再放到公众号上推了，但是这里做个索引，感兴趣的同学可以在博客上阅读，基本上都是有代码可以参考的。

中文分词入门系列

Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器

rickjin老大的两篇日文翻译文档，很有帮助

其他同学在52nlp博客上分享的中文分词相关文章，感谢大家

最后关于中文分词的数据资源，多说两句，中文分词的研究时间比较长，方法比较多，从实际经验看，好的词库资源可能更重要一些，最后提供一份中文分词的相关资源，包括中文分词字标注法全文pdf文档，以及web上其他同学分享的词库资源，感兴趣的同学可以关注AINLP，回复“fenci"获取：

注：原创文章，转载请注明出处及保留链接“我爱自然语言处理”：https://www.52nlp.cn

本文链接地址：中文分词文章索引和分词数据资源分享 https://www.52nlp.cn/?p=11408

中文分词文章索引和分词数据资源分享

作者52nlp

作者 52nlp

相关文章

DeepSeek-V3解析及技术报告英中报告对照版

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

新浪张俊林：大语言模型的涌现能力——现象与解释

发表回复

You missed

Qwen2.5-Omni：迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

Google DeepMind 发布多模态轻量级开源模型 Gemma 3：性能与功能全面升级