在国内的自然语言处理领域,估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了,所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信,希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本,这个版本对于研究人员非商业免费使用一年,所以在这里做个推荐,非常感谢张老师对于中文信息处理领域的贡献!
我已将下载链接放在了“资源”页面里的“中文分词相关工具”下,该版本无需注册,非商用免费使用一年,下载地址是:
http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar
关于ICTCLAS2010共享版的详细情况,可以参考张华平老师博客中的这篇文章:《发布ICTCLAS2010共享版-无需注册,非商用免费1年》
更多关于中文信息处理及中文分词的问题可以参考张老师的博客:http://hi.baidu.com/drkevinzhang
这个博客虽然刚刚建立不久,但是张老师已经提供了一些很不错的自然语言处理方面的有用资源,非常值得关注。
注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:https://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010
你好,我这有一批新闻语料库,包括腾讯,新浪,网易,凤凰等等。是自己写的新闻爬虫下载的,曾经放到了CSDN上,但是觉得共享度不够,能不能借宝地一用?
[回复]
是免费的。~
[回复]
52nlp 回复:
5 5 月, 2010 at 21:30
谢谢!不过我也没有什么宝地,提供的资源都是放在网络硬盘上的,虚拟主机的空间有流量限制,呵呵!
可以把CSDN上的链接写在这里,我在“资源”页面做个链接!
[回复]
当时CSDN上的资源我是标记资源分的啦。今天想把这些资源转到博客园的文件共享,无奈那边现在太大,一次性文件最多只能传 10M,还有总量限制。
http://finallyliuyu.download.csdn.net/
过几天再往CSDN上重传下试试~~
[回复]
52nlp 回复:
6 5 月, 2010 at 19:13
已在“资源”页面里做了链接,非常感谢!
[回复]
你好,我是一个将毕业的大学生,这次毕设的题目是关于中文文本错误自动修改的。这个题目较本科生来言很难,经过我一段时间的研究对于分词这一部分已经有点眉目,但是关于后期的错误的自动修改还没有什么好的文献可以参考,不知道你能不能发一点文本错误自动修改的文献呢?
[回复]
52nlp 回复:
13 5 月, 2010 at 23:42
非常抱歉,这方面我不太清楚,另外手头也没有任何这方面的文献可以给你,建议你去水木社区自然语言处理版问一下,那里有很多牛人。
[回复]
竹马 回复:
14 5 月, 2010 at 08:24
哈哈, 多谢,你这里的资料已近给了我很大的帮助了。
[回复]
52nlp 回复:
15 5 月, 2010 at 00:12
不客气,欢迎常来看看。
版主好,最近需要处理些文本,您有没有用过指代消解的工具呢,可不可以推荐下,先谢谢啦O(∩_∩)O~!
[回复]
52nlp 回复:
15 5 月, 2010 at 00:12
抱歉,没有用过这方面的工具。
[回复]
softsnow823 回复:
15 5 月, 2010 at 10:50
那也谢谢啦,我去论坛里问下O(∩_∩)O~!
[回复]
52nlp 回复:
16 5 月, 2010 at 00:16
不客气,人多力量大,我个人水平有限,呵呵!
版主好,能否推荐一些有关中文基本组块分析方面的资料,谢谢!
[回复]
52nlp 回复:
14 6 月, 2010 at 09:50
还是抱歉了,没有这方面的经验。
[回复]
ICTCLAS 2011 出来了
https://skydrive.live.com/?cid=51de2738d3ea0fdd&sc=documents&id=51DE2738D3EA0FDD!185#cid=51DE2738D3EA0FDD&id=51DE2738D3EA0FDD!240&sc=documents
[回复]
52nlp 回复:
11 3 月, 2012 at 16:41
谢谢!
[回复]
推荐一个新的免费的中文分词服务网站:http://www.zhihuita.org/service/zh.tokenizer。分词速度与精度与ICTCLAS相当,也是一个不错的选择啊。
[回复]
gooshell 回复:
29 5 月, 2013 at 15:38
我试了"北京大学生喝进口红酒",感觉只是简单地应用了正向最大匹配法做分词而已.
另,我习惯了采用"北京大学生喝进口红酒"和"在北京大学生区喝进口红酒"这两句做简单测试.
[回复]
gooshell 回复:
29 5 月, 2013 at 15:39
更正:”在北京大学生区喝进口红酒”有误,是”在北京大学生活区喝进口红酒”
[回复]
智慧塔 回复:
5 6 月, 2013 at 00:36
其实用的并不是正向最大匹配算法,网站提供了分词软件的下载链接。大家下载后可以用PKU的语料测试一下,F-measure大概在96%到99%之间,分词速度大于30万汉字每秒。另外,喝红酒的例子网站上已经改了,多谢提供这么经典的例子。