笔者深感免费共享的中文NLP资源的匮乏,有意将自己整理的词库等NLP资源分享出来,希望能获得更多的NLP爱好者的响应与支持,群策群力,共建NLP基础资源(如常用词语,常用姓氏,语义词典,反义词词典,近义词词典,句法库等等)。
笔者的这个倡议,刚在“自然语言理解一”QQ群发出,即得到了“总督”、“雨霁”等等的支持。“总督”建议:根据不同的应用,通过大家的讨论,确定词性标准,建立不同的词库,如为句子的树库而标,为统计语言现象而标,为教学目的而标等等。“雨霁”建议:限定范围,目的性强一些,为某些领域、专属名词建词库,如地名、机构名。
在此,抛砖引玉,希望大家能积极地拍砖扔鸡蛋(:))。
附我的词库的截图:
我们研究室对词库的研究已经有十年,网上搜索一些关于 field association term 论文,会发现相关信息。
另外,我建了汉语的词库,相关信息发在群的空间里了,主要的问题是,词库目前属于我的导师,等我回国以后,适当的时候公开。
有什么好的建议,也可以联系我。
[回复]
raogaoqi 回复:
23 2 月, 2011 at 12:01
请问楼主是什么研究室呢?
[回复]
回复二月 回复:
24 2 月, 2011 at 13:55
日本 德岛大学 青江研究室 (Aoe lab)
[回复]
很好的提议,但是就我个人的感觉来说,单是建设词库这样的资源个人可以为之,但是上升到句法库等基础nlp资源时,个人的力量可能很有限,不过这只是我的一家之言。
[回复]
王 增才 回复:
4 3 月, 2011 at 09:56
是的,句法库工作量很大,所以希望能有更多的人一起来编辑维护。
[回复]
请教哪里可以下载 命名实体识别 实验的数据集,多谢。。。
[回复]
52nlp 回复:
3 3 月, 2011 at 21:35
不太清楚,抱歉!
[回复]
童鞋所见略同,我们今年有一个构建词表的项目,目的是领域信息抽取。
希望能将它做成一个大家可以广泛参与的、有生命力的词表。
我还没有参加52nlp的QQ群,希望有兴趣的童鞋能一起讨论,我的qq是5796821
email是 toppiprc--AT--gmail
[回复]
王 增才 回复:
4 3 月, 2011 at 10:00
已加你QQ。
[回复]
如果有什么详细的计划的话请告知一声,我也希望能做点事情的。
我的邮箱是xiangwangcn@gmai.com
[回复]
王 增才 回复:
9 3 月, 2011 at 12:46
感谢参与,已记录你的邮箱。希望能在大家的讨论下制定出一个详细计划。
[回复]