Words-240测试集包含240对中文词汇和人工对这些词对之间的语义相关度的评测值(和英文的WordSimilarity-353测试集类似),此测试集可以用于测试或者训练中文语义相关度算法。我们以组为单位安排人员进行测试,共分为12组,每组包含20对词。每一组词汇都有20人分别对其相关性进行量化评测, 共有240余人参与了测试。词汇之间相关性的度量值介于0到10之间(0表示这两个词之间毫不相关,10表示这两个词是同义词),我们将这20个人对某词对的评测结果的平均值作为最终结果。每个人的评价结果请参见“测试集统计结果.xls”。如果您有什么问题或者评论,请您发邮件和我们联系,邮件地址是:xiangwangcn@gmail.com。
此测试集是我们为了测试中文词汇之间的语义相关度算法而构造的,请引用我们的论文:
汪祥, 贾焰, 周斌, 丁兆云, 梁政. 基于中文维基百科链接结构与分类体系的语义相关度计算. 小型微型计算机系统, 2011, 32(11):2237-2242.
欢迎大家免费使用!下载地址是:http://download.csdn.net/source/3462335
Words-240测试集得到了国防科技大学613教研室的大力支持,感谢贾焰老师、周斌老师等的指导和帮助。在构造测试集中,著名英文词汇语义相似度的测试集WordSimilarity-353的创立者Lev Finkelstein在如何选择测试集Words-240中词对的问题上进行了热心的指导,在此表示诚挚的感谢。在构造测试集的过程中,湖南师范大学的彭丹同学、湖南大学的陈军同学和国防科技大学的李虎给予了大力协助,在此表示衷心的感谢。国防科技大学、湖南师范大学和湖南大学的240余名同学无偿参与了测试,他们的无私奉献精神直接促使了本测试集的诞生,参加测试的同学有:万芬芬,李大财,吴章彬,尹晋文,邱口,黄江勇,蔡强,王刚,张伟,周晓锋,刘时,徐浩,胡燕,左文豪,吴勇,刘念松,尹波,姚鑫,张右良,周晟,王佳静,何佳,袁功彪,李晋国,谢小红,叶光辉,林建,钟勇才,杨海兵,陈聪,陈超,童国雄,周新云,邹垒,肖天赐,尹邦浩,刘伟,何花,李欢妮,焦丙丰,刘乾,张翠,艾达,伍浩,孙浩然,钟方敬,赵浒,刘哲,龚秀娟,李琦,杨瑞丽,何珂,甘玲,许念,胡蛟,孔梦娟,罗浩,刘芳,廖璨,李冬嫦,白露,皮之云,袁园,潘剑珍,杨厅,徐征,匡牧宇,王薇薇,祁曦婕,宇岳,游凤英,王昕,曹璇,吕性,张志世,杨贵芸,杨雪梅,李腾飞,廖娟,陈娅琦,彭燕,崔文秀,路俊雅,刘雅玲,曾状林,范仁娇,陈玲佳,詹会,孙梦迪,毛本,徐汇,刘婷,黎明阳,刘雨薇,王晓秀,祁美丹,程怡欣,吴之瑶,马超玲,蒋丽娟,刘娜,张芬,阮晓婷,马璞玉,刘贤霖,李西,李小芳,余立,曾惠奇,晓歪,张艳翔,曾田田,张卫,付渔,伍新春,胡朱,苏兴恺,马党,张祥洪,段丽,李文韶,黄红君,陈超,伍月,侯丽华,陆金梅,谢璐璐,谭娜娜,胡海姣,裴晓强、刘建峰,王海波等(由于隐私保护等原因,很多同学的姓名等未在此处列出),在此对他们表示感谢。
测试词汇相关度,还不如让大家自由联想,利用联想的方向性进行统计,更有说服力。
[回复]
“联想”这个方法不错,可以尝试一下。
[回复]
我感觉,做这个的目的,也是想定量的做一些行业基础性的工作,这些基础性的工作,对整个自然语言处理也是有很好的支持作用的,还是很感谢他们的
[回复]
感谢! 这种基础性的工作很有用的,我目前就苦恼于词语相关度的评价...
[回复]
谢谢你的分享。。。以后可能会需要这个测试集合。。
现在正在做这方面的研究。。
[回复]