大家好:
我们是来自新加坡国立大学计算机学院的研究人员。我们在6年前收集过英文短信,之后发布了10,000条英文短信的语料库,供研究人员免费使用。
目前我们重新启动了短信收集项目,扩展已有的英文短信,同时还为了创建中文短信库。该项目通过了新加坡国立大学学术委员会的审查。目前我们收集到 15,111条中文短信,语料库已经发布。详情见http://wing.comp.nus.edu.sg:8080/SMSCorpus/。
短信属于隐私数据,收集十分不易。目前在学术领域,公开的短信数据库非常稀少。我们发这个帖子的目的,是让更多的人了解我们的工作,宣传我们的语料库,更重要地是希望你能够帮助语料库的创建。
希望大家能够捐赠一些自己的短信!为短信研究贡献自己的一份力量!捐赠短信的详细方法见项目主页(http://wing.comp.nus.edu.sg:8080/SMSCorpus/)的短信捐赠页面。在存入数据库前,我们会对收集到的短信做相应的处理,保护捐献者的隐私。
感谢大家!
建一个这样的短信语料库并公开出来供大家使用,不容易,非常感谢!
但是短信这玩意,涉及个人隐私,可能自愿捐赠者寥寥。印象以前在学校时有机构貌似也是来收集短信的,不过是给予了一定的激励: 每个月给报名的同学提供一点话费,然后这些同学每个月提供一定量的短信。这个方法貌似很有效,如果你们这个课题很重要,可以考虑用一部分科研经费做这件事,估计会有些效果。当然,之前那个机构收集之后可能就用于商业用途了,这个和你们做公共语料库的出发点不同,我这里仅仅提个建议。
另外,我没有仔细阅读你们短信语料库的使用说明或者是授权说明,如果你们的语料库有授权范围,或者仅有一部分可以免费出来供大家使用,那么可否考虑一个“馊主意”:对于捐赠短信的朋友,给予一定的“VIP”权限。这样貌似也是一种激励,不过如果你们已经计划好了完全免费公开,那么就不要考虑我这个“馊主意”了。
[回复]
kite1988 回复:
15 4 月, 2011 at 09:45
很好的建议,非常感谢! 不过我们计划的语料库是完全免费公开的,所以就不能这样激励大家捐献了。
[回复]
非常不错 严重支持
[回复]
kite1988 回复:
15 4 月, 2011 at 09:46
谢谢!
[回复]
严重支持楼主和一楼。为这事儿,我也得把我的手机光盘找出来。
[回复]
kite1988 回复:
15 4 月, 2011 at 09:46
谢谢支持!期待你的短信!
[回复]
数据可以共享吗?我也想要这份数据
[回复]