著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办,由美国宾夕法尼亚大学主办,拥有众多的优质语言资源,对于自然语言处理及计算语言学的研究者来说,算得上是一座语言资源的金矿。不过其实行会员制,绝大部分语言资源需要收取一定费用,但是对于会员来说,费用相对低廉一些,因此世界上的许多大学及科研机构都是其会员,国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。
对于中文信息处理来说,LDC上有一个专门的页面予以了介绍,难能宝贵的是,在这个页面上LDC还免费提供了一些中文信息处理的资源供研究者使用,以下简单列出其所包括的资源:
1、 汉字及其相应拼音表示的对应表:
包括了7809个条目的汉字及其相应的拼音表示,一些汉字对应了不止一个拼音,即多音字,内容示例如下:
啊 a1
啊 a2
啊 a3
啊 a4
啊 a5
阿 a1
阿 a5
阿 e1
…
2、 汉英平行对应词表:
包括了汉英及英汉双向的对应词条,分别有1.0和2.0版本,汉英词条内容示例如下:
啊 /(interj.)/ah/an interjection/.../
啊呀 /oh/
阿 /an initial particle/prefix to names of people/(phonetic character)/(final part.)/(interj.)/flatter/
阿巴丹 /Abadan /
阿贝马马环礁 /Abemama Atoll/
阿贝歇 /Abechar/
阿比让 /Abidjan/
阿比西尼亚 /Abyssinia/
阿比西尼亚人 /Abyssinian (person)/
…
3、 中文分词工具:
一个perl脚本写得中文分词工具(288行),打包文件中包含了一个有频率统计的词表(很有用的一个中文分词资源),共计44405条,内容示例如下:
214048 的 di4
214048 的 de5
70872 了 liao3
70872 了 le5
61364 我 wo3
58407 在 zai4
57385 是 shi4
56756 一 yi1
…
4、 香港法律汉英双语平行语料库:
SGML格式,共计238271句对,一个不错的统计机器翻译实验资源。英文语料部分内容示例如下:
<s id=1> To consolidate and amend the law relating to the construction, application and interpretation of laws, to make general provisions with regard thereto, to define terms and expressions used in laws and public documents, to make general provision with regard to public officers, public contracts and civil and criminal proceedings and for purposes and for matters incidental thereto or connected therewith.
<s id=2> [31 December 1966] L.N. 88 of 1966
<s id=3> PART I
<s id=4> SHORT TITLE AND APPLICATION
<s id=5> This Ordinance may be cited as the Interpretation and General Clauses
….
详细的情况读者可以在LDC上关于中文信息处理的页面查看:
http://projects.ldc.upenn.edu/Chinese/
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:
https://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc/
亲爱的52nlp,抱歉又来打扰您了,几次鼓起勇气上LDC上去想下载资料,无奈页面是全英文的,啥都看不懂,看了半天,也不知道那个perl脚本写的中文分词工具(288行)和44405条带频率统计的词表在哪下载,能指导指导吗?
[回复]
52nlp 回复:
30 10 月, 2014 at 09:24
Sorry,这个事情之前有同学在微博上私信问过我,我仔细看了一下,发现它的页面改版了,也没找到,之前的备份不太好挖出来。
[回复]
您那边有备份啊?谢谢
[回复]
52nlp 回复:
28 7 月, 2017 at 23:18
找不到了,抱歉
[回复]