晚上读了LDC的语料库自动采集系统(BITS)的论文,感觉其可操作性更大,可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。关于BITS的架构:
第一部分:搜集资源
1.搜寻候选urls,它讲解的不详,可以考虑strand的方法,并且strand已提供了部分双语候选urls数据库,前期可以考虑直接利用这些数据库;
2.识别网络语言种类:它使用N-Gram方法训练识别器,不错,可以借鉴;
3.网页下载:和strand一样,都是利用wget,而wac和bootcat都有相似的方法,可以考虑直接利用;
4.html网页清洗和语言识别:BITS将html转换为纯text格式,linux下有html2text的软件,不过要根据需求进行清洗加工;
第二部分:寻找翻译对(重点加难点)
1.语块识别:利用网页的路径名识别,strand也是利用了这个方法作为初步识别;不过BITS最重要的方法是基于内容的翻译对识别,其实就是利用双语词典,进行相似度计算,算法很简单,真正需要的是训练时间。这个方法的操作性很强,并且从篇章中抽句对齐的方法也可以利用词典,突然感觉基于词典的方法不错!这种方法可以做到初步的篇章,段落,甚至句子对齐。在作者的另一篇文章构建LDC文章中,他又使用了一种Champollion 的句对齐方法,可以参考。
2.关于句对齐,经典的是Gale and Church (1991)的基于长度的方法,但是从报告中来看,这种方法对近似语言比较好,对于远距离语言效果不太好,这样利用词典的方法就可以作为一个补充。
3.同时发现了一个对齐工具箱:MTTK: An Alignment Toolkit for Statistical Machine Translation。它从文本对齐开始训练,可以达到语块对齐,句对齐,短语对齐及词对齐的水平。还没试用,但是记住:优秀的程序员写程序,伟大的程序员利用现有的资源。
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:
https://www.52nlp.cn/bits-structure-analysis/