利用周末时间细读了Och和Ney在02年ACL上发表的一篇关于Machine Translation的文章,做个笔记。
Discriminative training and maximum entropy models for statistical macine translation
1. ME 模型是在噪声信道模型的基础上改进而来的。
2. Source-Channel Model 被称为“Fundamental Equation of Statistical MT”,即,机器翻译的基本方程式。
3. 噪声信道模型存在的几个问题:
(1)噪声信道模型中,当翻译模型和语言模型只有在语料上的实际值等于理论值的时候,翻译结果才能达到最优;如果有一种更好的能将LM和TM进行结合的方法,那么翻译效果会有很大的提升。
(2)噪声信道模型不能通过直接扩展可对MT产生帮助性作用的特征和信息来扩展统计MT 系统。
(3)噪声信道模型的翻译模型具有可对称性特点。p(f|e)与p(e|f)在模型中可产生相当的作用,都可以与语言模型一起在信道模型中产生作用。虽然在噪声信道理论框架中难以对这种现象进行分析解释,不过产生的翻译效果却极具有可比性。在实际的统计翻译中,可以通过比较其作用好坏,按需选择来使用。
ME Translation Model
由于噪声信道模型能够融入的信息较为有限,Och 等人提出了采用ME 来进行统计翻译的方法,这主要是由于ME 具有可将多种信息进行有效结合从而为翻译提供支撑的特点。ME 方法是对噪声信道模型的改进。在该理论中,可以将N个信息同时考虑在MT 的过程之中,每一个信息被视为一个特征(或者叫做特征函数function),每个特征对应一个参数a,翻译概率的计算就跟这些特征函数和参数有关。(详细计算公式见论文第3页)
实际上,噪声信道模型的MT方法是包含在ME 方法框架之内的,当特征1:
h1(e,f) = log p (e)
特征2:
h2(e,f) = log p (f|e)
并取参数a1=a2=1的时候,ME 表现出来的框架其实就是噪声信道。
Alignment Model and Maximum Approximation
另外,在翻译的过程中还有一个很重要的因子------对齐。不管是噪声信道还是ME,在翻译过程中都需要计算源语言到目标语言的对齐,这个贯彻翻译概率计算过程的始末。
Och等在当年的系统中采用的是Alignment Templates的方法。即,只有源语言短语、目标语言短语的短语表,i.e.,短语表。
Training (a参数的训练)
文中采用的是GIS 算法(Darroch and Ratcliff,1972)。
非常感谢在这里分享心得体会!
[回复]
有一点,我有点疑惑
你在文中提到
“1. ME 模型是在噪声信道模型的基础上改进而来的。”
你这里“ME模型”指的是通用的最大熵模型,还是 ME for MT 模型?
如果是前者,这个论断有证明支持么?
[回复]
sam 回复:
20 4 月, 2011 at 12:15
后者
[回复]
emnlp 回复:
24 4 月, 2011 at 20:55
谢谢
[回复]
怎么做文本分类啊,分出来的词有9万多。
[回复]
用信息增益选择时,发现有的词在一类文本中有,另一类文本中没有,最后算出的信息熵是无穷大啊。
[回复]
52nlp 回复:
24 4 月, 2011 at 22:25
可以看看finallyliuyu关于文本分类的文章,很全,总结得也很好:
http://www.cnblogs.com/finallyliuyu/archive/2010/10/04/1842261.html
里面有信息增益方面的总结,可以试着找她讨论一下这个问题!
[回复]
想找个人交流一下。
[回复]