利用周末时间细读了Och和Ney在02年ACL上发表的一篇关于Machine Translation的文章,做个笔记。

Discriminative training and maximum entropy models for statistical macine translation

1. ME 模型是在噪声信道模型的基础上改进而来的。

2. Source-Channel Model 被称为“Fundamental Equation of Statistical MT”,即,机器翻译的基本方程式。

3. 噪声信道模型存在的几个问题:

(1)噪声信道模型中,当翻译模型和语言模型只有在语料上的实际值等于理论值的时候,翻译结果才能达到最优;如果有一种更好的能将LM和TM进行结合的方法,那么翻译效果会有很大的提升。

(2)噪声信道模型不能通过直接扩展可对MT产生帮助性作用的特征和信息来扩展统计MT 系统。

(3)噪声信道模型的翻译模型具有可对称性特点。p(f|e)与p(e|f)在模型中可产生相当的作用,都可以与语言模型一起在信道模型中产生作用。虽然在噪声信道理论框架中难以对这种现象进行分析解释,不过产生的翻译效果却极具有可比性。在实际的统计翻译中,可以通过比较其作用好坏,按需选择来使用。

ME Translation Model

由于噪声信道模型能够融入的信息较为有限,Och 等人提出了采用ME 来进行统计翻译的方法,这主要是由于ME 具有可将多种信息进行有效结合从而为翻译提供支撑的特点。ME 方法是对噪声信道模型的改进。在该理论中,可以将N个信息同时考虑在MT 的过程之中,每一个信息被视为一个特征(或者叫做特征函数function),每个特征对应一个参数a,翻译概率的计算就跟这些特征函数和参数有关。(详细计算公式见论文第3页)

实际上,噪声信道模型的MT方法是包含在ME 方法框架之内的,当特征1:

h1(e,f) = log p (e)

特征2:

h2(e,f) = log p (f|e)

并取参数a1=a2=1的时候,ME 表现出来的框架其实就是噪声信道。

Alignment Model and Maximum Approximation

另外,在翻译的过程中还有一个很重要的因子------对齐。不管是噪声信道还是ME,在翻译过程中都需要计算源语言到目标语言的对齐,这个贯彻翻译概率计算过程的始末。

Och等在当年的系统中采用的是Alignment Templates的方法。即,只有源语言短语、目标语言短语的短语表,i.e.,短语表。

Training (a参数的训练)

文中采用的是GIS 算法(Darroch and Ratcliff,1972)。

作者 samever

《ME for Machine Translation》有8条评论
  1. 有一点,我有点疑惑
    你在文中提到
    “1. ME 模型是在噪声信道模型的基础上改进而来的。”

    你这里“ME模型”指的是通用的最大熵模型,还是 ME for MT 模型?
    如果是前者,这个论断有证明支持么?

    [回复]

    sam 回复:

    后者

    [回复]

    emnlp 回复:

    谢谢

    [回复]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注