借用盛传的霸王当年热恋时的妙句(“友人之心,如在吾庐”),我要说:二十五年了,中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。
很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮,直到近两年,英语已经无可再做,该做的差不多都做了,不该做的也神农尝草,遍历辛苦,再往后就是 incremental 的修补和维护了。大山大水已然身后,总之是 second to none,而且已经大数据(big data)大规模实用化了(Internet scale, with products globally distributed),应该可以放下。近几年来,随着白发的繁盛,岁月的流逝,忧虑之心油然而起。弹指一挥,逝者如斯,怕这辈子没有机会回到中文处理上来,那将抱憾终身。
都说中文是世界上最诡秘、最玄妙、最不讲逻辑,总之是最难机器处理的语言。有人甚至声称中文无文法,中文理解全靠“意合”(semantic coherence),非常识推理(common sense reasoning)不能,是对自然语言理解(NLU)和人工智能(AI)前所未有的挑战。目的地如此高远,而现状却非常悲惨,中文处理整个领域深陷在汉字串切词的浅层漩涡长达数十年不能自拔。切词算什么?最多算万里长征的前十步而已(参见【立委随笔:应该立法禁止分词研究 :=)】)。
我就不信这个邪,不可以走中间道路来曲线救国。许多思考、想法,在头脑绕了很多年,一直未及实现,现在是时候了。这辈子不爬中文的珠穆朗玛,白做中国人,枉为语言学博士,对不起NLP这个饭碗。陶先生说:归去来兮,田园将芜胡不归?
喝令三山五岳开道,中文处理,我回来了!
出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【中文依存文法】(Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands),概括了几乎所有的重要句型,纸上谈兵地画过无数的中文依存关系句法树。那应该是中文依存关系形式化研究的真正开拓期,如此说来 yours truly 也可以算是中文处理研究的化石级元老了。现在回看当年的图画,对照最近在机器上实现的依存句法分析器(dependency parser),一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于看到了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。
请欣赏立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(可怜见地,当时只能用text editor 数着空格和汉字去“画树”,就如我年三十在机房数着character描画山口百惠并用IBM-PC制成年历一样)。对照新鲜出炉的句法分析器自动生成的婀娜树姿,我不得不说,美梦成真不再是一个传说。
25年前的蓝图(美梦):
25年后的实现(成真):
工作着是美丽的。绿色革命万岁。
【附录示例:更多的美梦,更多的成真】
但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。
胶合板是把原木旋切或刨切成单片薄板, 经过干燥、涂胶, 并按木材纹理方向纵横交错相叠, 在加热或不加热的条件下压制而成的一种板材。
【相关篇什】
【汉语依从文法: 维文钩沉(25年前旧作,浏览器下请选用国标码 GB 阅读以免乱码和图形失真)】:
http://blog.sciencenet.cn/blog-362400-622298.html