上篇博文【科普随笔:NLP的宗教战争?兼论深度学习】匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。
需要说明一句,那篇里面关于深度学习的notes,是信口发挥,各位不要认真,因为对于这样崭新的东西我是老外,是想当然地瞎议论,难免牵强。万一从某个角度让人看出了“道理”,那也纯粹是瞎猫撞死耗子,不足采信。
不过关于NLP过去20年两条路线的宗教式斗争,我和很多同时代人都是亲历者,这方面的每一句话都是有根据、负责任,经过深思熟虑的,有过惨痛的经历或胜利的喜悦。
虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it
摘自【科普随笔:NLP的宗教战争?兼论深度学习】
看过几篇 NLP (Natural Language Processing) 领域代表人物的综述,往往充满了主流的傲慢与偏见,让人惊诧。这些一览众山小的大牛聪明绝顶,居然如此偏见蛮横,jump to conclusions,可见宗教式思维定势的危害之深,深入骨髓,对青年学子个更是贻害无穷。(主流掌门人中也有有识之士,以后再论。)因此想到立此存照一下,以后再一条一条细论。下列傲慢之偏见随处可见,流传甚广,为免纷扰,就不列出处了,明白人自然知道这绝不是杜撰和虚立的靶子。这些偏见似是而非,经不起推敲,却被很多人视为理所当然的真理。为每一条偏见找一个相应的 crappy 系统的案例并不难,但是从一些特定系统的缺陷推广到对整个规则系统的方法学上的批判,乃是偏见之为偏见 的要害所在。
【偏见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:因此没有知识瓶颈)。
【偏见二】规则系统的手工编制导致其移植性差,转换领域必须重启炉灶,而机器学习没有移植性问题,因为算法和系统保持不变,只要改变训练数据即可。
【偏见三】规则系统的手工编制注定其不能 scale up,无法胜任 real world application,只能做实验室里的玩具。
【偏见四】规则系统只能在极狭窄的领域成事,无法做跨领域的系统。
【偏见五】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档。
【偏见六】规则系统很脆弱,遇到没有预测的语言现象系统就会 break(什么叫 break,死机?),开发不了鲁棒(robust)产品。
【偏见七】由于真实世界的自然语言词汇量大,组合关系千变万化,语言学家无法编制规则系统涵盖这些词汇和语法知识来分析语言。
【偏见八】规则系统的结果没有置信度,鱼龙混杂。
【偏见九】规则系统的编制越来越庞杂,最终无法改进,只能报废。
【偏见十】规则系统是上个世纪的技术,早已淘汰(逻辑的结论似乎是:因此不可能做出优质系统)。
【偏见十一】从结果上看,机器学习总是胜过规则系统。
上述每一条都可以写一大篇或一个系列来详细论证其荒谬蛮横,描述学界主流中存在的傲慢与热昏。可是不用着急,血泪账今后一笔一笔诉 :)
可怕的不是偏见,偏见无处不在,是人就难免。真正可怕的是偏见的流行,而在NLP这个领域,偏见的流行到了让人瞠目结舌的程度。不假思索而认同接受这些偏见成了常态。
【相关篇什】
【科普随笔:NLP的宗教战争?兼论深度学习】
坚持四项基本原则,开发鲁棒性NLP系统
why hybrid? on machine learning vs. hand-coded rules in NLP
《立委随笔:语言自动分析的两个路子》
《朝华午拾:在美国写基金申请的酸甜苦辣》
《立委随笔:机器学习和自然语言处理》
【立委科普:从产业角度说说NLP这个行当】
王伟DL
不得不承认,看完这些偏见之后,我有点乱了。我同意“每一条都可以写一大篇”都可以引起大的讨论,对于是否偏,一时还难明。有些我已经不知何时“采纳”了,有些也不接受。---究竟是正是偏,也是引领方向的大问题。一方面应深入讨论,示明于众,纠偏于正时。另一方面,应采实践检验的标准以实证。
◆
米拉宝鉴:确实应该展开讨论,不着急,慢慢来。所罗列的“偏见”有两类:一类是谬见,可以证明其荒谬,譬如说规则系统不能处理社会媒体,只能分析规范性语言。另一类就是“偏”见,盗亦有道,情有可原,虽然还是应该对其纠“正”。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型。 浅尝辄止,然后 jump to conclusion
有个词汇叫矫枉过正,当一件事在两个方向上矫枉过正了很多次以后,就要想想是不是本来一个没有多大的分歧,在这样的拉锯下变成用无止尽的争论了呢
[回复]
我是一个研究生打算学NLP的学生,高中的时候参加过北大的夏令营,听到过一些关于NLP的介绍。
自己觉得机器学习确实有的时候被炒作的有点太过火了,看了您的文章以后认识到了机器学习方法和传统的方法之间的区别和相同之处。对我这种门外汉很有收获。谢谢了。
[回复]
你的博客我怎么不能用rss阅读器订阅呢?我用的是feeddemon。
[回复]
52nlp 回复:
9 8 月, 2013 at 13:32
应该可以吧,是不是和feedburner有关 http://feeds2.feedburner.com/52nlp
[回复]
哥们能不能留个联系方式给我。我的Q:253169051,希望与你交流
[回复]
52nlp 回复:
23 8 月, 2013 at 15:44
可以发邮件给我 52nlpcn # gmail.com
[回复]
现在国内真正要用的企业,都因为早前的传统BI,导致系统混乱无章。另一现状就是,稍微懂点的学术机构,就开始做这些高端的项目,系统做的一塌糊涂。知识普及很重要啊
[回复]
赞一个,去年EMNLP有一篇文章,里面对比数据很详细
Chiticariu, Laura, Yunyao Li, and Frederick R. Reiss. "Rule-Based Information Extraction is Dead! Long Live Rule-Based Information Extraction Systems!." EMNLP. 2013.
[回复]
lhdgriver 回复:
7 8 月, 2014 at 02:14
这篇文章真是神文。标题更是。。。内容还挺贴切的
[回复]