RE: 分词当然是第一关。这个没弄好,其他的免谈


现如今中文自动分析的瓶颈早已不是分词了
日期: 12/05/2011 15:43:43
半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失职。应该立法禁止分词研究(kidding :=)),至少是禁止用纳税人钱财做这个研究。海量词库可以解决分词的90%以上的问题。

统 计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。

再往上,多一个百分点少一个百分点又有什么关系?对于应用没有什么影响,as long as things can be patched and incrementally enhanced over time.

或者任其错误下去(上帝允许系统的不完美),或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题(所谓 error propagation in a pipeline system), 他们忽略了系统的容错能力(robustness through adaptive modules),这当然要看系统设计者的经验和智慧了。中文处理在分词之后,有人做了一些短语识别(譬如 Base NP 抱团)和专有名词识别(Named Entity Tagging),再往下就乏善可陈了。

深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说,做一个 end-to-end system,直接支持某个app,用到大数据(big data)上,让数据制导,让数据说话。先用上再说,至少尽快显示其初步的value,而不是十年磨一剑。

作者 liwei999

《应该立法禁止分词研究 :=)》有11条评论
  1. 在下立委,黄埔一期的老革命啦。先拜一下山头。也谢谢那位曾经转载我的两篇博文的小同行。后生可畏,请多关照。

    刚来就放了一炮,炮打司令部。看不顺眼的,请砸砖。

    看来这里是中文NLP爱好者的园地。今后这方面的随笔,除了我的科学网博客外,也在这里发,欢迎批评。

    [回复]

    jiuren 回复:

    立委先给咱们普及下现在分词发展成啥样了?

    [回复]

    liwei999 回复:

    对不住这位朋友。网上的文字都是随兴之所至,我从来不写命题作文,包括我自己的命题。有时候兴趣来了,就说自己下一篇打算写什么什么,算是自我命题,可是过了两天,一个叉打过去,就没那个兴致和时间了,也就作罢。

    赶上什么写什么,这就是上网的心态。平时打工已经够累了,上网绝不给自己增加负担。

    何况网文也不给稿费,:=)

    [回复]

    52nlp 回复:

    立委老师都在这里活动,太荣幸了!您的文章读来总有一种一吐为快的感觉,很过瘾!这里有啥不顺眼的,也欢迎您多多批评!

    [回复]

    liwei999 回复:

    谢谢你提供这个平台。52NLP 也是很有创意的品牌。

    董老师是黄埔教官啊,是我很敬重的前辈。看到他还在做讲座,很感动。

    [回复]

    52nlp 回复:

    嗯,董老师是我非常敬佩的老前辈!
    您可有新浪微博的帐号?我把文章链接转到微博上去了,但是没有找到您的帐号,有NLPers开始评论了,可以看看。

    zzl 回复:

    一年前就关注立委老师了,刚接触nlp时,看到了老师的关于信息抽取的科普,随后就确定了IE这个方向,感谢您!

    [回复]

    liwei999 回复:

    IE 是朝阳方向,值得做。

    [回复]

  2. 我认为是这个研究体制的错误,不应该怪罪到分词研究上。
    现在的高校与研究所里进行的所谓研究绝大多数是向着论文看的,不考虑实际问题,一上来就看别人的论文怎么写的,别人的论文发到了哪个会议哪个期刊,我们如何能让自己的数据比他/她的好看点,然后好写论文。
    按照这种心态,应该立法禁止的不是研究分词,而是做研究本身。

    [回复]

  3. 我开始研究NLP时就想到了,NLP起始于分词,也终止于分词。就是说,NLP系统的终极目标就是分词。应该本着“假设-反馈-修正”的机制来进行词语处理,并没有一个专门用于(one-shoot)分词的独立模块。这个想法直到今天依旧那么顽固地存在和指导着我。

    [回复]

  4. 计算机真能理解自然语言吗?如果是后生,我建议看看换个角度去思考自然语言及人工智能问题。外国研究人脑很多年,真正的理解,应该要等到哲学和人脑科学的发展到一定程度。现在的计算机方面 研究还有应用价值的,但它达不到我们的终极追求。

    [回复]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注