自然语言处理与世界杯似乎没啥关系,不过今晚世界杯没有比赛了,我也可以回来照顾一下52nlp了。但是这两者的确没什么关系,我简单的Google了一下“自然语言处理 & 世界杯”,没有什么好的材料,就先从读者评论说起吧。
  读者Brishen评论:“可不可以对网络上赛前的言论做sentiment analysis来预测一下比赛结果呢?” 估计Brishen对Sentiment analysis(情感分析)有比较深的认识,我个人没有任何这方面的经验,不过感觉是一个不错的方向,不仅仅对于世界杯。如果读者有这方面的经验,欢迎在这里讨论。
  聚类在自然语言处理中也有比较重要的应用,譬如词的聚类或者文本聚类。章成志老师近期写了一篇《世界杯比赛规则与数据聚类》,大概是与世界杯相关的最具科普性的一篇博文了,和自然语言处理也能扯点关系,以下全文转载自章成志老师的博客

         世界杯比赛规则与数据聚类

  应该有很多博友像我一样,这段时间可能要花些时间看世界杯。有些博友还会发些心得。俺就从数据聚类的角度,来对世界杯比赛规则进行“重认识”一下,呵呵。

  先交代下基础背景知识,内行直接跳过本段,呵呵。数据聚类包括划分聚类、层次聚类等、基于模型的聚类等基本模式。划分聚类中最经典的方法就是K-均值聚类,需要事先给定初始点和聚类类目数。层次聚类中最常用的是HAC聚类,事先两两求出相似度,将最相似的或者最不相似的连接起来呢,然后再求次相似的,一直到所有点的都被连接为止。近年来,基于模型的聚类越来越火,可以将基于竞争的聚类方法划入这个类别。07年Frey提出的AP聚类方法更是被大量引用。

  再结合数据聚类,说下世界杯比赛规则。

  1. 首先,小组划分,是做基于约束的划分聚类:

  (1) 经过预选赛入围的32只球队,被划分为4个档次,其中第一档中的8支球队作为种子队 (32个数据,8个聚类类目,将以往世界排名作为权重,选择初始聚类中心,当然东道主特殊,直接作为种子);

  (2) 剩余球队按照其档次和所在洲的约束,进行抽签划分到相应的小组中(24个数据按照一定的规则约束后,随机分配到每个聚类中心的所在组中);

   2. 然后,正式比赛,是做层次聚类:

  (1) 小组确定后,每组四个对,两两求“相似度”,就是说两两打一场,胜的权重给3,平了给1,输了给0,每小组的6场赛事结束后,得到每个队的总体权重(当然了,有可能还要考虑净胜球,相互战绩啥的),那么小组中排名前2的队作为连接点参与下一个层次的聚类。(这里,两两求相似度,完全是基于竞争的,整个比赛阶段基于竞争的层次聚类);

  (2) 淘汰赛阶段,直接竞争,做二分聚类,胜的参加下一轮聚类;

  (3) 直到最后两支最牛的打决赛,冠军队成为了根节点。

   3. 聚类结束,参数重新分配,准备4年后的聚类,呵呵。

   所以,世界杯做了大量的约束,注意比赛的观赏性,用了比较简单公平的方法,在较短时间内确定聚类层次关系。

  如果是动物界打比赛,可能又是另一个场景,完全自由随机的打,最强的完全有可能因为体力不支,提早被淘汰而成不了冠军。

   以上仅供娱乐参考,推理和比喻不当地方,请博友指出,谢谢。

  关于自然语言处理与世界杯,不知道读者朋友还能想到些什么?

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:https://www.52nlp.cn/自然语言处理与世界杯

作者 52nlp

《自然语言处理与世界杯》有16条评论
  1. LZ 不知道有没有 谓语中心词识别之类的源码?我论文需要这些,现在毫无头绪~

    [回复]

    52nlp 回复:

    不知道针对的是英文还是中文?如果是英文,nltk里似乎有一些语法分析的工具,中文的不太清楚。

    [回复]

    Ju JiuPeng 回复:

    对句子做依存关系分析,一般情况head word应该就是你需要的谓词(代价有点大了)

    [回复]

    lee 回复:

    我用了哈工大的那个在线分析的工具,有依存分析,但找到的谓语中心词有很多情况都不准确。。

    [回复]

    Ju JiuPeng 回复:

    这依赖于你的语料来源了,至少我觉得新闻报道领域的还行。
    如果你是中文帖子、评论的话,那效果就不好说了。

  2. 微博、新闻媒体每天都会有很多的评论讨论当天交战双方的利弊,一个球队的实力体现在众多方面,如主帅、锋线火力、后场防守、球员阵容、伤病情况、球星发挥、球场环境等,如果能够从N多的评论中自动发现这些方面,并对每个方面的情况打分、作出对比分析,一定程度上能预测比赛结果。
    此为情感分析的一个潜在应用,哈哈

    [回复]

    52nlp 回复:

    呵呵,遇到行家了!
    不过我感觉如果是强弱分明的球队比赛,这样的分析应该比较准确;但是如果是荷兰对巴西,即使是微博或新闻媒体,也没有多大的情感因素,至多也是谁的球迷多谁的倾向性更大一些,所以这样的情感分析估计也不能很明确的得到结果,有点拿大炮打蚊子的感觉。
    毕竟足球就是足球,足球的不可预测性才是最大的魅力所在。虽然我支持巴西,但是今晚的比赛还是五五开,没办法因为情感的因素就忽视橙衣军团的实力!

    [回复]

  3. 个人感觉最典型的应用当属机器翻译了。

    整个世界都在谈论世界杯,而各个国家不同民族的人使用的语言多种多样。恰巧web又将大家联系在了一块,

    那么多语言的翻译正好应用,通过网络大家可以一起讨论世界杯和各自喜欢的球队,而不用再理会语言的差异了。

    只不过这就依赖于机器翻译的研究发展了。

    [回复]

    52nlp 回复:

    呵呵,这大概就是机器翻译的终极目标了!

    [回复]

  4. 想请教楼主一些问题,可否给我发email?谢谢!

    [回复]

    52nlp 回复:

    可以给我发邮件,52nlpcn#gmail.com,不过最近稍微有点忙,不一定能解决这些问题。

    [回复]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注