这是一个自然语言处理爱好者的群体博客,如果您愿意在这里分享NLP相关的文章,欢迎您邮件联系textminer at foxmail.com,我们为您开通相应的权限,开通后可以在这里发与NLP相关的文章,一般不做限制,最后给2个建议:
1、编辑文章时段落前的空格需要用圆角符号空格,文章发表前最好按”预览“按钮观摩一下,文章最后选择一个分类,如果没有自己要用的分类可自建,最好能添加几个标签(主题词);
2、这里已经安装了MathJax脚本,对于latext高手来说,可以很方便的使用latex公式,如果不太熟悉MathJax,可以参考其官方文档;
特别感谢以下已经为52nlp群体博客做出直接贡献的作者:
还有一些作者未统计完毕,这里一并感谢!
最后欢迎关注我们的公众号AINLP:
AINLP:一个有趣的公众号,作者是我爱自然语言处理博客博主,NLPJob、课程图谱网站"保姆",曾在腾讯从事文本挖掘相关工作。AINLP 关注AI、NLP相关技术,关注人工智能、文本挖掘相关算法研发职位,关注MOOC相关课程和公开课。后台对话提供中英双语聊天机器人"无名",可以直接使用中英机器翻译,可以调戏对联机器人,也可以查询相似词,还可以做您的私人夸夸助手,欢迎来撩,欢迎关注。
============================================================================
2010年12月8日之前,她是暂时属于52nlp的个人博客:
一个自然语言处理爱好者的个人博客,愿与您分享!且行且学习!且行且珍惜!如有任何问题,请联系textminer # foxmail.com (防止垃圾邮件,请将#换成@)。
推荐阅读:
如何学习自然语言处理
中文分词入门之资源
关于自然语言处理与机器翻译的一篇不错的介绍文章:
自然语言处理与机器翻译FAQ
机器翻译的一个有趣应用:
机器翻译与微软对联
一篇推荐文献阅读:
统计机器翻译中的几篇经典文献
两个文献存档网站介绍:
机器翻译档案计划
ACL Anthology——计算语言学的数字档案
自然语言处理书籍系列:
几本自然语言处理入门书
自然语言处理与计算语言学书籍汇总之一:国外书籍
自然语言处理与计算语言学书籍汇总之二:国内书籍
自然语言处理与计算语言学书籍汇总之三:国内书籍
自然语言处理与计算语言学书籍汇总之四:国内书籍
自然语言处理与计算语言学书籍汇总之五:机器翻译
自然语言处理与计算语言学书籍汇总之六:国外书籍
自然语言处理与计算语言学书籍汇总之七:其他书籍
Moses系列介绍:
Moses相关介绍
Moses基本框架
Ubuntu8.10下moses测试平台搭建全记录
Moses训练脚本的一个问题
Moses中模型训练的并行化问题
自然语言处理公司巡礼系列:
自然语言处理公司巡礼一:Teragram
自然语言处理公司巡礼二:Powerset
自然语言处理公司巡礼三:Inxight
自然语言处理公司巡礼四:Systran
自然语言处理公司巡礼五:Autonomy
自然语言处理公司巡礼六:Metaweb
自然语言处理公司巡礼七:Language Weaver
MIT自然语言处理系列:
MIT开放式课程“自然语言处理”介绍
MIT自然语言处理第一讲:简介和概述
MIT自然语言处理第二讲:单词计数
MIT自然语言处理第三讲:概率语言模型
MIT自然语言处理第四讲:标注
MIT自然语言处理第五讲:最大熵和对数线性模型
HMM相关:
wiki上一个比较好的HMM例子
HMM学习最佳范例与崔晓源的博客
几种不同程序语言的HMM版本
HMM学习最佳范例一:介绍
HMM学习最佳范例二:生成模式
HMM学习最佳范例三:隐藏模式
HMM学习最佳范例四:隐马尔科夫模型
HMM学习最佳范例五:前向算法1
HMM学习最佳范例六:维特比算法1
HMM学习最佳范例七:前向-后向算法1
52nlp历程:
2008年12月19日:博客新家,开始新的旅程!
2009年3月1日:“我爱自然语言处理”阶段性总结
2009年5月6日:“我爱自然语言处理”日访问量过百
2009年5月28日:“我爱自然语言处理”PageRank首次更新
2009年6月19日:“我爱自然语言处理”半岁
2009年6月24日:“我爱自然语言处理”PageRank再次更新
2009年10月30日:“我爱自然语言处理”PageRank更新为3
2009年12月19日:“我爱自然语言处理”一周岁
2010年12月8日:52nlp开放注册权限
2010年12月19日:“我爱自然语言处理”两周岁
请教一下博主,中文分词的词库是怎么制作的呢?我想好好系统学习一下您的分词系列文章,但是不知道词库我怎么搞定。谢谢!!!
[回复]
52nlp 回复:
10 4 月, 2011 at 17:34
制作专业的词库是由专业机构做的,对于如何搞定词库,可以看看这篇文章:https://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90
[回复]
miracle 回复:
12 4 月, 2011 at 16:21
谢谢
[回复]
同问一下楼上的问题!
我还有个问题,看了博主关于beautiful data 分词的文章,一般词库很大,都要事先装载到内存里吗?有没有什么特别的处理方式。或是有没有关于存储这些词库的方法,以及在内存中处理的方法。
多谢!
我是个刚入门,如果问题太初级还请包含!
[回复]
52nlp 回复:
10 4 月, 2011 at 17:39
事实上,词库一般不会很大,因为仅仅是一些词而已,内存是装得下的。至于内存中的处理方法,主要是利用了一些比较好的数据结构,譬如trie树,或者double array trie等等。
[回复]
ricky 回复:
11 4 月, 2011 at 11:29
多谢!^_^
[回复]
版主你好!!因为刚刚学习自然语言处理,虽然看了很多文摘,
但是还是有很多不懂的地方!所以想找个引路人,希望版主能
帮忙找几个在文本自动文摘方面有过研究的人,不胜感激!!
[回复]
DSQiu 回复:
21 10 月, 2012 at 14:44
我刚好正在帮别人做自动文摘的论文,不过是英文的,可以一起讨论学习……
[回复]
我是在看了data beauty 的分词文章之后,搜索Viterbi算法来到这里的 ,很不错,go on
[回复]
你好,我是一名在读本科生,打算往自然语言处理这个方向发展,希望博主可以推荐几个好的学校参考,谢谢
[回复]
52nlp 回复:
22 5 月, 2011 at 16:41
国内大家比较推崇的大概是哈工大,清华,中科院,南大,苏大等几家,具体各个学校的研究方向你可以再仔细查查,我也不是很清楚。
[回复]
老师,我现在初学NLP,想问下中文和英文的断句工具,用得多的有哪几个?谢谢
[回复]
52nlp 回复:
17 10 月, 2012 at 17:10
英文的可以用nltk的断句工具:
http://nltk.googlecode.com/svn/trunk/doc/book/ch03.html#sec-segmentation
中文的不太清楚,不过由于中文的句子规则简单,歧义较少,完全可以按规则写一个断句的工具。
[回复]
博主你好,我现在在做关于文本特征提取方面的项目。中文关键词提取的部分采用了张华平博士ICTCLAS2013版的关键词提取组件得到了顺利的完成,可是目前英文关键词提取找不到类似的开源软件。 博主知不知道有类似的英文特征提取的开源软件推荐呢,具体步骤是:
1、输入一篇文档
2、进行分词以及词干的提取
3、关键词权重的计算和特征提取
最后输出一个文本向量空间模型,有提取出的关键词及其权重。谢谢!
[回复]
博主,请教一下:我有很多sentence,每个sentence包括不同数量的word,每个word有对应的features。对每个sentence有一个label。遇到的问题是由于word数目不等,feature vector的维度就不想等了,简单的办法是所有word feature取平均之类的,但这样觉得有点丢信息,而且特征一下子少了,可能导致bias变大很多。请问这类问题通常有什么处理技巧?谢谢!
[回复]
博主,您的feed链接地址一直报错啊,能否有空的时候修复一下。感谢!
This page contains the following errors:
error on line 451 at column 329: Input is not proper UTF-8, indicate encoding !
Bytes: 0x10 0x76 0x65 0x20
Below is a rendering of the page up to the first error.
[回复]
52nlp 回复:
20 5 月, 2014 at 16:22
谢谢提醒,开始还以为是feedburner的缘故,把feedburner干掉了;但是问题依然存在,还是与字符编码有关,具体我还没找到是哪个片段导致这样的问题,抱歉。
[回复]
博主好!
我注册了之后, 没有收到密码, 报告错误, 您的主机禁用了mail()函数, 请问这个怎么解决?
[回复]
各位语言爱好者,你们好!我最近想做些日常生活方面的语言应用,但是没找到(可能是工作不充分)合适的日常生活的语料库(比如日常生活中的交流和沟通语句,QQ或微信上常见的交流语句等),你们可否发起一个活动,将大家日常交流的语句收集起来,然后用分词算法进行分词,整理起来,已供语言爱好者学习和参考!
[回复]
博主您好,不知道您有没有接触过结构化抓取的爬虫,我们想做一个基于自然语言处理和机器学习的通用爬虫。不知道您在这方面有没有涉猎
[回复]
52nlp 回复:
15 4 月, 2016 at 11:06
抱歉,这方面不太清楚
[回复]
最近在研究同义词挖掘,想问下能调用你们的接口吗,或者你们的算法原理是什么呢请教大佬们
[回复]
52nlp 回复:
11 11 月, 2019 at 17:46
直接看一下这里相关的几篇关于腾讯词向量文章吧
[回复]
博主您好!关注了你的公众号,能否请您分享10月20号的推文里面关于何晗大佬的那个视频(介绍hanlp的视频)一份到本人邮箱?756803877@qq.com。感激不尽
借此视频给自己加油 哈哈 目前正在入门路上
[回复]
52nlp 回复:
15 12 月, 2019 at 14:01
这个有版权问题,你直接去何晗微博下看或者私信问他要吧,抱歉:https://weibo.com/1824228933/Icc0k4FkM?type=comment
[回复]
52nlp 有相关的RSS吗?
[回复]
52nlp 回复:
8 4 月, 2020 at 15:25
https://www.52nlp.cn/feed
[回复]