自然语言处理是机器学习当前神秘,红火,具难度,也让引人关注的分支。在搜索引擎,语音识别,情感分析,大批量文档处理,机器翻译,自动应答等各个领域有着前程无可限量的应用。可以试想一台能理解自然语言,并且和人类能用语言纯熟交流的机器,那还能叫机器么?文本挖掘(Text Mining)是数据挖掘以及自然语言处理技术衍生的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS留言、博客、微博、新闻跟贴与转贴等。此外,拥有大型呼叫中心或邮件系统的企业,call center或mail积攒下来的大量语言记录也可以通过文本挖掘获得众多具有商业价值的知识。我们用计算机去处理文字,语音,理解语言,这些本来是高等生物人类才能做的事情,使到系统能产生“机器也具有人类同样的智慧”的震惊效果,无需置疑肯定会给顾客和观众留下极其深刻的印象。
第1节 自然语言处理与文本挖掘概述。强大的系统后面都有一个强大的语料库。形式语言,机器诗人是怎样炼成的?
第2节 自动机及其应用,文稿自动校正,歧义消除
第3节 语言模型,平滑方法。应用案例:语音识别,分词消岐
第4节 概率图模型,生成式模型与判别式模型,贝叶斯网,马尔科夫链,隐马尔科夫模型HMM,应用案例:语音识别与分词
第5节 马尔科夫网,大熵模型,条件随机场CRF,实现HMM和CRF的软件。应用案例:使用大熵消除歧义,使用CRF进行标注
第6节 汉语分词专题。世界上难的语言名不虚传
第7节 命名实体识别,词性标注,从文本里挖出重要的内容
第8节 句法分析,找出句子的重点
第9节 语义分析与篇章分析,让机器象语言学家那样思考
第10节 文本分类,情感分析。应用案例:互联网自动门户,评论倾向性分析
第11节 信息检索系统,搜索引擎原理,问答系统,应用案例:客服机器人是怎么造出来的?
第12节 文本深度挖掘:自动文摘与信息抽取
第13节 机器翻译与语音识别技术介绍。IBM Watson系统的认知智慧。 |