自然语言处理怎么最快入门_自然语言处理知识了解
来源:电子发烧友网 发布时间:2017-12-28 分享至微信

一. 什么是NLP?

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理,即实现人机间自然语言通信,实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。

能力模型,通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。又称“理性主义的”语言模型。

应用模型,根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。又称“经验主义的”语言模型,使用大规模真实语料库中获得语言各级语言单位上的统计信息,依据较低级语言单位上的统计信息运用相关的统计推理技术计算较高级语言单位上的统计信息。

自然语言处理的基本架构:分词=>词性标注=>Parser

1、分词

词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。

中文分词技术可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。

2、词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。利用HMM即可实现更高准确率的词性标注。

3、名实体识别

命名实体识别(Named EnTIty RecogniTIon,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanTIc Web的元数据标注等应用领域的重要基础工具。

基于规则和词典的方法( MUC-6 会议中几乎所有参赛成员都采用基于规则的方法),该方法需要专家制定规则,准确率较高,但依赖于特征领域,可移植性差;

基于统计的方法,主要采用 HMM 、 MEMM 、 CRF, 难点在于特征选择上,该方法能获得好的鲁棒性和灵活性,不需太多的人工干预和领域限制,但需要大量的标注集。

混合方法,采用规则与统计相结合,多种统计方法相结合等,是目前主流的方法。

特征:上下文信息+构词法

4、指代消解

指代是一种常见的语言现象,一般情况下,指代分为2种:回指和共指。

回指是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性和非传递性;

共指主要是指2个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。

目前指代消解研究主要侧重于等价关系,只考虑2个词或短语是否指示现实世界中同一实体的问题,即共指消解。

中文的指代主要有3种典型的形式:

(1)人称代词(pronoun),例如:李明 怕高妈妈一人呆在家

里寂寞,他 便将家里的电视搬了过来。

(2)指示代词(demonstraTIve),例如:很多人都想留下什么给孩子,这 可以理解,但不完全正确。

(3)有定描述(definite description),例如:,贸易制裁已经成为了美国政府对华的惯用大棒,这根 大棒 真如美国政府所希望的那样灵验吗?

5、文本分类

一个文本(以下基本不区分“文本”和“文档”两个词的含义) 分类问题就是将

一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。

6、问答系统

问答系统(Question Answering System, QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。

依据问题类型可分为:限定域和开放域两种,依据数据类型可分为:结构型和无结构型(文本),依据答案类型可分为:抽取式和产生式两种。

问句分析-》文档检索-》答案抽取(验证)

 

自然语言处理工具包:

中文的是哈工大开源的那个工具包 LTP (Language Technology Platform) developed by HIT-SCIR(哈尔滨工业大学社会计算与信息检索研究中心)。

英文的(python):

· pattern - simpler to get started than NLTK

· chardet - character encoding detection

· pyenchant - easy access to dictionaries

· scikit-learn - has support for text classification

· unidecode - because ascii is much easier to deal with

掌握以下的几个tool:

CRF++

GIZA

Word2Vec


     自然语言处理推荐学习书籍

现在自然语言处理都要靠统计学知识,下面推荐四本自然语言处理领域的标准书籍

《数学之美》,这个书写得特别科普且生动形象,我相信你不会觉得枯燥

《统计学习方法》

《自然语言处理综论》

《统计自然语言处理基础》

《自然语言理解》

[ 新闻来源:电子发烧友网,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!

相关文章
热门搜索
英伟达反超苹果,台积电最大客户换人 华邦电董事长:存储产业2~3年内供需重获平衡 安世中国发布致客户信 华为 台积电 中芯国际 联发科 高通 英特尔