Skip to content

Latest commit

 

History

History
46 lines (38 loc) · 2.74 KB

自然语言处理一--基本概念理解.md

File metadata and controls

46 lines (38 loc) · 2.74 KB

自然语言处理一--基本概念理解

写在前面

刚开始接触NLP,发现跟自己想象中的完全不一样,有点颠覆的感觉,不过很有意思。很难想象语言文字这种东西,跟数学八竿子打不到一起的东西,竟然可以让语 言学家通过数学公式的形式来表示什么是语言,简直神奇。。。。。说白了 ,就是“语言”这个东西可以用数学公式来定义。还有一点没想到的是中间的理论概念很枯燥,如 过不是有视频讲解的话,我真的看看不懂那一个个公式是什么意思。不过明白了公式的定义的话,也是挺有意思的,从数学的角度来看什么是语言,神奇。

基本概念

1.NLP

NLP:自然语言处理,Natural Language Processing。简单理解为利用计算机为工具,对书面形式或口头形式的语言进行各种处理加工的技术。

目前NLP研究内容主要有:信息检索,机器翻译,文档分类,问答系统,信息过滤,文本挖掘,语音识别等。

2.自然语言

自然语言可以理解为是一种自然的随文化演化的语言。由语音、词汇、语法构成,语音是语言的物质外壳,是最原始的语言形式,文字是记录语言的书写系统符号。

3.什么是图?

3.1 无向图

3.2 有向图

3.3 连通图与回路

3.4 树

一个无回路的无向图称为森林。一个无回路的连通图称为树(无向图)。

4.字符串

4.1 字符串定义

假设∑是字符的有限集合,比如26个英文字母,∑中的每一个元素称为字符。有∑中的字符相连而成有限序列称为∑上的字符串。 不包括任何字符的字符串称为空串,ε。包括空串在内的∑上的所有字符串的集合记为∑* 。

4.2 字符串的基本运算

字符串连接
x=abc,y=def xy=abcdef
字符串集合乘积
A={ab,ac},B={bc,bd}; AB={abbc,abbd,acbc,acbd}
闭包运算

V={a,b},V*={∈,a,b,aa,ab,ba,bb,aaa……}

5. 形式语法(文法)定义

比如文法G={{A},{0,1},{A→0,A→0A},A},w = {0,00,000,0000,……}

6. 语言的定义