自然语言处理:基于预训练模型的方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 自然语言处理基础

本章首先介绍自然语言处理中最基础、最本质的问题,即文本如何在计算机内表示,才能达到易于处理和计算的目的。其中,词的表示大体经过了早期的独热(One-hot)表示,到后来的分布式表示,再到最近的词向量三个阶段。至于更长文本的表示方法,本章只对最简单的词袋模型加以介绍,后续章节将介绍其他更好的表示方法。接着介绍三大类自然语言处理任务,即:语言模型、基础任务以及应用任务。其中,基础任务包括中文分词、词性标注、句法分析和语义分析等,应用任务包括信息抽取、情感分析、问答系统、机器翻译和对话系统等。由于这些任务基本可以归纳为文本分类、结构预测和序列到序列三大类问题,所以同时介绍这三大类问题的解决思路。最后,介绍自然语言处理任务的评价方法,主要包括针对确定答案的准确率和F值,针对非确定答案的BLEU值,以及针对开放答案的人工评价等。