文本分类综述

(整期优先)网络出版时间:2020-11-02
/ 2

文本分类综述

李安昊

沈阳化工大学 110142


摘要:

文本分类是自然语言处理当中的基本的任务,最近几年基于深度学习模型的在许多任务上已经早已超越了基础的基于机器学习的模型,导致了这一领域的研究激增,也带来了许多算法和研究数据。文本分类包括情绪分析、新闻分类、问题回答、主题分类、自然语言推理,本文回顾了近年来开发的一些基于机器学习和深度学习的文本分类的模型,讨论了各技术之间的优点和缺点,并且做了技术之间的比较,最后我们还提供了一些用于文本分类的流行的数据和性能指标。

关键词:文本分类,自然语言推理,机器学习,深度学习。

引言:

文本分类也叫做文档分类,是自然语言处理(NLP)中一个经典的问题,其目的是为了给文章中的句子标点等分配标签和标记,在信息爆炸的一个时代,手动的处理和分类大量的数据是非常费时和费力的,此外手工文本分类的准确性非常容易受到人为因素的影响,例如疲劳和专业技术等等,人们想通过机器学习自动对文本进行分类,机器学习大概可以分为两步,第一步对数据进行预处理,分词,停用词,和一些算法等来提取数据的特征,第二步把数据送入分类器进行分类,一些流行的手工制作的包 bag of words(BOW),常用的的文类的算法 有,朴素贝叶斯、知识向量机(SVM)、隐马尔可夫模型(HMM)、随机森林(RF),梯度增强树等

机器学习转变为深度学习开始于2012年[1],基于深度学习的AlexNet[2]在ImageNet的竞争中获得了巨大的优势。从那时起,深度学习模型就爆发式的应用于计算机视觉和NLP中的任务。这些模型尝试以端到端的方式学习特征表示并执行分类(或生成)。

1.文本分类的主流方法

文本分类是指从原始文本数据中提取特征,并根据这些特征预测文本数据的类别。在过去的几十年里,人们提出了大量的文本分类模型,在本节中我们会向大家回顾几种文本分类问题提出的基于机器学习和深度学习的框架,由深到浅。

(1)隐马尔可夫模型(HMM)

隐马尔可夫模型(HMM)是用于顺序文本的数据的概率模型,给定一个单位序列(单词、字母、语表、句子等等),计算可能的标签序列的概率分布,是典型的用于词性标注的基于机器学习的算法。随机过程就是一些统计模型,利用对自然界的一些事物进行预测和处理。他会有一个转移概率矩阵P,并且他是保持不变的,有了这个矩阵在加上已知的第一天的数据就能计算第N天的状态分布,假设A1 是5月1号中午12点的状态分布矩阵 [0.5, 0.2, 0.3],里面的数字分别代表吃的概率,玩的概率,睡的概率。那么5月2号的状态分布矩阵 A2 = A1 * P (俩矩阵相乘)。5月3号的状态分布矩阵 A3 = A2 * P (跟A1无关,只跟A2有关)。5月4号的状态分布矩阵 A4 = A3 * P (跟A1,A2无关,只跟A3有关)。5月n号的状态分布矩阵 An = An-1 * P (只跟它前面一个状态An-1有关)。

(2)基于RNN模型

一个简单的RNN模型,是由一个输入层,一个隐藏层和一个输出层组成的。

5f9f73982d5f2_html_ff28b74c8a480193.gif

X



输入层


5f9f73982d5f2_html_ee27a7dc394ba4a4.gif5f9f73982d5f2_html_de02f725b45aba3d.gif N


5f9f73982d5f2_html_ff28b74c8a480193.gif5f9f73982d5f2_html_ef2f006033f0ee58.gif

W

h


5f9f73982d5f2_html_45d82fa6d417764e.gif 隐藏层


K

5f9f73982d5f2_html_fe385f5d17f900de.gif

O

输出层


X是输入层,必须是一个序列型的数据。N是输入层到隐藏层的权重矩阵,h是隐藏层,K是隐藏层到输出层的权重矩阵,RNN的隐藏层的值不仅取决于当前这次的输入X,还取决于上一次隐藏层的值,权重矩阵W就是隐藏层上一次的值作为这一次的输入权重。但是RNN理论上来说可以产长期的记忆,但是在反向的对权重矩阵进行梯度下降的时候,RN

N很容易忘记很久之前的数据,对w无长期的依赖,所以会产生梯度消失和爆炸,在RN

N的变体中,长短期记忆(LSTM)完美的解决的这个问题,并且成为了最流行的框架,L

STM很好的捕获长期的依赖的关系。LSTM通过引入一个记忆单元来记住任意时间的间隔,以及三个门(输入门,输出门,遗忘门)来解决这个问题。还有其他的一些变种比如说,GRU,TreeLSTM等等,他们都被很好的用于文本分类的任务当中。

2. 文本分类数据集及其性能指标

(1)数据集

IMDB IMDB数据集[3]是为电影评论的二值情感分类而开发的。IMDB由相同数量的正面和负面评论组成。它平均分为训练集和测试集,每个集有25000个复习。

Yelp Yelp点评[4]总结自2013年的Yelp数据集挑战,2014年和2015年。这个数据集有两个类别。其中的Yelp-2被用于消极和积极情绪分类任务,包括560,000个训练文本和38,000个测试文本。使用Yelp-5对65万篇训练文本和5万篇测试文本进行精细的情感标签检测。

Amazon这是一个流行的产品评论语料库,收集自亚马逊网站[5]。它包含了二元分类和多类(5类)分类的标签。Amazon的二进制分类数据集由360万条和40万条用于训练和测试的评论组成。Amazon的5类分类数据集(Amazon-5)分别包含300万条和65万条用于训练和测试的评论。

(2)性能指标

在评价文本分类模型方面,评价文本分类方法最常用的是accuracy和F1分。随后,随着分类任务难度的增加或某些特定任务的存在,改进了评价指标。

3.结论和总结

在本片文章中,我们讨论了几种用于文本分类的基于机器学习和深度学习的模型,并且做出了方法间的比较,基于机器学习的模型是通过改进提取方案和分类器来提高性能的,基于深度学习的模型是通过加大数据集和改进复杂的模型结构来提高的,最后我们介绍了数据集和性能指标。

参考文献:

[1] Shervin Minaee, Snapchat Inc Nal Kalchbrenner, Google Brain,etc“Deep Learning Based Text Classification: A Comprehensive Review” arXiv:2004.03705v1 [cs.CL] 6 Apr 2020.

[2] A. Krizhevsky, I.Sutskever, and G.E.Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097–1105.

[3] https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews.

[4] https://www.kaggle.com/yelp-dataset/yelp-dataset.

[5] https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products.