Effective Use of Word Order for Text Categorization with Convolutional Neural Networks

卷积神经网络有效地利用词序进行文本分类(2015年)

code:https://github.com/tensorflow/models/tree/master/research/sentiment_analysis(但是这份代码只是简单实现了parallel CNN，并没有实现seqCNN和bowCNN，聊胜于无）

摘要

卷积神经网络（CNN）是可以利用数据的内部结构（例如图像数据的2D结构）的神经网络。本文研究CNN的文本分类，以利用文本数据的一维结构（即单词顺序）进行准确预测。 与其像通常那样将低维单词向量用作输入，不如将CNN直接应用于高维文本数据，直接学习嵌入小文本区域的嵌入矩阵以用于分类。 除了将CNN从图像直接转换为文本之外，还提出了一种简单而新颖的变体，该变体在卷积层中采用了词袋转换。还探索了组合多个卷积层的扩展，以提高准确性。实验证明了我们的方法与最新技术方法相比的有效性。

1.介绍

文本分类是自动为以自然语言编写的文档分配预定义类别的任务。不同的文本分类任务处理不同类型的文档，例如主题分类以检测讨论的主题（例如，体育，政治），垃圾邮件检测以及确定产品或电影评论中通常具有的情感的情感分类。文本分类的一种标准方法是通过词袋矢量（即表示哪些单词出现在文档中但不保留单词顺序的矢量）表示文档，并使用诸如SVM的分类模型。

已经注意到，由词袋向量引起的词序的损失在情感分类上是一个尤为严重的问题。一种简单的补救方法是，除了使用uni-gram外，还使用bi-gram。但是，一般来说，在文本分类中使用n > 1的n-gram词并不总是有效的。例如，关于主题分类，仅添加短语或n-gram无效。

为了从文本分类中的单词顺序中受益，我们采用了不同的方法，该方法采用了卷积神经网络。 CNN是一种神经网络，可以通过卷积层利用数据的内部结构（例如图像数据的2D结构），其中每个计算单元都对输入数据的较小区域（例如大图像的小方块）做出响应。我们将CNN应用于文本分类，以利用文档数据的1D结构（单词顺序），以便卷积层中的每个单元都响应文档的一小部分区域（单词序列）。

在文本上，由于Collobert等人（2011年）在令牌级应用程序（例如POS标记）方面的工作，CNN已用于实体搜索，句子建模，单词嵌入学习，产品特征挖掘等系统中。值得注意的是，在许多有关文本的CNN研究中，网络的第一层通过查表将句子中的单词转换为词向量。词向量既可以作为CNN训练的一部分进行训练，也可以固定为通过某种其他方法（例如word2vec）从其他大型语料库中获得的向量。后者是半监督学习的一种形式，我们将在其他地方进行学习。我们对CNN本身的有效性感兴趣，而无需借助其他资源；因此，如果要进行字向量查找，则应将字向量作为网络训练的一部分进行训练。

但是，出现一个问题，在纯监督环境中查找单词向量是否真的对文本分类有用。卷积层的本质是将固定大小（例如，大小为3的“am so happy”）的文本区域转换为特征向量，如稍后所述。从这个意义上讲，词向量学习层是区域大小为1的卷积层的一种特殊情况。如果bi-gram比uni-gram更具区分性，为什么1这个尺寸合适呢？因此，我们采用了不同的方法。我们将CNN直接应用于高维one-hot向量；即，我们无需进行词嵌入学习，即可直接学习文本区域的嵌入。通过在GPU上高效处理高维稀疏数据来解决计算问题（正常的CNN网络是无法高效处理稀疏数据的），从而使这种方法成为可能，并且它具有通过快速训练/预测来提高准确性并简化系统的优点（需要调整的超参数更少）。

我们研究了CNN在文本分类上的有效性，并解释了CNN为什么适合该任务。测试了两种类型的CNN：seq-CNN是CNN从图像到文本的直接改编，而bow-CNN是CNN的一种简单但新的变体，在卷积层中采用了词袋转换。实验表明，在情感分类上，seq-CNN的表现优于bow-CNN，在主题分类上则相反，而优胜者的表现通常优于传统的基于bag-of-n-gram矢量的方法，以及之前复杂的文本CNN模型。特别是，据我们所知，这是成功使用词序来改善主题分类性能的第一部作品。结合了多个卷积层的简单扩展（从而结合了多种类型的文本区域嵌入）可带来进一步的改进。通过经验分析，我们将证明当传统方法失败时，CNN可以有效利用高阶n元语法。

2.CNN用于文本分类

我们首先回顾一下CNN在图像数据中的应用，然后讨论CNN在文档分类任务中的应用，以介绍seq-CNN和bow-CNN。

2.1CNN用于图像

略。

2.2CNN用于文本

现在考虑将CNN用于文本数据，给定文本D=(w1,w2,...)，字典V。CNN需要数据的矢量表示形式保留内部位置（在这种情况下为单词顺序）作为输入。直接表示是将每个单词视为一个像素，将D视为|D|×1的图像，拥有|V|个通道，并将每个像素（即每个单词）表示为| V |维one-hot向量。假设V = { “don’t”, “hate”, “I”, “it”, “love” } ,D='I love it'，那我们就可以得到一个文档向量：

x = [ 0 0 1 0 0 | 0 0 0 0 1 | 0 0 0 1 0 ]T.

2.2.1 seq-CNN

像在图像的卷积层中一样，我们通过像素的连接表示每个区域（每个计算单元响应），这将生成p *|V|维的区域向量，其中p是预先确定的区域大小。例如，在上面的示例文档向量x中，p = 2并且跨度为1，我们将有两个区域“ I love”和“ love it”，分别由以下向量表示：

其余部分与图片相同； 文本区域向量将转换为特征向量，即卷积层将文本区域嵌入到低维向量空间中。 我们称具有这种区域表示的卷积神经网络为seq-CNN（“ seq”指保留单词序列），以将其与bow-CNN区别开来。

2.2.2 bow-CNN

但是，seq-CNN的潜在问题是，与具有3个RGB通道的图像数据不同，“通道”的数量| V | （词汇的大小）可能非常大（例如100K），如果区域大小p也很大，则可能会使每个区域向量r（x）具有很高的维数。由于区域向量的维数决定权重向量的维数，因此具有高维区域向量意味着需要学习更多的参数。如果p*|V| 太大，模型变得太复杂（无法获得可用的训练数据量），即使有效处理稀疏数据，训练也变得负担不起; 因此，必须通过减小词汇量| V |或区域大小p来降低维度，这可能取决于任务的性质，也可能不符合要求。

我们提供的另一种方法是执行词袋转换以使区域向量|V|维代替p*|V|维；例如，上面的示例区域矢量将被转换为：

通过这种表示，我们需要学习的参数更少。本质上，词袋卷积的表达（仅在小区域内失去单词顺序）介于seq卷积和词袋矢量之间。

2.2.3 Pooling for text

尽管图像大小在图像应用程序中是固定的，但是文档自然是可变大小的，因此，跨步固定时，卷积层的输出也是可变大小的，如图3所示。在卷积层中，图像的标准合并（使用固定的合并区域大小和固定的跨度）将产生可变大小的输出，该输出可以传递到另一个卷积层。为了产生固定大小的输出，这是完全连接的顶层所需的，我们固定池单元的数量，并动态确定每个数据点上的池区域大小，以便整个数据覆盖重叠。

在之前的CNN文本研究中，池化通常是整个数据的最大池化（即，与整个文本关联的一个池化单元）。（Kalchbrenner et al，2014）的动态k-max池用于句子建模，将其扩展为k个最大值，其中k是句子长度的函数，但它又遍及整个数据，并且操作限于最大池化。我们的池化的不同之处在于，它是对图像标准池化的自然扩展，不仅可以应用最大池化，还可以应用其他类型。通过与不同区域关联的多个池化单元，顶层可以接收位置信息（例如，如果有两个池化单元，则区分来自文档的前半部分和后半部分的特征）。事实证明，这对主题分类很有用。

2.3 CNN和bag-of-n-grams

传统方法用一个n-gram袋矢量完全表示每个文档，然后应用分类器模型（例如SVM）。但是，由于高阶n元语法容易受到数据稀疏性的影响，因此使用大n（例如20）不仅不可行，而且无效。还要注意，一个n-gram袋由一个one-hot向量表示每个n-gram，而忽略了某些n-gram共享组成词的事实。相比之下，CNN会在内部学习对预期任务有用的文本区域的嵌入（给定组成词作为输入）。因此，特别是在bow卷积层中可以使用较大的n（例如20），这对主题分类很有用。例如，一个对“I love”分配较大的值（而对"I hate"分配较小的值）的神经元会为“we love”分配较大的值，而对“we hate”的分配较小的值，即使在训练期间从未见过“we love”。我们将在以后根据试验确认这些观点。

2.4 拓展：parallel CNN

我们已经用具有一对卷积和池化层的最简单的网络体系结构描述了CNN。尽管可以通过多种方式（例如，使用更深的层）进行扩展，但在我们的实验中，我们探索了并行CNN，该并行CNN具有并行的两个或多个卷积层，如图4所示。其思想是学习多种类型的小文本区域嵌入，以便它们可以相互补充以提高模型准确性。在这种体系结构中，具有不同区域大小（可能还有不同区域矢量表示）的多个卷积池对被赋予一个热矢量作为输入，并为每个区域生成特征矢量。顶层将产生的特征向量的串联作为输入。

3.实验

激活函数：Relu 优化函数：SGD region size：3

Out-of-vocabulary words were represented by a zero vector。

在Bow-CNN上，为了加快计算速度，我们使用了可变区域步幅，以便采取更大的步幅，这样可以避免重复执行相同区域向量。填充大小固定为p -1，其中p是区域大小。（The purpose is to equally treat the words at the edge and words in the middle.）

CNN with one convolution layer (seq- and bow-CNN in the table).

现在我们转向并行CNN。在IMDB上，seq2-CNN具有两个seq-卷积层（区域大小2和3；每个1000个神经元；随后每个单位最大池），其性能优于seq-CNN。随着神经元数量的增加（每个神经元3000个；表3），它进一步超过了表现最佳的基线，这也是先前获得的最佳监督结果。我们假设seq2-CNN的有效性表明预测文本区域的长度是可变的。

效果最好的模型：‘seq2-bown-CNN’, 3个并行层: two seq-convolution layers (1000 neurons each) as in seq2-CNN above and one layer (20 neurons) that regards the entire document as one region and represents the region (document) by a bag-of-n-gram vector (bow3) as input to the computation unit。

特别是，由于NB-LM的良好性能，我们通过将NB权重乘以二进制向量来生成bow3向量。第三层是一个bow卷积层，具有一个可变大小的区域，该区域采用具有n-gram词汇量的one-hot向量作为输入来学习文档嵌入。

4.结论

本文表明，CNN通过直接嵌入小的文本区域提供了一种有效地使用单词顺序进行文本分类的替代机制，这与传统的NNG方法或单词向量CNN不同。使用并行的CNN框架，可以学习和组合几种类型的嵌入，以便它们可以相互补充以提高准确性。使用这种方法可以达到目前情绪分类和主题分类方面的最好效果。

最近开始研究情感分类模型，按时间顺序阅读一些相关论文，这里记录一下~

点赞
收藏
分享
- 文章举报

睡熊猛醒

发布了24 篇原创文章 · 获赞 3 · 访问量 6834

私信关注

查看全文
如若内容造成侵权/违法违规/事实不符，请联系编程学习网邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

程序员，别再迷恋多线程工作了
我刚刚尝试了一下，一边用 iPad 看“Java 极客技术”自制的 SpringBoot 视频（1.2X 倍速），一边在 iMac 上回复博客上读者的留言。过了一会，视频上讲了什么，我完全没有印象了；而回复的内容也写得乱七八糟。很长一段时间内，我都在欺骗我自己：一边写博客，一边听音乐，自认…...
2024/5/6 13:34:53
Dubbo框架，SOA思想,Zookeeper安装
SOA思想 SOA介绍面向服务的架构（SOA）是一个组件模型，它将应用程序的不同功能单元（称为服务）进行拆分，并通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的，它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种各样的系…...
2024/5/6 13:34:49
JTAG各类接口针脚定义及含义
JTAG有10pin的、14pin的和20pin的，尽管引脚数和引脚的排列顺序不同，但是其中有一些引脚是一样的，各个引脚的定义如下。一、引脚定义 Test Clock Input (TCK) -----强制要求1 TCK在IEEE1149.1标准里是强制要求的。TCK为TAP的操作提供了一个独立的、基本的时钟信号，TAP的所有…...
2024/5/5 23:46:36
matlab P 文件加密与逆向工程探讨
最近看论文，很多开源程序被加密成p文件。由于论文写得往往跟程序里实际做的还是有一定差别，很想借鉴一下前人宝贵的经验。之前，网上有大神曾经公布过逆向p文件到m文件，据说p文件采用AES-128加密格式，知道秘钥就可以反向逆向工程。由于matlab公司要求下架，该公测网站已经下…...
2024/5/6 13:34:41
Dynamo-【NO.03】Revit交互节点
Dynamo的Revit交互本文主要对Dynamo中涉及到数据的节点进行了总结整理，笔记整理自[姑娘课堂]的Dynamo教程，笔记原格式为OneNote格式，如有需要可以按照下方链接下载OneNote文件与PDF文件，如果链接失效或者笔记中有错漏部位请私信联系，看到后会回复。百度网盘地址：https:…...
2024/5/6 13:34:37
求助急急急
1.网页上的文字保存到哪里了？这些个很多很多的文字不可能就是写死在网页上了吧？保存数据库感觉也不太对啊！毕竟这么多字。所以大神们这些字跑哪去了？每次初始化页面都会战士。 2.前台页面有没有那些个源码网站推荐的，不想自己写好多好复杂。点赞收藏分享文章举报weixin…...
2024/5/6 13:34:34
Navicat使用HTTP通道连接MySQL(通过php代理连接数据库)
文章来源：https://blog.ll00.cn/archives/127.html问题描述：通过web服务器访问db服务器, 因为db服务器没有外网ip, 不支持外网直接访问；web服安装了php, 有外网IP，支持外网http访问。补充：什么是Navicat？在win系统下通过图形操作mysql数据库的软件, 很好用。官网地址：…...
2024/5/6 12:42:29
解决 github 等网站无法访问的办法
一、打开代理设置，在连接->局域网设置中，将“自动检测设置”、“使用自动配置脚本”这两个前面的勾选去掉。二、用记事本打开“C:\Windows\System32\drivers\etc”下的hosts，若在此目录下没有hosts，则新建一个hosts文本文件，然后将“.txt”后缀去掉，以记事本方式打开，…...
2024/5/6 13:34:29
Dynamo-【NO.04】自定义节点
Dynamo的节点自定义本文主要对Dynamo中涉及到数据的节点进行了总结整理，笔记整理自[姑娘课堂]的Dynamo教程，笔记原格式为OneNote格式，如有需要可以按照下方链接下载OneNote文件与PDF文件，如果链接失效或者笔记中有错漏部位请私信联系，看到后会回复。百度网盘地址：https…...
2024/5/6 13:34:25
NAT网关、vpc、子网、弹性IP 基本概念整理
NAT网关NAT网关（NAT Gateway）是一款企业级的公网网关，提供NAT代理（SNAT和DNAT）、高达10Gbps级别转发能力以及跨可用区的容灾能力。功能简介NAT网关作为一个网关设备，需要绑定公网IP才能正常工作。创建NAT网关后，您可以为NAT网关绑定弹性公网IP（EIP）。说明对于2017年1…...
2024/5/6 13:34:21
使用Vue.js写一个简单的导航菜单
使用Vue.js写一个简单的导航菜单代码运行界面代码 <!DOCTYPE html> <html> <head><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content=&…...
2024/5/6 13:34:17
Dynamo-【NO.05】CodeBlock节点
Dynamo的CodeBlock节点本文主要对Dynamo中涉及到数据的节点进行了总结整理，笔记整理自[姑娘课堂]的Dynamo教程，笔记原格式为OneNote格式，如有需要可以按照下方链接下载OneNote文件与PDF文件，如果链接失效或者笔记中有错漏部位请私信联系，看到后会回复。百度网盘地址：ht…...
2024/5/7 17:45:33
ActiveMQ--与Spring和Springboot的整合
一、整合Spring首先导入pom文件<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding><spring-version>4.3.7.RELEASE</sprin…...
2024/5/6 13:34:09
用Python在Excel里画出蒙娜丽莎
之前看到过很多头条，说哪国某人坚持了多少年自学使用excel画画，效果十分惊艳。对于他们的耐心我十分敬佩。但是作为一个程序员，自然也得挑战一下自己。这种需求，我们十分钟就可以完成！mona-lisa基本思路实现这个需求的基本思路是读取这张图片每一个像素的色彩值，然后给…...
2024/5/6 13:34:05
Python3 虚拟环境激活
如果你正在使用Python3，虚拟环境已经成为内置模块，可以直接通过如下命令来创建它： $ python3 -m venv venv注：这个命令不一定能够执行成功，比如译者在Ubuntu16.04环境下执行，提示需要先安装对应的依赖。sudo apt-get install python3-venv 使用这个命令来让Python运行ven…...
2024/5/6 13:34:01
《PaddlePaddle从入门到炼丹》3——卷积神经网络
文章目录前言训练模型预测图像参考资料前言上一章我们通过学习线性回归例子入门了深度学习，同时也熟悉了PaddlePaddle的使用方式，那么我们在本章学习更有趣的知识点卷积神经网络。深度学习之所以那么流行，很大程度上是得益于它在计算机视觉上得到非常好的效果，而在深度学…...
2024/5/6 13:33:57
数据量再大也不怕！笔记本电脑也可以分析 100GB 数据
导语：分析大量的数据，你需要了解下免费的开源工具 Vaex许多组织正试图收集和利用尽可能多的数据，以改进其业务运营方式、增加收入或对周围世界产生更大的影响。因此，数据科学家面对 50GB 甚至 500GB 大小的数据集的情况变得越来越普遍。但是现在，这些数据集使用起来并不方…...
2024/5/6 13:33:53
Three.js中文文档地址
考虑到threejs官网的文档有时候打开比较慢，为了方便大家编程使用，我申请了一个国内的阿里云服务器，在我的个人小站上部署了一份Threejs中文文档个人小站文档地址：http://www.yanhuangxueyuan.com/threejs/docs/index.html点赞收藏分享文章举报郭隆邦技术博客发布了138 篇原…...
2024/5/6 13:33:49
np.newaxis
np.newaxis的作用就是在这一位置增加一个一维，这一位置指的是np.newaxis所在的位置，比较抽象，需要配合例子理解。x1 = np.array([1, 2, 3, 4, 5]) # the shape of x1 is (5,) x1_new = x1[:, np.newaxis] # now, the shape of x1_new is (5, 1) # array([[1], # [2],…...
2024/5/6 13:33:45
数据库的表中有数据标题命名带有下划线，在java中应该如何调用。
如果你的数据库中有表中的数据是这样的：并有数据，但是显示出来的是这样的：1.如果你用的ssm框架的话，你应该在mybatis的配置文件中添加： <settings><setting name="useGeneratedKeys" v…...
2024/5/6 13:33:41