说明

这是接前面【深度学习】基于Keras的Attention机制代码实现及剖析——Dense+Attention的后续。
参考的代码来源1：Attention mechanism Implementation for Keras.网上大部分代码都源于此，直接使用时注意Keras版本，若版本不对应，在merge处会报错，解决办法为：导入Multiply层并将merge改为Multiply()。
参考的代码来源2：Attention Model（注意力模型）思想初探，这篇也是运行了一下来源1，做对照。
在实验之前需要一些预备知识，如RNN、LSTM的基本结构，和Attention的大致原理，快速获得这方面知识可看RNN&Attention机制&LSTM 入门了解。

实验目的

现实生活中有很多序列问题，对一个序列而言，其每个元素的“重要性”显然是不同的，即权重不同，这样一来就有使用Attention机制的空间，本次实验将在LSTM基础上实现Attention机制的运用。
检验Attention是否真的捕捉到了关键特征，即被Attention分配的关键特征的权重是否更高。

实验设计

问题设计：同Dense+Attention一样，我们也设计成二分类问题，给定特征和标签进行训练。
Attention聚焦测试：将特征的某一列与标签值设置成相同，这样就人为的造了一列关键特征，可视化Attention给每个特征分配的权重，观察关键特征的权重是否更高。
Attention位置测试：在模型不同地方加上Attention会有不同的含义，那么是否每个地方Attention都能捕捉到关键信息呢？我们将变换Attention层的位置，分别放在整个分类模型的输入层(LSTM之前)和输出层(LSTM之后)进行比较。

数据集生成

数据集要为LSTM的输入做准备，而LSTM里面一个重要的参数就是time_steps，指的就是序列长度，而input_dim则指得是序列每一个单元的维度。

def get_data_recurrent(n, time_steps, input_dim, attention_column=10):"""Data generation. x is purely random except that it's first value equals the target y.In practice, the network should learn that the target = x[attention_column].Therefore, most of its attention should be focused on the value addressed by attention_column.:param n: the number of samples to retrieve.:param time_steps: the number of time steps of your series.:param input_dim: the number of dimensions of each element in the series.:param attention_column: the column linked to the target. Everything else is purely random.:return: x: model inputs, y: model targets"""x = np.random.standard_normal(size=(n, time_steps, input_dim)) #标准正态分布随机特征值y = np.random.randint(low=0, high=2, size=(n, 1)) #二分类，随机标签值x[:, attention_column, :] = np.tile(y[:], (1, input_dim)) #将第attention_column个column的值置为标签值return x, y

我们设置input_dim = 2，尝试输出前三个x和y来看看，因为函数参数attention_column=10，所以第10个column的特征和标签值相同。
在这里插入图片描述

模型搭建

Attention层封装

上一章我们谈到Attention的实现可直接由一个激活函数为softmax的Dense层实现，Dense层的输出乘以Dense的输入即完成了Attention权重的分配。在这里的实现看上去比较复杂，但本质上仍是那两步操作，只是为了将问题更为泛化，把维度进行了扩展。

def attention_3d_block(inputs):# inputs.shape = (batch_size, time_steps, input_dim)input_dim = int(inputs.shape[2])a = Permute((2, 1))(inputs)a = Reshape((input_dim, TIME_STEPS))(a) # this line is not useful. It's just to know which dimension is what.a = Dense(TIME_STEPS, activation='softmax')(a)if SINGLE_ATTENTION_VECTOR:a = Lambda(lambda x: K.mean(x, axis=1), name='dim_reduction')(a)a = RepeatVector(input_dim)(a)a_probs = Permute((2, 1), name='attention_vec')(a)output_attention_mul = Multiply()([inputs, a_probs])return output_attention_mul

这里涉及到多个Keras的层，我们一个一个来看看它的功能。

Permute层：索引从1开始，根据给定的模式(dim)置换输入的维度。(2,1)即置换输入的第1和第2个维度，可以理解成转置。
Reshape层：将输出调整为特定形状，INPUT_DIM = 2，TIME_STEPS = 20，就将其调整为了2行，20列。
Lambda层：本函数用以对上一层的输出施以任何Theano/TensorFlow表达式。这里的“表达式”指得就是K.mean，其原型为keras.backend.mean(x, axis=None, keepdims=False)，指张量在某一指定轴的均值。
RepeatVector层：作用为将输入重复n次。

接下来，我们分析下这样设计有什么作用，重点看下SINGLE_ATTENTION_VECTOR分别为True和False时的异同。
先看第一个Permute层，由前面数据集的前三个输出我们知道，输入网络的数据的shape是(time_steps, input_dim)，这是方便输入到LSTM层里的输入格式。无论注意力层放在LSTM的前面还是后面，最终输入到注意力层的数据shape仍为(time_steps, input_dim)，对于注意力结构里的Dense层而言，(input_dim, time_steps)才是符合的，因此要进行维度变换。
再看第一个Reshape层，可以发现其作用为将数据转化为(input_dim, time_steps)。这个操作不是在第一个Permute层就已经完成了吗？没错，实际上这一步操作物理上是无效的，因为格式已经变换好了，但这样做有一个好处，就是可以清楚的知道此时的数据格式，shape的每一个值分别代表什么含义。
接下来是一个Dense层，这个Dense层的激活函数是softmax，显然就是注意力结构里的Dense层，用于计算每个特征的权重。
马上就到SINGLE_ATTENTION_VECTOR值的判断了，现在出现了一个问题，我们的特征在一个时间结点上的维度是多维的(input_dim维)，即有可能是多个特征随时间变换一起发生了变换，那对应的，我们的注意力算出来也是多维的。此时，我们会想：是多维特征共享一个注意力权重，还是每一维特征单独有一个注意力权重呢？ 这就是SINGLE_ATTENTION_VECTOR值的判断的由来了。SINGLE_ATTENTION_VECTOR=True，则共享一个注意力权重，如果=False则每维特征会单独有一个权重，换而言之，注意力权重也变成多维的了。
下面对当SINGLE_ATTENTION_VECTOR=True时，代码进行分析。Lambda层将原本多维的注意力权重取平均，RepeatVector层再按特征维度复制粘贴，那么每一维特征的权重都是一样的了，也就是所说的共享一个注意力。
接下来就是第二个Permute层，到这步就已经是算好的注意力权重了，我们知道Attention的第二个结构就是乘法，因为现在是多维的，也就是矩阵乘法，因此要再次对维度进行变换。
最后一个Multiply层，权重乘以输入，注意力层就此完工。

LSTM之前使用Attention

如题，在LSTM之前使用Attention与上一篇文章Dense+Attention的结构类似，放一张图上来应该会更清晰。
在输入层(LSTM之前)加Attention的结构图：
在这里插入图片描述
由于封装好了Attention，所以结构看起来清晰明了，只需注意此时LSTM参数里return_sequences=False，也就是N对1结构，才符合我们的问题。

def model_attention_applied_before_lstm():K.clear_session() #清除之前的模型，省得压满内存inputs = Input(shape=(TIME_STEPS, INPUT_DIM,))attention_mul = attention_3d_block(inputs)lstm_units = 32attention_mul = LSTM(lstm_units, return_sequences=False)(attention_mul)output = Dense(1, activation='sigmoid')(attention_mul)model = Model(input=[inputs], output=output)return model

LSTM之后使用Attention

注意此时LSTM的结构就不是N对1而是N对N了，因为要用Attention，所以输入到Attention里的特征要是多个才有意义。
在输出层(LSTM之后)加Attention的结构图：
在这里插入图片描述
再看代码,此时除了各层位置发生变换以外，return_sequences也置为了True，输出也是序列，N对N结构。此外还多加了一个Flatten层，中文叫扁平层，作用是将多维的数据平铺成1维，和输出层做连接。

def model_attention_applied_after_lstm():K.clear_session() #清除之前的模型，省得压满内存inputs = Input(shape=(TIME_STEPS, INPUT_DIM,))lstm_units = 32lstm_out = LSTM(lstm_units, return_sequences=True)(inputs)attention_mul = attention_3d_block(lstm_out)attention_mul = Flatten()(attention_mul)output = Dense(1, activation='sigmoid')(attention_mul)model = Model(input=[inputs], output=output)return model

结果展示

注意权重共享+LSTM之前使用注意力

在这里插入图片描述

注意权重共享+LSTM之后使用注意力

在这里插入图片描述

注意权重不共享+LSTM之前使用注意力

在这里插入图片描述

注意权重不共享+LSTM之后使用注意力

在这里插入图片描述

结果总结

四种情况的模型在验证集上分类准确率都达到了100%,同时人工指定的“关键特征”也被准确的捕捉到了，都是最高。值得注意的是在LSTM之后再用注意力时，会导致有一部分注意力被其他特征分散了，这是因为LSTM之后，特征更为抽象了，更难解释了。
至于注意力层权重共不共享，个人觉得还得具体到问题上来，理论上权重不共享，注意力的刻画就更丰富，但同时参数也变多了，模型速度肯定会受影响，怎样取舍看各自问题。

完整代码(1个文件)

import keras.backend as K
from keras.layers import Multiply
from keras.layers.core import *
from keras.layers.recurrent import LSTM
from keras.models import *
import matplotlib.pyplot as plt
import pandas as pd
import numpy as npdef get_data_recurrent(n, time_steps, input_dim, attention_column=10):"""Data generation. x is purely random except that it's first value equals the target y.In practice, the network should learn that the target = x[attention_column].Therefore, most of its attention should be focused on the value addressed by attention_column.:param n: the number of samples to retrieve.:param time_steps: the number of time steps of your series.:param input_dim: the number of dimensions of each element in the series.:param attention_column: the column linked to the target. Everything else is purely random.:return: x: model inputs, y: model targets"""x = np.random.standard_normal(size=(n, time_steps, input_dim)) #标准正态分布随机特征值y = np.random.randint(low=0, high=2, size=(n, 1)) #二分类，随机标签值x[:, attention_column, :] = np.tile(y[:], (1, input_dim)) #将第attention_column个column的值置为标签值return x, ydef get_activations(model, inputs, print_shape_only=False, layer_name=None):# Documentation is available online on Github at the address below.# From: https://github.com/philipperemy/keras-visualize-activations
#    print('----- activations -----')activations = []inp = model.inputif layer_name is None:outputs = [layer.output for layer in model.layers]else:outputs = [layer.output for layer in model.layers if layer.name == layer_name]  # all layer outputsfuncs = [K.function([inp] + [K.learning_phase()], [out]) for out in outputs]  # evaluation functionslayer_outputs = [func([inputs, 1.])[0] for func in funcs]for layer_activations in layer_outputs:activations.append(layer_activations)
#        if print_shape_only:
#            print(layer_activations.shape)
#        else:
#            print(layer_activations)return activationsdef attention_3d_block(inputs):# inputs.shape = (batch_size, time_steps, input_dim)input_dim = int(inputs.shape[2])a = Permute((2, 1))(inputs)a = Reshape((input_dim, TIME_STEPS))(a) # this line is not useful. It's just to know which dimension is what.a = Dense(TIME_STEPS, activation='softmax')(a)if SINGLE_ATTENTION_VECTOR:a = Lambda(lambda x: K.mean(x, axis=1), name='dim_reduction')(a)a = RepeatVector(input_dim)(a)a_probs = Permute((2, 1), name='attention_vec')(a)output_attention_mul = Multiply()([inputs, a_probs])return output_attention_muldef model_attention_applied_after_lstm():K.clear_session() #清除之前的模型，省得压满内存inputs = Input(shape=(TIME_STEPS, INPUT_DIM,))lstm_units = 32lstm_out = LSTM(lstm_units, return_sequences=True)(inputs)attention_mul = attention_3d_block(lstm_out)attention_mul = Flatten()(attention_mul)output = Dense(1, activation='sigmoid')(attention_mul)model = Model(input=[inputs], output=output)return modeldef model_attention_applied_before_lstm():K.clear_session() #清除之前的模型，省得压满内存inputs = Input(shape=(TIME_STEPS, INPUT_DIM,))attention_mul = attention_3d_block(inputs)lstm_units = 32attention_mul = LSTM(lstm_units, return_sequences=False)(attention_mul)output = Dense(1, activation='sigmoid')(attention_mul)model = Model(input=[inputs], output=output)return modelif __name__ == '__main__':np.random.seed(1337)  # for reproducibilityINPUT_DIM = 2TIME_STEPS = 20# if True, the attention vector is shared across the input_dimensions where the attention is applied.SINGLE_ATTENTION_VECTOR = FalseAPPLY_ATTENTION_BEFORE_LSTM = TrueN = 300000# N = 300 -> too few = no traininginputs_1, outputs = get_data_recurrent(N, TIME_STEPS, INPUT_DIM)
#    for i in range(0,3):
#        print(inputs_1[i])
#        print(outputs[i])if APPLY_ATTENTION_BEFORE_LSTM:m = model_attention_applied_before_lstm()else:m = model_attention_applied_after_lstm()m.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])m.summary()m.fit([inputs_1], outputs, epochs=1, batch_size=64, validation_split=0.1)attention_vectors = []for i in range(300):testing_inputs_1, testing_outputs = get_data_recurrent(1, TIME_STEPS, INPUT_DIM)attention_vector = np.mean(get_activations(m,testing_inputs_1,print_shape_only=True,layer_name='attention_vec')[0], axis=2).squeeze()
#        print('attention =', attention_vector)assert (np.sum(attention_vector) - 1.0) < 1e-5attention_vectors.append(attention_vector)attention_vector_final = np.mean(np.array(attention_vectors), axis=0)# plot part.pd.DataFrame(attention_vector_final, columns=['attention (%)']).plot(kind='bar',title='Attention Mechanism as ''a function of input'' dimensions.')plt.show()

点赞
收藏
分享
- 文章举报

lechuan_dafo

发布了14 篇原创文章 · 获赞 0 · 访问量 1374

私信关注

查看全文
如若内容造成侵权/违法违规/事实不符，请联系编程学习网邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

springcloud之eureka入门
eureka应用入门 eureka分为服务端和客户端搭建eureka服务端 ①加依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-netflix-eureka-server</artifactId> </dependency>②写注解在主启动…...
2024/4/23 4:23:31
java面试题2
下列关于栈的描述中错误的是 ( B ) A. 栈是先进后出的线性表 B 栈只能顺序存储 C 栈具有记忆作用 D 对栈的插入弓删除操作中，不需要改变栈底指针对于长度为 n 的线性表，在最坏情况下，下列各排序法所对应的比较次数中正确的是 ( D ) A 冒泡排序为 n/2 B 冒泡排序为 n C 快速…...
2024/4/25 14:24:19
js面向对象第二天
----------------------------常见的面试问题：数组去重，总结几个，下去敲敲--------------------最好要用IIEF。1）双层循环加splice方法2）indexof去重3）includes去重4）利用空对象替换覆盖法5）利用递归法。。。--------------------------------------------------开始今…...
2024/4/21 11:29:52
阿里巴巴架构师：十问业务中台和我的答案
前言一切业务数据化，一切数据业务化。“中台”概念这几年非常火，特别是阿里、腾讯、百度、京东等互联网公司最近频繁的基于中台调整组织架构，把“中台”的热度又上升到另一个高度，甚至有这样的声音， 90 年代不做 ERP 会死，现在不做中台也会定企业生死。中台的概念起源于阿…...
2024/4/23 3:28:59
5大典型场景、4大止痛方案，房企数字化转型指南来了！
2019年4月23日，全国人民代表大会常务委员会对《中华人民共和国电子签名法》进行了修改，允许“涉及土地、房屋等不动产权益转让”适用电子签名，此举将对房地产企业数字化转型产生深远而重大的影响，作为电子签名基础应用的电子合同，以各行业数字化典型举措之一的态势，正式…...
2024/4/24 0:20:44
Pycharm debuge调试如何参数输入+命令行调试器之pdb
今天在GAN代码调试过程中发现一个问题，一直以来运行都在可视化情况下运行调试，今天突然想用命令行调试。由于需要输入文件导入参数。下面记录一下首先在Run->Edit Configurations-->找到下面一行 parameters；里面输入你需要运行的命令注意：这里我运行的是一个kdd99.…...
2024/3/29 19:02:55
Apache Flink CEP 实战
本文根据Apache Flink 实战&进阶篇系列直播课程整理而成，由哈啰出行大数据实时平台资深开发刘博分享。通过一些简单的实际例子，从概念原理，到如何使用，再到功能的扩展，希望能够给打算使用或者已经使用的同学一些帮助。主要的内容分为如下三个部分：Flink CEP概念以及使…...
2024/4/23 13:30:02
python与恺撒密码的实现
恺撒密码是古罗马恺撒大帝用来对军事情报进行加解密的算法，它采用了替换方法对信息中的每一个英文字符循环替换为字母表序列中该字符后面的第三个字符，即，字母表的对应关系如下：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬…...
2024/4/23 5:15:24
UI设计师必备配色小技巧
合理的使用色彩是每个UI设计师必备的技能之一，而随着扁平化设计的日益普及，色彩理论知识的重要性也变得愈加明显!很多初学UI的小伙伴表示配色很难，接下来给大家讲解几个配色小技巧。1、整体色调协调统一界面设计应该先确定主色调，主色将会占据页面中很大的面积，其他的辅助…...
2024/3/29 11:25:52
Uber AI简单方法实现大规模语言模型的精细控制
导语：就像让小老鼠控制一只猛犸象雷锋网 AI 科技评论按：OpenAI 的 GPT-2 曾经掀起的「大规模语言模型到底水平多高、到底有没有危害」的口水仗慢慢冷下去了，而语言模型的实用性问题也越来越展现出来：如果很难控制一个语言模型的输出，那可能就很难找到它的实际应用，只能沦…...
2024/4/18 23:39:04
【VOLTE案例分析】Server Internal Error 500导致的未接通
【问题描述】在集团测试LOG中，存在Server Internal Error 导致的失败事件，表现为呼叫过程中，终端主动收到网络侧下发的Server Internal Error 500消息，随后呼叫中止，出现未接通事件。【问题分析】 1. 主叫发出UPDATE后，被叫收到UPDATE并回复UPDATE 200，随后被叫发送Rin…...
2024/4/24 23:37:20
三步教会你实操MySQL，数据分析必备技能
MySQL⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇为啥子学习MySQL？三大理由征服你！其一：数据量一旦过大，Excel它不卡吗？！其二：面试要求明确写了必须会SQL，敢不听？！其三：Excel总感觉不太高大上？用MySQL就…...
2024/4/25 8:58:14
百度贴吧签到（基于python3）
#!/usr/bin/python3 # -*- coding: UTF-8 -*- # 需要修改kw_list值跟cookie值【登陆百度F12获取】import json import requests from urllib import parsekw_list=["青岛北站","鲁南高铁","非全日制研","学士学位","曲阜师范大学…...
2024/4/23 20:04:44
TSM策略集
tsm: TSM> activate policyset s85domain standard使用上面的命令来激活策略集时候，会生成一个名为active的策略集,与original的策略集有着相同的管理类和拷贝组，Protect: TSM01>q copygroup Policy Policy Mgmt Copy Version- …...
2024/4/17 23:29:57
架构学习笔记
架构设计的主要目的是为了解决软件系统复杂度带来的问题当我们对这样一个系统进行架构设计的时候，首先应识别其复杂度到底体现在哪里。复杂度来源：高性能单机性能，集群性能高可用计算(轮询，分发)的高可用，存储的高可用高扩展提炼出一个“抽象层”和一个“实现层”，…...
2024/3/29 11:25:46
keepalived使用说明
作者：HelloDog原文地址：LVS+Keepalived 使用指北, 感谢原作者分享。由于原文地址已经不可访问，所以在此进行备份。LVS+Keepalived 使用指南HelloDog 2018-08-07 65 阅读keepalived LVS前言负载均衡技术是构建大型网站必不可少的架构策略之一。它的目的是把用户的请求分发到多…...
2024/4/21 23:56:54
Effective Use of Word Order for Text Categorization with Convolutional Neural Networks
卷积神经网络有效地利用词序进行文本分类(2015年)code:https://github.com/tensorflow/models/tree/master/research/sentiment_analysis(但是这份代码只是简单实现了parallel CNN，并没有实现seqCNN和bowCNN，聊胜于无）摘要卷积神经网络（CNN）是可以利用数据的内部结构（例如…...
2024/4/19 8:35:05
程序员，别再迷恋多线程工作了
我刚刚尝试了一下，一边用 iPad 看“Java 极客技术”自制的 SpringBoot 视频（1.2X 倍速），一边在 iMac 上回复博客上读者的留言。过了一会，视频上讲了什么，我完全没有印象了；而回复的内容也写得乱七八糟。很长一段时间内，我都在欺骗我自己：一边写博客，一边听音乐，自认…...
2024/4/19 3:57:36
Dubbo框架，SOA思想,Zookeeper安装
SOA思想 SOA介绍面向服务的架构（SOA）是一个组件模型，它将应用程序的不同功能单元（称为服务）进行拆分，并通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的，它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种各样的系…...
2024/4/23 4:19:01
JTAG各类接口针脚定义及含义
JTAG有10pin的、14pin的和20pin的，尽管引脚数和引脚的排列顺序不同，但是其中有一些引脚是一样的，各个引脚的定义如下。一、引脚定义 Test Clock Input (TCK) -----强制要求1 TCK在IEEE1149.1标准里是强制要求的。TCK为TAP的操作提供了一个独立的、基本的时钟信号，TAP的所有…...
2024/4/23 4:22:29

【深度学习】基于Keras的Attention机制代码实现及剖析——LSTM+Attention

说明

实验目的

实验设计

数据集生成

模型搭建

Attention层封装

LSTM之前使用Attention

LSTM之后使用Attention

结果展示

注意权重共享+LSTM之前使用注意力

注意权重共享+LSTM之后使用注意力

注意权重不共享+LSTM之前使用注意力

注意权重不共享+LSTM之后使用注意力

结果总结

完整代码(1个文件)

相关文章

最新文章

【深度学习】 基于Keras的Attention机制代码实现及剖析——LSTM+Attention

说明

实验目的

实验设计

数据集生成

模型搭建

Attention层封装

LSTM之前使用Attention

LSTM之后使用Attention

结果展示

注意权重共享+LSTM之前使用注意力

注意权重共享+LSTM之后使用注意力

注意权重不共享+LSTM之前使用注意力

注意权重不共享+LSTM之后使用注意力

结果总结

完整代码(1个文件)

相关文章

最新文章

【深度学习】基于Keras的Attention机制代码实现及剖析——LSTM+Attention