基于深度学习的文本分类 2
学习目标
文本表示方法 Part3
词向量
1. Skip-grams原理和网络结构
2. Skip-grams训练
2.1 Word pairs and “phases”
2.2 对高频词抽样
2.3 Negative sampling
3. Hierarchical Softmax
3.1 霍夫曼树
3.2 Hierarchical Softmax过程
使用 gensim 训练 word2vec
TextCNN
TextRNN
基于TextCNN、TextRNN的文本表示
TextCNN
TextRNN
使用HAN用于文本分类
作业
结语

学习目标

学习Word2Vec的使用和基础原理
学习使用TextCNN、TextRNN进行文本表示
学习使用HAN网络结构完成文本分类

文本表示方法 Part3

本篇将继续学习基于深度学习的文本分类。

词向量

本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（online learning）。

word2vec的主要思路：通过单词和上下文彼此预测，对应的两个算法分别为：

Skip-grams (SG)：预测上下文
Continuous Bag of Words (CBOW)：预测目标单词

另外提出两种更加高效的训练方法：

Hierarchical softmax
Negative sampling

1. Skip-grams原理和网络结构

Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文，来预测input word。

Word2Vec模型实际上分为了两个部分，第一部分为建立模型，第二部分是通过模型获取嵌入词向量。

Word2Vec的整个建模过程实际上与自编码器（auto-encoder）的思想很相似，即先基于训练数据构建一个神经网络，当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。

Skip-grams过程，假如我们有一个句子“The dog barked at the mailman”。

首先我们选句子中间的一个词作为我们的输入词，例如我们选取“dog”作为input word；
有了input word以后，我们再定义一个叫做skip_window的参数，它代表着我们从当前input word的一侧（左边或右边）选取词的数量。如果我们设置skip_window=2，那么我们最终获得窗口中的词（包括input word在内）就是[‘The’, ‘dog’，‘barked’, ‘at’]。skip_window=2代表着选取左input word左侧2个词和右侧2个词进入我们的窗口，所以整个窗口大小span=2x2=4。另一个参数叫num_skips，它代表着我们从整个窗口中选取多少个不同的词作为我们的output word，当skip_window=2，num_skips=2时，我们将会得到两组 (input word, output word) 形式的训练数据，即 (‘dog’, ‘barked’)，(‘dog’, ‘the’)。
神经网络基于这些训练数据将会输出一个概率分布，这个概率代表着我们的词典中的每个词作为input word的output word的可能性。这句话有点绕，我们来看个例子。第二步中我们在设置skip_window和num_skips=2的情况下获得了两组训练数据。假如我们先拿一组数据 (‘dog’, ‘barked’) 来训练神经网络，那么模型通过学习这个训练样本，会告诉我们词汇表中每个单词当’dog’作为input word时，其作为output word的可能性。

也就是说模型的输出概率代表着到我们词典中每个词有多大可能性跟input word同时出现。例如：如果我们向神经网络模型中输入一个单词“Soviet“，那么最终模型的输出概率中，像“Union”， ”Russia“这种相关词的概率将远高于像”watermelon“，”kangaroo“非相关词的概率。因为”Union“，”Russia“在文本中更大可能在”Soviet“的窗口中出现。

我们将通过给神经网络输入文本中成对的单词来训练它完成上面所说的概率计算。下面的图中给出了一些我们训练样本的例子。我们选定句子“The quick brown fox jumps over lazy dog”，设定我们的窗口大小为2（window_size=2），也就是说我们仅选输入词前后各两个词和输入词进行组合。下图中，蓝色代表input word，方框内代表位于窗口内的单词。

我们的模型将会从每对单词出现的次数中习得统计结果。例如，我们的神经网络可能会得到更多类似（“Soviet“，”Union“）这样的训练样本对，而对于（”Soviet“，”Sasquatch“）这样的组合却看到的很少。因此，当我们的模型完成训练后，给定一个单词”Soviet“作为输入，输出的结果中”Union“或者”Russia“要比”Sasquatch“被赋予更高的概率。

PS：input word和output word都会被我们进行one-hot编码。仔细想一下，我们的输入被one-hot编码以后大多数维度上都是0（实际上仅有一个位置为1），所以这个向量相当稀疏，那么会造成什么结果呢。如果我们将一个1 x 10000的向量和10000 x 300的矩阵相乘，它会消耗相当大的计算资源，为了高效计算，它仅仅会选择矩阵中对应的向量中维度值为1的索引行：

2. Skip-grams训练

由上部分可知，Word2Vec模型是一个超级大的神经网络（权重矩阵规模非常大）。例如：我们拥有10000个单词的词汇表，我们如果想嵌入300维的词向量，那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都会有 10000 x 300 = 300万个权重，在如此庞大的神经网络中进行梯度下降是相当慢的。更糟糕的是，你需要大量的训练数据来调整这些权重并且避免过拟合。百万数量级的权重矩阵和亿万数量级的训练样本意味着训练这个模型将会是个灾难

解决方案：

将常见的单词组合（word pairs）或者词组作为单个“words”来处理
对高频次单词进行抽样来减少训练样本的个数

对优化目标采用“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担

2.1 Word pairs and “phases”

一些单词组合（或者词组）的含义和拆开以后具有完全不同的意义。比如“Boston Globe”是一种报刊的名字，而单独的“Boston”和“Globe”这样单个的单词却表达不出这样的含义。因此，在文章中只要出现“Boston Globe”，我们就应该把它作为一个单独的词来生成其词向量，而不是将其拆开。同样的例子还有“New York”，“United Stated”等。

在Google发布的模型中，它本身的训练样本中有来自Google News数据集中的1000亿的单词，但是除了单个单词以外，单词组合（或词组）又有3百万之多。

2.2 对高频词抽样

在上一部分中，对于原始文本为“The quick brown fox jumps over the laze dog”，如果使用大小为2的窗口，那么我们可以得到图中展示的那些训练样本。

但是对于“the”这种常用高频单词，这样的处理方式会存在下面两个问题：

当我们得到成对的单词训练样本时，(“fox”, “the”) 这样的训练样本并不会给我们提供关于“fox”更多的语义信息，因为“the”在每个单词的上下文中几乎都会出现
由于在文本中“the”这样的常用词出现概率很大，因此我们将会有大量的（”the“，…）这样的训练样本，而这些样本数量远远超过了我们学习“the”这个词向量所需的训练样本数

Word2Vec通过“抽样”模式来解决这种高频词问题。它的基本思想如下：对于我们在训练原始文本中遇到的每一个单词，它们都有一定概率被我们从文本中删掉，而这个被删除的概率与单词的频率有关。

ωi 是一个单词，Z(ωi) 是 ωi 这个单词在所有语料中出现的频次，例如：如果单词“peanut”在10亿规模大小的语料中出现了1000次，那么 Z(peanut) = 1000/1000000000 = 1e - 6。

P(ωi) 代表着保留某个单词的概率：

2.3 Negative sampling

训练一个神经网络意味着要输入训练样本并且不断调整神经元的权重，从而不断提高对目标的准确预测。每当神经网络经过一个训练样本的训练，它的权重就会进行一次调整。

所以，词典的大小决定了我们的Skip-Gram神经网络将会拥有大规模的权重矩阵，所有的这些权重需要通过数以亿计的训练样本来进行调整，这是非常消耗计算资源的，并且实际中训练起来会非常慢。

负采样（negative sampling）解决了这个问题，它是用来提高训练速度并且改善所得到词向量的质量的一种方法。不同于原本每个训练样本更新所有的权重，负采样每次让一个训练样本仅仅更新一小部分的权重，这样就会降低梯度下降过程中的计算量。

当我们用训练样本 ( input word: “fox”，output word: “quick”) 来训练我们的神经网络时，“ fox”和“quick”都是经过one-hot编码的。如果我们的词典大小为10000时，在输出层，我们期望对应“quick”单词的那个神经元结点输出1，其余9999个都应该输出0。在这里，这9999个我们期望输出为0的神经元结点所对应的单词我们称为“negative” word。

当使用负采样时，我们将随机选择一小部分的negative words（比如选5个negative words）来更新对应的权重。我们也会对我们的“positive” word进行权重更新（在我们上面的例子中，这个单词指的是”quick“）。

PS: 在论文中，作者指出指出对于小规模数据集，选择5-20个negative words会比较好，对于大规模数据集可以仅选择2-5个negative words。

我们使用“一元模型分布（unigram distribution）”来选择“negative words”。个单词被选作negative sample的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words。

每个单词被选为“negative words”的概率计算公式：

其中 f(ωi)代表着单词出现的频次，而公式中开3/4的根号完全是基于经验的。

在代码负采样的代码实现中，unigram table有一个包含了一亿个元素的数组，这个数组是由词汇表中每个单词的索引号填充的，并且这个数组中有重复，也就是说有些单词会出现多次。那么每个单词的索引在这个数组中出现的次数该如何决定呢，有公式，也就是说计算出的负采样概率*1亿=单词在表中出现的次数。

有了这张表以后，每次去我们进行负采样时，只需要在0-1亿范围内生成一个随机数，然后选择表中索引号为这个随机数的那个单词作为我们的negative word即可。一个单词的负采样概率越大，那么它在这个表中出现的次数就越多，它被选中的概率就越大。

3. Hierarchical Softmax

3.1 霍夫曼树

输入：权值为(w1,w2,…wn)的n个节点

输出：对应的霍夫曼树

将(w1,w2,…wn)看做是有n棵树的森林，每个树仅有一个节点
在森林中选择根节点权值最小的两棵树进行合并，得到一个新的树，这两颗树分布作为新树的左右子树。新树的根节点权重为左右子树的根节点权重之和
将之前的根节点权值最小的两棵树从森林删除，并把新树加入森林
重复步骤 2 和 3 直到森林里只有一棵树为止

下面我们用一个具体的例子来说明霍夫曼树建立的过程，我们有(a，b，c，d，e，f)共6个节点，节点的权值分布是(16，4，8，6，20，3)。

首先是最小的b和f合并，得到的新树根节点权重是7.此时森林里5棵树，根节点权重分别是16，8，6，20，7。此时根节点权重最小的6，7合并，得到新子树，依次类推，最终得到下面的霍夫曼树。

那么霍夫曼树有什么好处呢？一般得到霍夫曼树后我们会对叶子节点进行霍夫曼编码，由于权重高的叶子节点越靠近根节点，而权重低的叶子节点会远离根节点，这样我们的高权重节点编码值较短，而低权重值编码值较长。这保证的树的带权路径最短，也符合我们的信息论，即我们希望越常用的词拥有更短的编码。如何编码呢？一般对于一个霍夫曼树的节点（根节点除外），可以约定左子树编码为0，右子树编码为1。如上图，则可以得到c的编码是00。

在word2vec中，约定编码方式和上面的例子相反，即约定左子树编码为1，右子树编码为0，同时约定左子树的权重不小于右子树的权重。

更多原理可参考：霍夫曼树原理。

3.2 Hierarchical Softmax过程

为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。

霍夫曼树的建立：

根据标签（label）和频率建立霍夫曼树（label出现的频率越高，Huffman树的路径越短）
Huffman树中每一叶子结点代表一个label

如上图所示：

注意：此时的theta是一个待定系数，它是由推导最大似然之后求解得到迭代式子。

使用 gensim 训练 word2vec

from gensim.models.word2vec import Word2Vec
model = Word2Vec(sentences, workers=num_workers, size=num_features)

参考：

CS224n笔记2 词的向量表示：word2vec
斯坦福大学深度学习与自然语言处理第二讲：词向量
(Stanford CS224d) Deep Learning and NLP课程笔记（三）：GloVe与模型的评估
http://www.cnblogs.com/pinard/p/7249903.html
https://blog.csdn.net/yinkun6514/article/details/79218736
https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html

TextCNN

TextCNN利用CNN（卷积神经网络）进行文本特征抽取，不同大小的卷积核分别抽取n-gram特征，卷积计算出的特征图经过MaxPooling保留最大的特征值，然后将拼接成一个向量作为文本的表示。

这里我们基于TextCNN原始论文的设定，分别采用了100个大小为2,3,4的卷积核，最后得到的文本向量大小为100*3=300维。

TextRNN

TextRNN利用RNN（循环神经网络）进行文本特征抽取，由于文本本身是一种序列，而LSTM天然适合建模序列数据。TextRNN将句子中每个词的词向量依次输入到双向双层LSTM，分别将两个方向最后一个有效位置的隐藏层拼接成一个向量作为文本的表示。

基于TextCNN、TextRNN的文本表示

TextCNN

模型搭建

self.filter_sizes = [2, 3, 4]  # n-gram window
self.out_channel = 100
self.convs = nn.ModuleList([nn.Conv2d(1, self.out_channel, (filter_size, input_size), bias=True) for filter_size in self.filter_sizes])

前向传播

pooled_outputs = []
for i in range(len(self.filter_sizes)):filter_height = sent_len - self.filter_sizes[i] + 1conv = self.convs[i](batch_embed)hidden = F.relu(conv)  # sen_num x out_channel x filter_height x 1mp = nn.MaxPool2d((filter_height, 1))  # (filter_height, filter_width)# sen_num x out_channel x 1 x 1 -> sen_num x out_channelpooled = mp(hidden).reshape(sen_num, self.out_channel)pooled_outputs.append(pooled)

TextRNN

模型搭建

input_size = config.word_dimsself.word_lstm = LSTM(input_size=input_size,hidden_size=config.word_hidden_size,num_layers=config.word_num_layers,batch_first=True,bidirectional=True,dropout_in=config.dropout_input,dropout_out=config.dropout_hidden,
)

前向传播

hiddens, _ = self.word_lstm(batch_embed, batch_masks)  # sent_len x sen_num x hidden*2
hiddens.transpose_(1, 0)  # sen_num x sent_len x hidden*2if self.training:hiddens = drop_sequence_sharedmask(hiddens, self.dropout_mlp)

使用HAN用于文本分类

Hierarchical Attention Network for Document Classification(HAN) 基于层级注意力，在单词和句子级别分别编码并基于注意力获得文档的表示，然后经过Softmax进行分类。其中word encoder的作用是获得句子的表示，可以替换为上节提到的TextCNN和TextRNN，也可以替换为下节中的BERT。

作业

尝试通过Word2Vec训练词向量
尝试使用TextCNN、TextRNN完成文本表示
尝试使用HAN进行文本分类

import logging
import randomimport numpy as np
import torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')# set seed
seed = 666
random.seed(seed)
np.random.seed(seed)
torch.cuda.manual_seed(seed)
torch.manual_seed(seed)
# split data to 10 fold
fold_num = 10
data_file = '../data/train_set.csv'
import pandas as pddef all_data2fold(fold_num, num=10000):fold_data = []f = pd.read_csv(data_file, sep='\t', encoding='UTF-8')texts = f['text'].tolist()[:num]labels = f['label'].tolist()[:num]total = len(labels)index = list(range(total))np.random.shuffle(index)all_texts = []all_labels = []for i in index:all_texts.append(texts[i])all_labels.append(labels[i])label2id = {}for i in range(total):label = str(all_labels[i])if label not in label2id:label2id[label] = [i]else:label2id[label].append(i)all_index = [[] for _ in range(fold_num)]for label, data in label2id.items():# print(label, len(data))batch_size = int(len(data) / fold_num)other = len(data) - batch_size * fold_numfor i in range(fold_num):cur_batch_size = batch_size + 1 if i < other else batch_size# print(cur_batch_size)batch_data = [data[i * batch_size + b] for b in range(cur_batch_size)]all_index[i].extend(batch_data)batch_size = int(total / fold_num)other_texts = []other_labels = []other_num = 0start = 0for fold in range(fold_num):num = len(all_index[fold])texts = [all_texts[i] for i in all_index[fold]]labels = [all_labels[i] for i in all_index[fold]]if num > batch_size:fold_texts = texts[:batch_size]other_texts.extend(texts[batch_size:])fold_labels = labels[:batch_size]other_labels.extend(labels[batch_size:])other_num += num - batch_sizeelif num < batch_size:end = start + batch_size - numfold_texts = texts + other_texts[start: end]fold_labels = labels + other_labels[start: end]start = endelse:fold_texts = textsfold_labels = labelsassert batch_size == len(fold_labels)# shuffleindex = list(range(batch_size))np.random.shuffle(index)shuffle_fold_texts = []shuffle_fold_labels = []for i in index:shuffle_fold_texts.append(fold_texts[i])shuffle_fold_labels.append(fold_labels[i])data = {'label': shuffle_fold_labels, 'text': shuffle_fold_texts}fold_data.append(data)logging.info("Fold lens %s", str([len(data['label']) for data in fold_data]))return fold_datafold_data = all_data2fold(10)
# build train data for word2vec
fold_id = 9train_texts = []
for i in range(0, fold_id):data = fold_data[i]train_texts.extend(data['text'])logging.info('Total %d docs.' % len(train_texts))
logging.info('Start training...')
from gensim.models.word2vec import Word2Vecnum_features = 100     # Word vector dimensionality
num_workers = 8       # Number of threads to run in paralleltrain_texts = list(map(lambda x: list(x.split()), train_texts))
model = Word2Vec(train_texts, workers=num_workers, size=num_features)
model.init_sims(replace=True)# save model
model.save("./word2vec.bin")
# load model
model = Word2Vec.load("./word2vec.bin")# convert format
model.wv.save_word2vec_format('./word2vec.txt', binary=False)

结语

介绍了Word2Vec的使用，以及TextCNN、TextRNN的原理和训练，最后介绍了用于长文档分类的HAN。

查看全文
如若内容造成侵权/违法违规/事实不符，请联系编程学习网邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

virtualbox安装.img文件
之后运行虚拟机即可...
2024/5/7 15:51:34
JS中对象的keys, values，entries函数
1、 Object.keys() ES5 引入了Object.keys方法，返回一个数组，成员是参数对象自身的（不含继承的）所有可遍历属性的键名。 const obj = { a: "aaa", b: 1}; Object.keys(obj) // ["a", "b"]2 、Object.values() Object.values方法返回一个数组…...
2024/4/29 7:53:54
html布局标签
Document...
2024/4/27 19:06:21
ActiveMQ简单介绍
消息通信的规范JMS，我们这篇博文介绍一款开源的JMS具体实现——ActiveMQ。ActiveMQ是一个易于使用的消息中间件。消息中间件我们简单的介绍一下消息中间件，对它有一个基本认识就好，消息中间件（MOM：Message Orient middleware）。消息中间件有很多的用途和优点：将数据从…...
2024/5/6 9:36:54
LC110-平衡二叉树
题目本题中一棵高度平衡二叉树定义为：一个二叉树每个节点的左右两个子树的高度差的绝对值不超过1。给定二叉树 [3,9,20,null,null,15,7]3/ \9 20/ \15 7返回 true 解题：平衡二叉树满足两个条件它的左右子树皆平衡左右子树的高度差不过超过1代码未优化 class Soluti…...
2024/5/5 8:30:55
杰里之TWS的如何设置只能这两个耳机配对篇
杰里之TWS的如何设置只能这两个耳机配对篇》。。。。。。。。。。。。...
2024/4/28 10:10:49
html modo1
b\s架构实体 &开头；结尾标签语义化标签 hgroup标题组标题标签行内元素（inline element）：不会独占一行的；em标签语调加重 strong强调内容块元素（block element）：独占一行的 blockquote：表示一个长引用独占 q：表示一个短引用不独占 br：表示页面中的…...
2024/5/5 8:22:44
CTFHub_技能树_Web之RCE——“过滤空格”
文章目录使用工具解题过程完–>CTFHub传送门<–使用工具Microsoft Edge v84.0.522.40解题过程查看网页显示的源码，和之前的一样，只是过滤了空格空格的表示方法 cat<file cat<>file cat${IFS}file 先查询后打开注意：FLAG藏在注释里，不是明文表示完欢迎在评…...
2024/5/8 2:24:22
在以太坊P2P网络中寻找Dapp服务节点
Dapp服务节点即开启了RPC的以太坊节点，对于钱包来说，只需要能把用户签名的交易发送出来，自己搭建节点和使用别人的节点发送数据是一样的，目前不管是快速同步还是轻节点都需要好长时间才可以达到可用的要求，为此很有必要通过P2P网络查找可用的RPC节点。此文主要介绍如何从分…...
2024/5/7 19:00:54
26-1 webAPI 获取页面中的标签
1.什么webAPI?API:就是一些方法或者属性的统称.总结:用来操作网页的方法或者属性--->操作对象特点:记各种操作网页的方法和属性2.DOM 2.1.DOM就是来操作网页的,网页有事由标签组成的,DOM最后就是在操作网页中的标签console.log将对象,变量以字符串的形式输出到控制台 conso…...
2024/4/15 15:41:14
Day6和Day7
Day6 元组（1）元组和列表类似，也可以包含多种形式的元素，但是元组创建之后不能对其进行修改。（2）创建元组元组使用小括号，也可以什么都不用，但是中间必须用逗号隔开。如果元组只包含一个元素，在元素的后边必须用逗号做标记，否则括号会被认为是运算符使用。（3）更…...
2024/5/4 23:11:21
分享：哈氏合金C22与化工配套
2.0mm厚度的哈氏合金C22，某化工用户为了项目配套，找遍了国内供应商。用3mm吧，是可以，但成本增加一大截。不用吧，现货是难题。一周多的时间，眼看要放弃找寻变更厚度了，阿斯米合金销售人员打进的陌生电话让他们觉得不可思议。Amazing！真的有现货？真的有！产地哪里的？…...
2024/4/19 21:05:22
html--div布局
div默认排列横向排列,通过css属性1 float 浮动float:left ,float:right，没有center居中2 display:inline-block 行块标签#div1, #div2,#div3 { display:inline-block}3 flex 弹性盒模型flex-start左对齐,默认，flex-end右对齐，center集中居中，space-around分散居中，space-b…...
2024/4/15 16:08:28
一起Talk Android吧（第二百六十六回：Android中的ViewPager二）
各位看官们大家好，上一回中咱们说的是Android中ViewPager的例子,这一回中咱们继续说该例子。闲话休提，言归正转。让我们一起Talk Android吧！看官们，我们在上一章回中详细介绍了如何使用ViewPager控件，不过有些细节可能大家不理解，或者理解的不够深入，本章回中对代码中的…...
2024/4/23 21:13:56
vmware-vmx.exe VMware Workstation VMX 进程杀不掉
昨天升级了windows到1909版本（本来一直都不想更新的，昨天需要安装一个软件，必须升级才能安装。）没想到今天vmware就出问题了，之前能打开的虚拟机现在打开黑屏无法加载，退出虚拟机发现有一个VMX进程始终在运行，cpu占用还很高，kill不掉。。具体原因不明，但因为版本升级…...
2024/4/15 16:08:26
2020-07-28-----HTML基础
HTML基础网站建站的流程注册域名租用空间（购买服务器）产品经理 UI 前端后端测试推广维护一、web标准结构 — 结构 HTML 表现 — 表现 css 行为 — 行为 jsW3C 万维网联盟制定了结构，HTML标准和css标准 ECMA 欧洲产商联盟制定了行为，js标准 WHATWG 苹果二、…...
2024/5/6 14:34:50
计算机网络协议专栏介绍以及综述
计算机科学与技术专业一门重要的课程就是计算机网络，其内容是对于网络通信协议的描述。计算机网络协议方面的知识是ICT等从业人员必备的技能之一。同时这方面的内容也是各个面试过程中必然会被问及的一个方面，因此对于程序员以及相关的从业人员来说理解，掌握并记忆这方面的内…...
2024/5/7 8:27:08
从硬件到软件-第一个汇编器的实现原理
从硬件到软件-第一个汇编器的实现原理问题回答一、加载程序到硬件二、程序的编写与汇编器三、汇编器功能的扩展四、操作系统在前面学习汇编语言的时候，对硬件和软件之间缺失的一环吐了下槽,后来在课程的问答论坛上提问，得到了比较满意的回答，虽然还不是很详细，但大体可以体…...
2024/4/15 16:08:23
业务安全漏洞挖掘归纳
业务安全漏洞挖掘归纳总结原文链接：https://www.secpulse.com/archives/34540.html#comment-4751 0x00 索引说明6.30在OWASP的分享，关于业务安全的漏洞检测模型。进一步的延伸科普。0x01 身份认证安全1 暴力破解在没有验证码限制或者一次验证码可以多次使用的地方，使用已知…...
2024/4/15 16:08:22
k8s安装
返回目录 k8s安装 1.设置系统参数，到5之前，每个k8s服务器都要执行（我这里共4个，200~203） cat < /etc/sysctl.d/k8s.conf net.bridge.bridge-nf-call-ip6tables = 1 net.bridge.bridge-nf-call-iptables = 1 EOF sysctl --system 2.配置yum源 cat < /etc/yum.repos.…...
2024/5/6 9:21:27

NLP以赛代练 Task5：基于深度学习的文本分类 2

基于深度学习的文本分类 2

学习目标

文本表示方法 Part3

词向量

1. Skip-grams原理和网络结构

2. Skip-grams训练

2.1 Word pairs and “phases”

2.2 对高频词抽样

2.3 Negative sampling

3. Hierarchical Softmax

3.1 霍夫曼树

3.2 Hierarchical Softmax过程

使用 gensim 训练 word2vec

TextCNN

TextRNN

基于TextCNN、TextRNN的文本表示

TextCNN

TextRNN

使用HAN用于文本分类

作业

结语

相关文章

最新文章