text classification with RNN_编程技术网-程序员技术内容聚合平台

（在说正事之前，我要推荐一个福利：你还在原价购买阿里云、腾讯云、华为云服务器吗？那太亏啦！来这里，新购、升级、续费都打折，能够为您省60%的钱呢！2核4G企业级云服务器低至69元/年，点击进去看看吧>>>)

本教程的目的是带领大家学会用 RNN 进行文本分类

本次用到的数据集是 IMDB，一共有 50000 条电影评论，其中 25000 条是训练集，另外 25000 条是测试集

首先我们需要加载数据集，可以通过 TFDS 很简单的把数据集下载过来，如下代码所示

dataset, info = tfds.load('imdb_reviews', with_info=True, as_supervised=True)
train_dataset, test_dataset = dataset['train'], dataset['test']
train_dataset.element_spec

接下来我们需要创建 text encoder，可以通过 tf.keras.layers.experimental.preprocessing.TextVectorization 实现，如下代码所示

VOCAB_SIZE = 1000
encoder = tf.keras.layers.experimental.preprocessing.TextVectorization(
 max_tokens=VOCAB_SIZE
encoder.adapt(train_dataset.map(lambda text, label: text))

接下来我们需要搭建模型，下图是模型结构图

对应的代码如下所示

model = tf.keras.Sequential([
 encoder,
 tf.keras.layers.Embedding(
 input_dim=len(encoder.get_vocabulary()),
 output_dim=64,
 # Use masking to handle the variable sequence lengths
 mask_zero=True),
 tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
 tf.keras.layers.Dense(64, activation='relu'),
 tf.keras.layers.Dense(1)
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
 optimizer=tf.keras.optimizers.Adam(1e-4),
 metrics=['accuracy'])

到这一步，我们就可以开始训练了，以及训练后进行模型评估

history = model.fit(train_dataset, epochs=10,
 validation_data=test_dataset,
 validation_steps=30)
test_loss, test_acc = model.evaluate(test_dataset)
print('Test Loss:', test_loss)
print('Test Accuracy:', test_acc)

上面是训练的结果记录图

代码地址: https://codechina.csdn.net/csdn_codechina/enterprise_technology/-/blob/master/text_classification_rnn.ipynb

本文转自网络，原文链接：https://developer.aliyun.com/article/785750