深度学习——如何用LSTM进行文本分类

zhangjie2026 发表于 2022-10-21 09:58:37

简介主要内容包括
如何将文本处理为Tensorflow LSTM的输入如何定义LSTM用训练好的LSTM进行文本分类
代码导入相关库#coding=utf-8import tensorflow as tffrom tensorflow.contrib import learnimport numpy as npfrom tensorflow.python.ops.rnn import static_rnnfrom tensorflow.python.ops.rnn_cell_impl import BasicLSTMCell数据
# 数据positive_texts = ["我今天很高兴","我很开心","他很高兴","他很开心"]negative_texts = ["我不高兴","我不开心","他今天不高兴","他不开心"]label_name_dict = {0: "正面情感",1: "负面情感"}配置信息
配置信息embedding_size = 50num_classes = 2将文本和label数值化# 将文本和label数值化all_texts = positive_texts + negative_textslabels = * len(positive_texts) + * len(negative_texts)max_document_length = 4vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)datas = np.array(list(vocab_processor.fit_transform(all_texts)))vocab_size = len(vocab_processor.vocabulary_)定义placeholder(容器)，存放输入输出# 容器，存放输入输出datas_placeholder = tf.placeholder(tf.int32, )labels_placeholder = tf.placeholder(tf.int32, )
词向量处理# 词向量表embeddings = tf.get_variable("embeddings", , initializer=tf.truncated_normal_initializer)# 将词索引号转换为词向量 => embedded = tf.nn.embedding_lookup(embeddings, datas_placeholder)将数据处理为LSTM的输入格式# 转换为LSTM的输入格式，要求是数组，数组的每个元素代表某个时间戳一个Batch的数据rnn_input = tf.unstack(embedded, max_document_length, axis=1)
定义LSTM# 定义LSTMlstm_cell = BasicLSTMCell(20, forget_bias=1.0)rnn_outputs, rnn_states = static_rnn(lstm_cell, rnn_input, dtype=tf.float32)#利用LSTM最后的输出进行预测logits = tf.layers.dense(rnn_outputs[-1], num_classes)predicted_labels = tf.argmax(logits, axis=1)定义损失和优化器# 定义损失和优化器losses= tf.nn.softmax_cross_entropy_with_logits(labels=tf.one_hot(labels_placeholder, num_classes),logits=logits)mean_loss = tf.reduce_mean(losses)optimizer = tf.train.AdamOptimizer(learning_rate=1e-2).minimize(mean_loss)执行with tf.Session() as sess:# 初始化变量sess.run(tf.global_variables_initializer())训练# 定义要填充的数据feed_dict = {datas_placeholder: datas,labels_placeholder: labels}print("开始训练")for step in range(100):_, mean_loss_val = sess.run(, feed_dict=feed_dict)if step % 10 == 0:print("step = {}\tmean loss = {}".format(step, mean_loss_val))预测print("训练结束，进行预测")predicted_labels_val = sess.run(predicted_labels, feed_dict=feed_dict)for i, text in enumerate(all_texts):label = predicted_labels_vallabel_name = label_name_dictprint("{} => {}".format(text, label_name))
分享安排：目标：1.掌握大数据建模分析与使用方法。2.掌握大数据平台技术架构。3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用，以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。7.掌握常见的机器学习算法。
具体内容：一、大数据概述：1.大数据及特点分析；2.大数据关健技术；3.大数据计算模式；4.大数据应用实例二、大数据处理架构Hadoop：1.Hadoop项目结构；2.Hadoop安装与使用；3.Hadoop集群的部署与使用；4.Hadoop 代表性组件三、分布式文件系统HDFS ：1.HDFS体系结构；2.HDFS存储；3.HDFS数据读写过程四、分布式数据库HBase ：1.HBase访问接口；2.HBase数据类型；3.HBase实现原理；4.HBase运行机制；5.HBase应用五、MapReduce ：1.MapReduce体系结构；2.MapReduce工作流程；3.资源管理调度框架YARN ；4.MapReduce应用六、Spark ：1.Spark生态与运行架构；2.Spark SQL；3.Spark部署与应用方式七、IPython Notebook运行Python Spark程序：1.Anaconda；2.IPython Notebook使用Spark；3.使用IPython Notebook在Hadoop YARN模式运行八、Python Spark集成开发环境：1.Python Spark集成开发环境部署配置；2.Spark数据分析库MLlib的开发部署九、Python Spark决策树二分类与多分类：1.决策树原理；2.大数据问题；3.决策树二分类；4.决策树多分类十、Python Spark支持向量机：1.支持向量机SVM 原理与算法；2.Python Spark SVM程序设计十一、Python Spark 贝叶斯模型：1.朴素贝叶斯模型原理；2.Python Spark贝叶斯模型程序设计十二、Python Spark逻辑回归：1.逻辑回归原理；2.Python Spark逻辑回归程序设计十三、Python Spark回归分析：1.大数据分析；2.数据集介绍；3.Python Spark回归程序设计十四、Spark ML Pipeline 机器学习流程分类：1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler等2.使用Spark ML Pipeline 机器学习流程分类程序设计十五、Python Spark 创建推荐引擎：1.推荐算法；2.推荐引擎大数据分析使用场景；3.推荐引擎设计十六、项目实践：1.日志分析系统与日志挖掘项目实践；2.推荐系统项目实践
人工智能技术与咨询
联系195-1112-2152（v同号），企鹅群：189696007，领取更多相关资料https://www.mesbbs.com/media/images/67116bf06fecb9e7e9f2b286f0f3725f.jpg

页: [1]

机器人与人工智能爱好者论坛's Archiver

深度学习——如何用LSTM进行文本分类