COMPUTER ENGINEERING AND DESIGN
计算机工程与设计
June 2 19Vol. 4 0 No. 6基于字序列的非结构化简历信息解析方法陈 毅1!4 符 磊234,张 剑3⑸黄石磊4!(1.重庆邮电大学光通信与网络重点实验室,重庆4000 65; 2.安徽大学计算智能与信号处理教育部
重点实验室,安徽合肥23 0 6 0 1; 3.北京大学深圳研究院,广东深圳518 0 57;4.深港产学研基地深圳市智能媒体和语音重点实验室,广东深圳518057 & 5.深港产学研基地产业发展中心,广东深圳518057)摘 要:为有效解决传统简历解析方法效率低、成本高、泛化能力差的问题,提出一种基于字序列的非结构化文本简历解
析方法。利用BLSTM对字序列进行建模,获得一个包含字序列信息的词表示&由BLSTM神经网络强大的学习能力对特 征进行学习,获得相应的特征&根据前后标签的约束,使用CRF获得最优标签序列(CBLSTM-CRF);利用梯度下降算法 训练神经网络,使用预训练字向量、Dropout优化神经网络,完成对中文简历的解析工作。实验结果表明,CBLSTM-CRF
方法对简历解析的效果优于传统方案,利用BLSTM对字序列进行建模的方法在其它模型上也取得了较好的效果。关键词:中文简历;字序列;非结构化;神经网络&条件随机场中图法分类号TP391 文献标识号:A 文章编号:1 0007024 (2 019) 06-1769-0 6:doi: 1 0. 16208/j. issnl 000-7 024. 2 019. 0 6. 047Analysis method of unstructured resume information
based on character sequenceCHEN Yi134 , FU Lei2'34 , ZHANG Jian35, HUANG Shi-ei45(1. Key Laboratory of Optical Communication and Networks, Chongqing University of Posts and Telecommunications,
Chongqing 400065, China; 2. Key Laboratory of Intelligent Computing and Signal Processing of Ministry
of Education, Anhui University , Hefei 230601, China; 3. Peking University Shenzhen Institute ,
Shenzhen 518057 , China; 4. IMSL Shenzhen Key Lab , PKU-HKUST Shenzhen Hong Kong Institution ,
Shenzhen 518057 , China; 5. Industrial Development Center , PKU-HKUST ShenzhenHong Kong Institution , Shenzhen 518057 , China)Abstract: To solve the problem of low efficiency , high cost and poor generalization ability of traditional resume analysis methods
efeKtively anunstruKturedtextresumeanalysismethodbasedonKharaKtersequenKemodelwasproposed. A BLSTM neural network was employed to modelKharaKter sequenKes and obtain theKorresponding internal features of words. The strong learning
abilityofBLSTM wasusedtolearnthefeaturesandtheKorrespondingfeatureswereextraKted. AKKordingtotheKonstraintsof the front and rear labels , the CRF was utilized to obtain the optimal labeling sequence (CBLSTM-CRF). All of the neural net-
worksweretrainedusingthegradientdescentalgorithmandoptimizedusingthepretrainedcharacterembeddingsandDropout. ExperimentalresultsshowthatCBLSTM-CRFmethodissuperiortothetraditionalschemes. AndemployingtheBLSTMneural
networktomodelcharactersequencesachievesbeterresultsinothermodels.Keywords: Chineseresume;charactersequence;unstructured;neuralnetwork;conditionalrandomfields收稿日期:2018-0418;修订日期:2018-05-21基金项目:国家自然科学基金项目(U16132O9);深圳市科技计划基金项目(JCYJ20170307151743672、JCYJ2015030154330711)作者简介:陈毅(1992-),男,重庆人’硕士研究生’研究方向为自然语言处理、信息抽取;符磊(1994 -)%男,安徽合肥人,硕士
研究生’研究方向为自然语言处理、文本分类;张剑(1982 -),男,江西南昌人’博士,副研究员,研究方向为自然语言处理、模式识 别、语言理解;黄石磊(1979 -) %男’湖南长沙人,博士 ,副研究员,研究方向为自然语言处理、语音识别\"E-mail: cyde71@163.com・1770・0引言计算机工程与设计2019 年简历是工作中常见的一类文本,其按结构可分为结构 化、半结构化和非结构化文本。为了从海量格式自由的文 本简历中筛选出合适的人才,其中比较重要的环节就是从 格式自由的文本简历中解析出相应的信息元而传统的简历 解析方法采用的是通过制定一系列规则来匹配文本段中的 信息元。此方法不仅需要不断添加新规则和维护现有规则, 并且还需要处理规则之间的冲突,成本高、难以迁移、泛 化能力差。图1 BLSTM进行词表示为了解决现有的简历解析过度依赖规则的问题,提出 利用序列标注的方法来解析文本简历,即利用序列标注算 法将信息元标注标签,然后根据标签解析出所需要关注的 信息元。就目前而言序列标注常用的方法是马尔科夫模型 (hidden Markov models, HMM%1*、最大熵马尔科夫模型 (maximum entropy Markov models& MEMMs%2*、条件随 机场(conditional random field, CRF %〔3*( CRF 解决了 HMM的需要枚举所有的观察序列和MEMMs的标注偏置 问题,但CRF存在需要人工去制定相应的手工特征。而循 环神经网络(recurrent neural networks , RNN% ⑷则不同,
它可以自主学习到复杂的特征信息。综上所述&本文的简历解析方法如下:①采用双向长 短时记忆模型 (bidirectional long short-term memory , BLSTM%5*对词进行表示,获得一个包含字序列信息的词 表示。②结合BLSTM和CRF,利用BLSTM自动学到复
杂的特征信息,输出所有可能标签序列的概率给CRF层, 由CRF根据前后标签之间的约束求解最优标签序列。1 CBLSTM-CRF 模型本文首先利用BLSTM对非结构化文本简历的字序列
进行建模,进而对词进行表示,可以得到字及其上下文信 息等的词表示。其模型如图1所示。其次结合BLSTM和 CRF (BLSTM-CRF)对非结构化文本简历进行解析。利用
BLSTM自动学到复杂的特征信息,输出所有可能标签序列
的概率,根据前后标签之间的约束使用CRF获得最优标签 序列。如图2所示。结合图1和图2的模型即CBLSTM- CRF 模型。1. 1 BLSTMLSTM是一种特殊的RNN,其本质区别在于LSTM引
入了巧妙的可控自循环,产生让梯度可以长时间持续流动 的路径。在处理时序间隔和延迟非常长的任务时,LSTM 比RNN更具有竞争力,其主要原因在于LSTM增加了一 个记忆单元(cell sate),用以取代传统的隐含神经元节点。 避免了传统RNN随着网络层数的增多,产生梯度消失或梯 度爆炸的问题。LSTM记忆单元如图3所示。LSTM记忆单元的实现如式(1)所示图 2 BLSTM-CRF 模型ht yt图3 LSTM记忆单元ft = #(Wf • [h—1 ,* +bf) it =
• [h—1 ,t* +0)Ct = tanhd ・ O—1 ,* +0)(1)
Ct = ft % C—l +it% Cot = #/o ・ O—1 ,t* +0。)ht = ot % tanh(CQ其中,i是逻辑Sigmoid函数,ii f、o、%还有C分别代 表的是输入门(input gate)、遗忘门(forget gate)、输出门
第40 卷 第6 期陈毅,符磊,张剑,等:基于字序列的非结构化简历信息解析方法• 1771 •(output gate)、卷积乘和记忆单元向量(cell vectors),这
些向量的维度都与隐藏层向量h的维度是一致。/+/、 分别表示连接输入门、遗忘门、输出门的权重矩阵。BLSTM由两个方向相反的LSTM神经网络构成,即 前向LSTM和后向LSTM。其工作原理为前向LSTM的输 出结果F+和后向LSTM的输出结果B,级联形成一个新的
特征表示0,=匚F,:B* ,此特征表示具有丰富的上下文 信息等。1.2字序列的词表示本文与传统方法不同之处除了采用深层神经网络对非 之后, 获得一个包含字序列信息的中文词语序列Wd = Qwd1,• - ,wd+ ) (4)其中,9d+是一个维度为d维的词向量。将词序列输入到BLSTM神经网络中,利用BLSTM中 的前向LSTM将词wd+及其上文信息表示为WordF,,同 理利用后向LSTM将词9d+及其上文信息表示为 WordB,,最终将BLSTM的前向LSTM输出结果和后向 LSTM的输出结果级联起来形成一个新的特征表示h = [WordF,:WordB,*,ht直接作为特征来为每个输出8做出 独立的标记决策,此方法有效的将词及其上下文信息用向 结构化文本进行解析之外,同时提出了一个新的词表示方 法,即使用了 BLSTM对字序列进行建模,获得相应的词 表示。当前对于神经网络中常用的特征表示是词向量。其 主流的方法首先对文本进行分词,分词之后利用Stanford 的Glove6或Google的Word2Vec)]生成词向量,然后输入
到神经网络中。但这个方法使用的神经网络结构简单,仅 仅在一定程度上缓解了上下文以及词序的缺失。Zhang 等8提出利用卷积神经网络在英文数据集上通过字符对英 文单词进行建模, 这种方法是根据其输入位置不变的特征
而设计的,但是这个方法获得的信息只有位置特征。本文 提出的通过BLSTM对字序列建模,进而对词进行向量表 示,可以获得字序列以及字序列的上下文信息。同时在一 定程度上,此方法也可以获得相对应的位置特征。其模型 结构如图1所示。对于给定一个包含n个字的非结构化文本简历字序列Char = \"hr1 ,chrQ
(2)其中,Chr$是一个维度为A维的字向量。将非结构化文本字序列输入双向LSTM神经网络模型 中,利用BLSTM对字序列进行建模。利用双向LSTM的 前向LSTM对字序列进行建模生成一个包含字序列以及字 序列上文信息的向量表示CharF,,同理后向LSTM反向 读取字序列,将字序列以及字序列的下文信息表示为 CharB,,然后将CharF,和CharB,连接形成一个包含字序 列以及上下文信息的词表示Wd = LCharF+: CharB+ *
(3)此表示方法获得了字序列与词语之间的关系,与主流 的 Stanford 的 Glove 和 Google 的 Word2Vec 相比,此方法
对模型性能具有一个显著的提升。此方法可应用于其它需 词表示的深度神经网络模型中。1.3 BLSTM-CRF如图2所示,其描述的是BLSTM-CRF模型的结构图。
其工作原理为利用BLSTM自动学到复杂的特征信息,然 后输出所有可能标签序列的概率给CRF层,由CRF引入 标签之间的约束关系求解最优标签序列。该步骤为非结构 化文本简历信息解析的关键步骤,其具体步骤如下:经过BLSTM对非结构化文本简历的字序列进行建模
量表示。在本文的非结构化文本简历信息解析任务中, 输出标
签之间有一个非常强的依赖关系。例如:B-org. company标 签的后面不能跟着I-gsp. company或除I-org. company以外
的其它标签。因此为了建模标签的依赖关系,本文采用 CRF来建模整个句子的输出标签。假定得到非结构化文本 简历信息的输出目标序列(即对应的标签序列)为为了有效获得非结构化文本简历信息的目标序列&模8 = $1,…,8$) ⑸
型的分值公式定义如下s(X,8)= #Ayj,8j+1 十 #P++
(6))=0
+=1其中,P表示的是双向LSTM的输出分值矩阵,其大小为 $W3,3表示的是目标标签的数量,n表示词序列的长度。 A表示的是转移分值矩阵。当)=0即80表示的是一个序 列开始的标志,当)=n即8n+1表示一个序列结束的标志, A方阵的大小为3十2。在所有简历信息的标签序列上,CRF生成目标序列8 的概率为P 八
V'
厶 87L>,)!>其中在训练过程中&为了获得简历信息正确的标签序列&,代表简历信息序列X对应的所有可能标签序列。
将采用最大化正确标签序列的条件似然对数概率log(p(8% X)) = s(X,8)—log( #lsx,)=
s(X&8) —;ogadds(X&8)
(8)87!x由上述的表述可以看岀本文训练神经网络是为了尽可能输岀非结构化简历信息有效的标签序列。因此式(9)给 出的最大分值公式用于预测最合适的标签序列8% =argmaxs87!(X&8)
9)因为是对输出之间的相互作用进行建模x
[9*&因此采用
动态规划的方法计算方程(8)中的求和以及方程(9)中的最大后验序列8%。14权值更新训练神经网络模型时,本文采用反向传播算法(back
• 1772 •计算机工程与设计2019 年propagation) )0*来训练神经网络模型和随机梯度下降算法
(stochastic gradient descent, SGD)来更新 BLSTM 神经网
2实验及相关说明2.1数据集络模型中的权重参数,使得神经网络模型性能达到最优。 根据随机梯度下降算法的思想:要计算出最小的函数损失 值,使得神经网络模型性能达到最优,必须先计算出损失 函数的梯度,然后按照梯度的方向使函数损失值逐渐减少, 通过对权值的不断更新调整,使得函数损失值达到最小, 从而获得最优解。因此具体求解步骤如下:
首先定义目标函数和损失函数文中采用的数据集是从多家上市公司的招股书中获取 的非结构化的10 000份董监高简介信息,共979 180个字 符,这些数据包含董监高人物信息(姓名,性别,国籍, 出生日期等)以及相关的经历(曾任公司,曾任职位,现 任公司,现任职位,毕业院校等)。其中将获得的数据进行 人工标注,即为所需关注的信息元制定相应的标签,其中 = £
(10))=1.. mLoss = 2— £(8 — g.,)2
(11)+=1其中,.代表网络参数权值,g(.)代表目标函数,Loss代表 损失函数,—表示的是整个迭代进行的总次数,)代表的是 BLSTM中参数的总数目。然后计算损失函数的梯度▽Loss =—丄(—g. (,)),,
(12)其中,▽.代表梯度,g(.)代表目标函数。
接着按照梯度的方向使函数损失值逐渐减少, 通过对 权值的不断更新调整, 获得最优解.:=.一Sh Loss
(13)其中,.代表网络参数权值,2表示的是梯度下降中的学 习率。综上12节-14节所述,本实验的算法流程见表1。表1 CBLSTM-CRF算法流程算法:CBLSTM-CRF算法流程CBLSTM-CRF 训练Input:经过预处理的文本简历数据Begin(1) CBLSTM-CRF模型的Embedding layer将预处理的文本简
历构建成向量;(2) 通过式(1)〜式(3)将字向量建模成词向量(3) 采用步骤(2)中的方法将包含字序列信息的词向量生成一
个包含词以及词上下文信息的新向量;(4) 利用式(10)〜式(13)对模型的权重参数进行优化;(5) 运用式(6)生成所有标签序列的概率给CRF#(6)
通过式(7)〜式(9)计算概率最大的正确简历信息&生
成最优的标签序列;⑺ 保存训练好的CBLSTM-CRF模型参数;Output:训练好的CBLSTM-CRF模型、标签序列。CBLSTM-CRF测试验证Input:用作测试的文本简历数据Begin(1)
加载训练好的模型;(2) 输入文本简历测试数据,生成模型最优的标签序列;()使用式(14)〜式(16)计算得到相应的评价指标值;Output:标签序列、评价指标值人工制定规范化的标签类型分为14类。即“pers.name”、 \"org. company\"等相应的标签类型对应相应的13类信息元 实体和“O”代表的不需要关注的信息实体,标签见表2。表2标签标签含义说明pers.name姓名姓名&同时也包括英文名pers.male男性如\"先生”\"男”pers.female女性如“女士” “小姐”pers.birth出生日期如 \"973年出生”中的 \"973年”pers.country国籍如 \"中国国籍”pers.edu学历如“学士学位” “硕士” “博士”pers.school毕业院校如\"匕京大学”org.time现任工作时间如“自1997年起\"& \"现任”org.company现任公司名称精确到\"%%公司% %分公司”org.pos现任职位包含部门信息&如“营业部总监”gsp.time曾任工作时间曾任工作的起止时间gsp.company曾任公司名称精确到\"% %公司%% %分公司”gsp.pos曾任职位包含部门信息,如\"销售部经理”2.2评价指标文中采用的评价指标是准确率(FLciion)、召回率 (.Recall) Fl-score (Fl),其中。其中 Fl-score 为主要参
考指标。准确率、召回率、Flscore的公式分别表示如下Precision = 丁门TP ~™
(14)RecallTPTP + FN15)2 X Peciion X Recal Precision+Recal16)其中,TP表示的是正确识别的实体数;TP+FP表示的识
别出的实体数;TP + FN表示的样本的实体数。2.3实验2.3.1 数据预处理本文采用的模型是结合BLSTM和CRF模型,因此需 要将数据处理成模型适用的格式。 将获得的数据集进行人 工标注, 获得标注数据集。 然后将数据处理成两列, 一列
第40 卷 第6 期陈毅,符磊,张剑,等:基于字序列的非结构化简历信息解析方法• 1773 •为实体信息,一列为标签信息。然后进行分词,引入BIO 标签格式。其中B表示信息元实体的开头,I表示信息元实 体的内部,O表示不需要关注的信息元实体。根据人工指 定规范化的标签类型分为14 类, 因此数据预处理之后标签 的类型为 27 类,即\"B^pers. name\"、\"I-pers. name\"等所 需要关注的相应的实体标签一共26类,“O”即不需要关注 的信息元实体。接着将数据集按8 : 1 : 1的比例分为训练集 (training set): 验证集 (validation set): 测试集(test set)。
2.3.2 实验设置解析的对比见表3。使用BLSTM对字序列进行建模,进而
对词进行表示,然后再使用各模型对非结构化文本进行解 析的结果见表4。表3实验结果/%方案Precision83.00RecalF1-score83.0078.4479.56CRF(baseline)RNNs83.0083.4580.8573.9978.31LSTM为了提高模型的训练速度和精确度,本文采用预先训 练好的字向量来初始化字向量表。其中预训练好的字向量 采用的大规模无标签语料库是975 MB中文维基百科 (Cnwiki)语料库,利用Google的Word2Vec将语料库训练 成Dim=100维的字向量,训练出的字向量可以很好对字进 行向量表示,并且简单高效。训练CBLSTM-CRF模型时将前向LSTM和后向 LSTM的维度设置为Dim=100,通过多组实验对比发现, 改变LSTM的维度设置对CBLSTM-CRF模型性能的提升
并不大。为了防止模型训练时的过拟合,在本文的实验中, 将采用Hmton等血提出的Dropout训练方法,其值设置为 Dropout=0. 5。在模型训练时学习率(leaning rate,lr)也起着至关
总要的作用,学习率决定了参数移动到最优值的速度快慢。 因此在经过大量的实验对比之后发现学习率lr=0. 01时效 果是最佳的。本实验还引入了 Early stopping策略。即在引入Early stopping策略时,每次Epoch结束之后计算验证集准确率、 召回率、F1-score,当F1-score不再提高时,模型就停止训 练。但是不能当F-score刚不再提高就停止,这样容易造
成模型训练达不到最优。因此在本文的实验中,当连续20 次Epoch之后F1score没有明显提高,模型则停止更
新迭代。在对模型评估时,本文选择使用十折交叉验证。将数 据集随机切分为10个互不相交的大小相同的子集;然后利 用9个子集的数据训练模型,用余下的一个子集测试模型; 将这一过程对可能的10种选择重复进行;最终选择10次 中平均测试误差最小的模型)3*。3实验结果及分析我们比较不同的简历解析方案:①CRF (baseline) #② RNNs;③LSTM-CRF (结合 LSTM 和 CRF);④BLSTM- CRF (结合 BLSTM 和 CRF);⑤ CBLSTM-CRF (使用 BLSTM 对字序列进行建模, 进而对词进行表示, 然后用
BLSTM-CRF对简历进行解析)。为了保证方法对比的公平
性, 本文的数据集均采用的是同一数据集, 没有使用其它
额外的标签和数据集。本文使用的方法跟其它方法对简历
BSLTM78.8081.3480.05LSTM-CRF85.3780.8483.13BLSTM-CRF84.4684.8084.63CBLSTM-CRF8& 5086.3986.94表4字序列模型性能/%方案PrecisionRecalF1-scoreCRF(baseline)83.0083.0083.00RNNs75.0083.3378 95LSTM78.6681.0379. 83BLSTM80.2482.5281.36LSTM-CRF82.8984.1683.52CBLSTM-CRF88.5086.3986.94由表3实验结果对比可以得出,传统的CRF对于文本 简历解析效果并不是最差,原因在于CRF求解的是全局最 优解,但CRF依赖人工定制的特征模版;而深度神经网络 相较于CRF的优势是可以自动学习文本特征,因此结合深 度神经网络和CRF对文本简历进行解析,可以弥补CRF 依赖人工定制特征模版的缺点;而本文提出的CBLSTM- CRF方法相较于BLSTM-CRF 相 较 于 模型的F1-core提升了 2.31%,CRF (baDeline) 的 F1-Dcore 提 升 了
3.94%,其主要原因在于用BLSTM对字序列进行建模,
进而对词进行表示, 可以学习到字及其上下文信息等, 从 而对简历解析效果有一定的提升。结合表3和表4相同模型采用不同词表示方法的F1值 进行对比分析可知,使用BLSTM对字序列进行建模,进 而对词进行向量表示,然后用来训练深度神经网络模型, 此方法的性能优于用词向量的性能, 其主要原因在于用此 方法对字序列进行建模可以获得字序列信息以及字序列的 上下文信息。 对于本实验的性能有一个较好的提升。表5可以看出加入Dropout之后,CRF层对非结构化
文本简历的解析结果有一定提升,F-score增加了 0.97%, 其主要原因是在对非结构化简历进行解析时,Dropout阻止 了某些特征只能在其特定特征下才有效果的情况。在模型 加入Dropout的基础上加入预先训练的字向量,模型的性
• 1774 •计算机工程与设计2019 年能提升了将近2.3%。由表6表示的各个标签占有比以及性 能可知,本文提出的利用BLSTM对字序列进行建模的方 法对于性别、姓名等短信息实体具有一个很好的识别效果。表5方案优化结果/%方法[2* Shruthi S,Jiljo, Pranav P V. A study on named entity recog
nition for malayalam language using tnt tagger & maximum en
tropy markov modll [J*. International Journal of Applied En- gineeringResearch&2016&11 (8): 5425-5429.[3* Sammut C. Webb G I. Conditional random field [J*. Ency-
RecalPrecisionF1-score86.94CBLSTM-CRF88.5088.9990. 4486.3986.8689. 73clopediaofMachineLearningandDataMining, 2017, 10 (3): 9-16.[4* MesnilG, Dauphin Y, YaoK, etal.Usingrecurentneural
CBLSTM-CRF+ DroputCBLSTM-CRF+ Pre (Cn) +Dr87.9190.18networksforslotfilinginspokenlanguageunderstanding [J*. IEEE/ACM Transactions on Audio, Speech and Language Pro-
注:Pre(Cn)表示用中文维基百科(Cnwiki)语料库训练 的词向量;Dr表示使用Dropout。表6各标签占有比以及性能/%标签PrecisionRecalF1-score占有比gsp.company83.0480.1781.5813.53gsp.pos80.8681.8281.3415.49gsp.time93.1590.0791.588.82org.company89.8292.6991.2413.66org.pos87.8089.4488.629.91org.time84.2196.9790.144.59pers.birth100.00100.00100.005.01pers.country100.00100.00100.004.71pers.edu88.7592.2191.034.77pers.female100.00100.00100.001.75pers.male96.9298.4497.673.93pers.name99.4998.4898.9811.78pers.school79.4184.3881.822.054结束语本文提出使用CBLSTM-CRF模型对文本简历进行解 析。用字通过BLSTM对词进行表示,可以获得更多有效 的信息,然后再利用BLSTM-CRF模型对文本简历进行序 列标注,辅以Dropout和预训练词向量对模型进行优化, 最终完成对文本简历的解析。通过与不同方案的结果进行 对比分析得出本文所提的简历解析方法要优于其它方案, 同时用BLSTM对字序列进行建模的方法也可以应用于其 它模型,并且取得了一个较好的实验效果。为了使简历解 析有一个更好的效果,接下来的工作聚焦解决简历解析过 程中的新词发现和技能抽取。参考文献:Vijayabaskar M S. Introduction to hidden Markov models and
its applications in biology [J*. Methods in Molecular Biology, 2017,1552 (6): 1-12.cessing&2015&23 (3): 530-539.[5* Zhou P, Shi W, Tian J, et al. Attention-based bidirectionallong short-term memory networks for relation classification
[C*//Meetingofthe AssociationforComputationalLinguis-
tics&2016: 207-212.[6* Pennington J&Socher R&Manning C.Glove: Globalvectors
forwordrepresentation [C*//Conferenceon Empirical Met-
hodsinNaturalLanguageProcessing&2014: 1532-1543.[7* MikolovT&SutskeverI&ChenK&etal.Distributedrepresen-
tationsofwordsandphrasesandtheircompositionality [C*//
Proceedingsofthe26thInternationalConferenceon NeuralIn- formation Processing Systems. USA: ACM&2013: 3111
3119.[8* ZhangXiang&ZhaoJunbo&YannLeCun.Character-levelcon-
volutionalnetworksfortextclassification [C*//Proceedingsof the26thInternationalConferenceon NeuralInformation Pro- cessingSystems.USA: ACM&2015: 649-657.[9* LampleG&Balesteros M&SubramanianS&etal.Neuralar-
chitecturesfornamedentityrecognition [J*.North American
Chapter of the Association for Computational Linguistics&2016&16 (10): 260-270.[10* LeeJH&DelbruckT&PfeiferM.Trainingdeepspikingneu-
ralnetworksusingbackpropagation [J*.Frontiersin Neuro- science&2016&10 (2): 335-341.[11* WANG Gongpeng, DUAN Meng, NIU Changyong. Sto-
chasticgradientdescentalgorithmbasedonconvolutionneural
network [J*JComputerEngineeringand Desgin&2018&39
(2): 441-445 (in Chinese).[王功鹏,段萌,牛常勇.基于
卷积神经网络的随机梯度下降算法[J*.计算机工程与设计,
2018, 39 2): 441-445J*[12* Hinton G E, SrivastavaN, KrizhevskyA, etalJImproving
neuralnetworksbypreventingco-adaptationoffeaturedetec- tors [J*JComputerScience, 2013, 3 4): 212-223J[13* LIHangJStatisticallearning method [M*JBeijing: Tsing-
Hua University Press, 2012: 14-15 (in Chinese).[李航.统
计学习方法[M*.北京:清华大学出版社,2012: 14-15..
因篇幅问题不能全部显示,请点此查看更多更全内容