「NLP-Text Summarization」Key Information Guide Model

2018_Chenliang Li_Guiding Generation for Abstractive Text Summarization based on Key Information Guide Network

Posted by Culaccino on March 11, 2020

Paper Download Address

Abstract

①Question

带有attention机制的encoder-decoder模型在抽取式文本摘要中能够有较好的表现,但是在生成式文本摘要中往往会丢失关键信息。

②Method/Model

先通过extractive model提取出关键词。作者了提出Key Information Guide Network(KIGN)模型,利用提取出的关键词对编码过程进行指导:

Then, we introduce a Key Information Guide Network (KIGN), which encodes the keywords to the key information representation, to guide the process of generation.

对于解码部分,作者设计了一种prediction-guide Network,即通过预测引导机制,使编码过程能获取、利用较长时间跨度的信息。

③Answer

作者声称该模型在CNN/Daily Mail数据及上相较传统模型得到了关键性的进步。

Model

①Encoder-Decoder model based attention

传统Encoder部分概览:

传统Decoder部分概览:

其中,$h_i s_t$分别为第i帧的编码隐藏因子、第t时间步时的解码器隐藏因子。

②Key Information Guide Network

a.利用TextRank算法[1]从文本中选取关键词。

b.将关键词k作为输入与传统attention机制结合,将①中的encoder部分改为:

关键词k使得attention机制能够更加关注与k相关的文本内容,类似于像模型介绍先验知识。

另外,decoder部分也相应地变为:

③Pointer mechanism

由于单词表的有限性,有些关键词可能会存在OOV(out of vocabulary)问题。故需要对【从单词表中生成】还是照用原文中的词进行选择。论文中利用构造系数$p_{sw}$:

其中,$p_{sw}=\sigma(w_k^Tk+w_c^Tc_t+w_{st}^Ts_t+b_{sw})$。$P_v(y_t=w)$代表从单词表中选取单词w的概率,$\sum_{i:w_i=w}a_{t,i}^e$代表从原文中选取单词w的概率。显然,如果单词w是OOV单词,则$P_v(w)==0$;如果该单词未在原文中出现过,则$\sum_{i:w_i=w}a_{t,i}^e==0$。

技术路线

Talk

会突然涉及到NLP是因为在小组在攻克【观影过程会有声音,利用语音转换系统也会有声音,如何让使用者在使用观影辅助系统时不会产生过强的冲突感】这个问题时迟迟想不出对策。然后我去咨询了导师的意见,导师说,一方面是可以去了解一下文本摘要技术(NLP课题方向之一),一方面是其实可以不用怎么担心,因为盲人的文字接受水平一般式普通人的2~4倍。

(虽然导师说出文本摘要技术时云淡风轻的样子实在是让我感到头秃)本着把做一件事就要做到问心无愧的态度,我便去开始从零学习文本摘要技术。不过令我松一口气的是,自己本身的课题Visual Caption也会涉及到文本生成,再加上Text Summarization中我选用了生成式文本摘要,encoder-decoder架构在这两个领域是通用的,所以在学习时没有太大的理解障碍。(反倒是这段时间我把自己的博客给搭好了,摸鱼实锤)

至于会选择生成式文本摘要的原因是在抽取式、生成式中权衡时,我认为比起偶尔关键内容被落下,描述结果的语法正确性优先级更高,毕竟断断续续、类似于“看书划重点”式的抽取式摘要,对于视障人士而言可能不是一种很好的体验。当然,我在模型中使用TextRank算法和最后的Pointer mechanism也是对纯生成式的一种优化,通过选取关键词(代表原文)、并在关键词和单词表中选择也体现出抽取式基于原文的优点。

不过让我感到些许惋惜的是,我还是将【描述生成模块】和【描述摘要模块】分开来了。毕竟我们的模型不是单纯的【Visual Caption模型】或【Text Summarization模型】,而是基于【生成】进行【摘要】的混合模型。在这篇论文之前我也看到过一篇描述“视觉-语言联合模型”[2]。因为经过生成模块的编码解码,原始的视频信息一定是有丢失的,而分开的话摘要模块的源码信息则完全来自于已经经过一次编码解码的描述内容。理论上来讲进一步联合生成模块中提取出的视觉信息进行摘要,可能最后效果会更好,但我还并没有做到……,因为那篇论文我还没怎么看懂qwq。作者似乎就是阐述了他“joint visual-lingusitic model”的必要性,而这个model是在谷歌提出的大火的BERT模型(一种NLP模型,可以进行多种应用)的基础上进行修改、得到的VideoBERT模型。他在论文中表示:

We show that it can be applied directly to open-vocabulary classification, and confirm that large amounts of training data and cross-modal information are critical to performance. Furthermore, we outperform the state-of-the-art on video captioning, and quantitative results verify that the model learns high-level semantic features.

(所以大概是下一篇paper)

至此,2020大创本组相关的论文就整理完毕了。也算是做了一份对于自己一个多月所做工作的总结,收获颇丰。顺便,俺导师天下第一!

Reference

[1]https://blog.csdn.net/wotui1842/article/details/80351386?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

[2]Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid; the IEEE International Conference on Computer Vision(ICCV),2019,pp.7464-7473.