小组成员:程伟 2120160984
1.摘要篇章分析旨在研究自然语言文本的内在结构并理解文本单元(可以是句子、从句或段落)间的语义关系。它是一种续词、句子之后的文本分析粒度,需要对文本单元的上下文进行全局分析。识别隐式篇章关系是篇章分析领域中非常有挑战的一个任务。传统的方法注重篇章中的概念和意义特征,导致系统的性能不高,本次任务建立神经网络来表示句子的深层语义,融入额外的世界知识,进而对隐式篇章关系进行分类。
2.背景篇章分析旨在确定文本的内在结构,篇章语义关系识别是篇章分析的重要组成部分,它对自然语言处理的其他任务(如信息抽取,自动摘要以及统计 机器翻译等)起着重要的作用,近年来已逐渐成为研究的热点之一。篇章语义关系包含两类:显式篇章关系,即文本单元间存在显式的篇章连接词(如because,but,so等等);隐式篇章关系,即文本单元间没有显式的连接词,它们间的逻辑语义关系可根据上下文推理出来。已有的相关研究表明,由于篇章连接词在表达的逻辑语义上极少有歧义,相对于隐式篇章关系的识别,显式篇章关系的识别要容易的多,性能也更好。例如,在PDTB体系下,仅使用连接词及其前后一个词作为特征,英文显式篇章关系识别在顶层的四大类上就取得96%的F1值。另一方面,没有了连接词的指引,隐式篇章关系识别任务要困难得多。考虑词法、句法、语义、依存,以及其他大量上下文统计信息,PDTB体系下,顶层四大类隐式关系识别的性能仍然低于50%。但PDTB语料的统计表明,英文中隐式篇章关系约占篇章关系的40%。显然,隐式篇章关系识别的性能已成为篇章关系识别,以及整个篇章分析的瓶颈。而篇章关系也是自然语言处理中面临的瓶颈问题,正确识别篇章关系对于机器翻译、文本分类等任务具有重大意义,目前显式篇章关系识别已经取得了很好的效果,而传统的基于特征工程的方法在隐式篇章关系识别中效果并不理想。本课题希望建立神经网络来表示句子的深层语义,融入额外的世界知识,进而对隐式篇章关系进行分类。神经网络是当前比较前沿的机器学习模型,模型结构也比传统机器学习模型复杂。
3.PDTB数据集近年来,篇章理论的发展以及大规模篇章语料的构建,使得篇章级的分析应用越来越受到研究者的关注。2008年发布的最新版的宾州篇章树库(the PennDiscourse Treebank,PDTB)是一个在D-LTAG框架下标注的篇章级语料库。它以词法为基础,标注了谓词论元形式的篇章结构。该语料库同时还和宾州树库(the PennTreebank, PTB)进行了对齐,研究者可以很方便的从词法、句法、语 义等多个视角分析篇章。PDTB语料库标注了显式和隐式两类关系。其中显式关系由连接词触发,驱动两个论元Arg1和Arg2,形成的关系都具有明确的语义类别。 此外,PDTB体系还提供了三层篇章语义关系的分类体系,表1给出了前两层的语义关系。