Sonyfe25cp的玩具

home

Wong Co-training方法多文档摘要论文笔记

30 Mar 2015

Extractive Summarization Using Supervised and Semi-supervised Learning

published in 2008 Coling

这篇文章提出一种学习方法,并把五种特征进行组合进行验证。虽然实验结果还不错,但是由于需要大量的训练数据,于是还提出了一种cotraining的方法,该方法利用标注数据和非标注数据进行组合,节省了标注。

###Introduction

####脉络

先介绍自动文摘的概念,然后介绍两类文摘的方法。其中抽象型文摘由于需要对文章的深度理解,但是自然语言处理技术并不够先进,所以只在个别领域比较好。于是抽取型的摘要就是研究的主流。

由于各种特征被陆续的提出,而句子的特征不可能是独立起作用的,于是本文将组合各种特征进行验证。

由于有监督的训练是需要大量的标注工作的,于是本文提出了co-training的方法进行辅助训练,降低对标注数据的要求。两个分类器迭代训练,降低标注时间。

1997年,文档结构特征。
2000年,signature terms被提出。
2004年,位置特征、长度特征被提出并证实有用。
2004年,内容特征(centroid)。
2006年,高频词特征。

2004年,句子相似度、PageRank被考虑。

关于co-training

1998年,提出co-training思想
2001年、2003年、2004年很多应用在用co-training思想

文档抽取框架

###特征

####Surface Features

####Content Features

####Event Features

一个事件由事件词和相关的元素组成,动词和action词作为事件词特征。

给定一个数据集,找出其中的事件词和事件元素词。针对每个事件利用PageRank来计算各个节点的权重,然后一个句子的权重就是其中包含词的累计。

####Relevance Features

###试验方法

采用PSVM来做训练器,co-training的部分则是PSVM+NBC进行组合。

其实就是在标注数据上训练两个分类器 PSVM和NBC,然后各自来对未标注数据进行预测,将可信度最高的那些数据放入已标注数据集,然后重复训练,直到未标注数据集都干净了为止。

###实验

在DUC2001上实验

说明不管怎么看都是Sur+Con+Rel的效果是最好的,而且R-1差不多是R-2的3倍。

对于Co-training来说,由于不断的增加训练样本,效果也是不错的。