基于优化层次聚类的文档逻辑结构抽取
作者 张阔,徐鹏,李涓子,王克宏
单位 清华大学
摘要 半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点.该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法--CEDLS. 算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略.最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性.
刊物 清华大学学报(自然科学版)
关键词 层次聚类 文档逻辑结构 特征提取 半结构化
在线阅读 下载