学科分类
/ 1
2 个结果
  • 简介:传统的生物医学命名实体识别方法需要大量的标注数据样本,但是在实际应用中标注样本代价高昂。为降低生物医学命名实体识别对标注样本的需求,本文提出通过使用PU学习中的两步法方法,将生物医学命名实体识别问题转化为PU场景下的命名实体识别问题。在第一步中分别使用1-DNF、Spy、NB和Rocchio算法在未标注数据中抽取强负例,然后在已有的正例数据和强负例数据的基础上构建隐马尔可夫模型,最后对待分类数据进行命名实体识别。在GENIA语料库上的实验结果显示,在标注数据较少的情况下,通过使用PU学习方法的两步法构建分类模型,其性能显著优于直接使用标注数据构建的分类模型,同时降低了人工标注数据的成本。

  • 标签: 正例未标注学习 隐马尔科夫模型 命名实体识别 文本挖掘
  • 简介:针对在一定大小的内存空间中Jave虚拟机在处理大型Jave程序时,Jave对象之间频繁交互导致内存占用高、处理效率低的问题,给出了减少Jave对象占用内存空间的三种布局规则。该规则利用Jave虚拟机运行机制,综合对象属性及影响内存空间大小等指标,得出相同对象不同属性之间按规则存放顺序的最优方法。结果表明,相对传统的相同对象不同属性之间无规则的存放方法,按规则存放顺序的方法能够大幅度节省内存空间,并有效提高Jave虚拟机的运行效率,程序对象越多,该方法对内存空间的节省和计算效率的提高效果就越明显。

  • 标签: Jave程序 内存空间 布局规则 属性 对象