学科分类
/ 1
10 个结果
  • 简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.

  • 标签: 专利文本 自动分类 机器学习 朴素贝叶斯 支持向量机
  • 简介:依照Web2.0的“社会化标注”思想,针对基于内容的推荐算法(cBR)和协同过滤推荐算法(CF)存在的不足,提出了基于读者标签(Tags)的、融合图书“热门度”因子的个性化图书推荐的两个改进算法。利用统计分析软件R,重点对改进后的CBR算法进行实验分析和验证,结果表明,改进算法的图书个性化推荐效果有明显改善。

  • 标签: 图书个性化服务 推荐算法 标签 热门度
  • 简介:网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去重效果。

  • 标签: 网页去重 逻辑段落 长句提取 句子相似度
  • 简介:在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detectnear—DuplicateWebPages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。

  • 标签: 网页去重算法 特征向量 近似网页 支持向量机
  • 简介:网络谣言具有传播速度快、影响范围广、扩散方式多、隐蔽性强、危害性大等特点,给个人、企业乃至社会造成诸多不良后果。政府应当加强网络技术监测,推行网络实名制,将谣言控制在萌芽之中;加大信息公开力度,建立网上辟谣机制,使谣言暴露在阳光之下;注重教育与引导,强化规范与监管,让谣言无立足之地。

  • 标签: 网络谣言 信息传播 信息控制
  • 简介:在分析图书馆运行机制及其业务过程的基础上,运用管理学理论和方法,提出图书馆关系管理的概念,建立相应的结构模型,介绍其主要功能,论述了实施图书馆关系管理及其过程控制的作用和意义,认为这有助于提高图书馆工作绩效,增强其在网络环境下的适应能力。

  • 标签: 图书馆 信息管理 过程管理 关系管理
  • 简介:文章对"书目控制(BC)"和"书目控制论(BCT)"两个概念进行了辨析,并进一步阐述了书目控制概念的内涵与外延将随着社会的发展、科技的进步不断扩展.

  • 标签: 概念 女士 定义 书目控制论
  • 简介:通过对《中国近代疾病社会史》(1912-1937)人名索引中出现的差错分析,谈及书后索引的质量控制问题。建议开展我国学术著作书后索引普查、评价和评奖工作,促进我国学术著作书后索引的普及和发展。

  • 标签: 人名索引 编制 学术著作 质量控制