基于大数据挖掘的科技项目查重研究

(整期优先)网络出版时间:2021-12-03
/ 2

基于大数据挖掘的科技项目查重研究

胡彦莉

青海省科学技术信息研究所有限公司 青海 西宁 810001

摘要:通过特定的算法从大量的数据信息中检索出其中所需要信息的过程称之为大数据挖掘。为了避免出现科技项目重复立项、重复建设的问题,需要在立项前进行必要的查重,以减少科技资源的浪费。本文介绍了大数据挖掘的相关概念,从科技项目的基本信息、论文信息、关键词信息以及责任人信息等方面分析了大数据查重的构成要素,分析了基于大数据挖掘的科技项目查重应用,为科技项目的查重提供了新的思路。

关键词:大数据挖掘;多源信息整合;科技项目查重;国家科技计划


引言

近年来,我国大力推行科技创新计划,鼓励各级科研单位加大对科技创新的投入,在此背景下我国科研项目立项数量呈现出连年增多的趋势,科技项目的研发规模也不断扩大。但是,据有关资料统计,目前我国科技项目立项与建设过程中存在严重的重复立项、重复建设的问题。通过科技项目的立项与建设而取得的科技成果是推动我国科技力量提升的重要支撑,但是大量科技项目重复立项、重复建设的问题造成了我国有限科研资源的极大浪费,还会加剧科研体系的恶意竞争,不利于创建创新、钻研的学术环境,甚至会对我国科技兴国计划造成不利影响。前科技部部长徐冠华在《关于建设创新型国家的几个重要问题》中强调,政府有关职能单位应加强协作,建立跨部门的科技项目检索数据库,通过强化对科技项目立项与建设,切实解决科技项目重复立项、重复建设的问题。早些年我国针对科技项目重复立项的问题也采取了一定的解决措施,但是由于目前科技项目数量快速增加,科技项目资源公开度不足、整合度不高以及项目相似度判定机制不完善等问题,未能很好的解决科技项目重复立项的问题。借助大数据挖掘技术的发展与应用,可以通过对送审科技项目关键词的识别高效而精准的完成查重工作,从而有效的解决当前科研项目研究中存在的相互抄袭问题,为净化学术环境提供技术支撑。


1 大数据挖掘技术概述

大数据挖掘技术是在计算机技术快速发展同时多种新兴信息技术不断涌现并得到应用的背景下产生的,它很好的融合了数据统计、信息的在线分析、情报分类检索、机器学习以及模式识别等数据处理方法。计算机图灵奖获得者JimGray曾指出,数据密集型科研将成为未来科技研究的第四范式,这种类型的科研伴有显著的网络化、协同化特征,且数据驱动将在未来的科技研发中发挥重要的作用。大数据挖掘是通过对每个单个数据进行解析,掌握数据分布规律进而从大量数据中检索出所需要信息的过程,大数据挖崛的实现主要包含了数据准备、分析规律以及规律表示等三个主要阶段。其中,数据准备指的是在大量的数据中筛选出所需要的数据信息,整合成符合大数据挖掘的数据库;分析规律指的是采用一定的方法与手段掌握数据库中信息的规律;规律表示指的是通过便于理解的方式将发掘出的规律进行呈现。实施大数据挖掘需要做的工作包含关联分析、聚类分析、异常分析以及演变分析与异群组分析等,通过在大量信息中检索出具有应用价值的信息,可以在商务管理、生产控制、市场分析以及科技探索与工程设计中发挥巨大的作用。

近几年,大数据挖掘技术一直保持着较快的发展速度,借助互联网技术的发展实现了多渠道数据手机与多维度数据分析。国外关于大数据挖掘的应用实践起步较早,谷歌公司曾利用大数据挖掘成功绘制了“流感趋势预报图”,前美国总统奥巴马团队也曾利用大数据挖掘帮助其实现了精准的竞选资源分配,最终以更优的竞选成本赢得了总统大选。国内方面也有不少学者在大数据挖掘的研究方面取得了一定的成果,总体上国内外关于大数据发掘的研究与应用还处于相对初级的阶段。

2 大数据挖掘技术在科技项目查重中的应用

2.1在科技项目初期评审中的应用

科技项目在立项与评审的时候需要针对其时效性与创新性进行评估。根据相关统计结果显示,我国科技项目立项重复率高达40%,如此高的重复立项率造成了大量科研资源的浪费。我国学者李善青通过对大数据挖掘技术的研究整合了一套多源信息挖掘的科技项目查重思路,科技借助大数据技术的算法实现精准、高效的项目查重;左川借助向量空间模型可以实现科技项目申请书的重复率检测;吴燕则构建了一种层次聚类的科技项目查重分类算法,也能够在科技项目初期评审查重中发挥不错的效果。

总的来说,科技项目在初期评审阶段的查重是基于项目申请书来展开的,通过分析项目立项申请书中的关键词,分析关键词的特征,然后在数据库中进行特征比对来确定申请立项的项目与既有项目的重合度。该阶段查重的实现主要依赖于大数据挖掘技术的应用,影响查重效果的因素主要为查重数据库的全面性与结构、查重关键词的选择与数量等。

2.2在专家检索及项目匹配中的应用

项目评审前需要组织建立专家委员会,过去通常是参考行业口碑与业绩等因素通过人工筛选完成专家委员会的创建。但是,科技项目的申报一般是由企业自行完成的,申报领域也是由所属企业自主选择。一些企业由于在科技项目立项方面经验不足,导致无法准确确定科技项目所属的技术领域,因此可能会造成其选择的项目领域与实际提交的项目不不符的问题。这种情况下若按照企业自行选择的技术领域去匹配专家进行立项申请的评审,则会造成专家所属领域与项目实际分类不一致而无法高效的完成项目评审的问题。通过使用大数据挖掘技术,可以直接完成申请立项科技项目的扫描与分析,识别项目关键词后再与数据库进行对比即可较为准确的完成项目归属技术领域的判定。同时,通过大数据挖掘技术可以按照特定的检索条件搜索相应的专家并按照技术领域的不同建立专家库,还可以结合计算机网络完成数据库的更新,检索专家在所属学科的著作以及与其他学者的合作网络等。由此,可以较好的解决申请项目技术领域判定不准确以及评审专家与送审项目不匹配的问题。

2.3 在科技报告与公文查重中的应用

科技报告通常是用于一些科研项目的前期调研、试验进展以及后期研究成果总结,是科研项目研究的常用工具。科技报告设计项目的专题深度、创新性、研究思路的可行性以及研究成果数据的完整性等对科研项目成果的评价与现实转化具有较大的影响。近年来,随着国家对科技创新投入的加大,对科研项目成果的输出也提出一定的要求,净化科研与学术环境,解决当前存在的科技成果重复立项的问题得到了政府与社会的广泛关注。以前,科技报告的检索与查重一般是通过专门的查重检索工具来完成的,但是存在检索、查重效率不高等问题。

公务文书(公文)多用于政府法定机关与职能单位的公务活动中,其具有相对固定的格式要求,在现实中公文常用于行政事务、政策指令的传达与处理,各类工作指示与调令的执行等。在公文查重方面,则可以借助大数据技术建立专门的公文数据库,当需要查重时通过识别公文内容并与数据库中内容进行匹配即可完成公文的查重。


3 结语

综上所述,在国家大力推行科技创新的背景下,科技项目的立项与建设数量不断增多,大数据挖掘技术可以有效提高科技项目查重效率与查重精准度。通过避免科技项目重复立项与重复建设的问题,可以减少科技资源的浪费,对于我国科研力量的提升具有极其重要的价值。

参考文献:

[1]金山,裘诚,杨涛.基于数据挖掘算法的科技项目推荐模型[J].现代工业经济和信息化,2021,11(08):75-76.

[2]魏丽.探究大数据挖掘在工程项目管理中的应用[J].中国新通信,2021,23(10):99-100.

[3]王良熙,刘少俊,方延风.福建省高新技术企业知识产权产出与科研项目数据挖掘[J].科技和产业,2020,20(12):14-19+199.