新闻报道技术研究

(整期优先)网络出版时间:2011-07-17
/ 3

新闻报道技术研究

赵辉

赵辉

(陕西电视台新闻中心,陕西西安710061)

中图分类号:TN919文献标识码:A文章编号:1673-0992(2011)07-143-06

摘要:新闻报道分析是一个多层次、多源的过程,尽管所处理的源数据包含视频、音频和文本等多种媒体类型。新闻事件经过故事单元切分、预处理、字幕探测与识别等处理过程中,也需要很多技术方面的要求,本文阐述了新闻报道方面的一些理论和技术。

关键词:新闻报道;技术;方法

新闻报道事件追踪是在系统通过事件探测过程识别出每类新闻事件的新事件种子,并对事件进行动态聚类的事件种子新闻报道信息流进行监控,发掘出后续新闻报道。

新闻报道分析需要进一步解决的技术问题包括:如何制定现有的模型学习算法性能,提高新闻事件模板的动态进化策略;如何将词频空间转换到概念空间。如何对事件探测过程中的阐值进行动态的更新,进一步提升基于事件的新闻报道分析系统的性能等等。

等待我们去研究和发现有关这方面有关于这方面的新的理论、方法还有很多,在国内仍处于起步阶段。本文对基于事件的新闻报道分析框架进行了研究,概念引入了层次的概念;

技术框架则在概念分析和层次结构的基础上探讨了基于事件的新闻报道分析实现的技术途径。在传统的多文档摘要研究中,每类形成个局部主题,局部主题的确定一般是通过选择合适的聚类算法,把相似的句子聚成一类。

本文引入了ENF的概念,避开了复杂的聚类计算,BP7SG和EPZSG是在此基础上形成的。另外,本文提出了相关的文摘句排序策略,就是根据时间信息和文摘句在新闻报道文档中的位置信息。采用BPTSGUEPZ勘乡策略,在实验结果已经被证明了这种确定局部主题的方法是有效的。在今后的工作中,我们将进一步改善生成的自动文摘的质量,使其更加具有可读性和概括性。以应用到更多的领域当中结合语义依存、信息泛化和指代消除等技术。

事件相关多文档首先要进行预处理,既而确定出局部话题,通过多种新闻媒体数据经过预处理等步骤提取出文本之后结构划分、特征词提取和即代表词句的选取,后经修正即可得到事件单文档摘要。只保留携带重要信息的句子,这在一定程度上将会提高事件探测和追踪的性能。因为摘要本身可以视作一个精简的过程,使用精简后的新闻报道进行事件探测和追踪可以将对新闻主题意义贡献不大的句子去除,事件单文档摘要虽然不依赖事件探测结果。事件模板的相似度越大,其单元其排列位置越靠前,事件模板是在事件探测后形成事件簇的基础上,运用一定的特征提取策略获得的。

新闻技术并不是空洞的口号,而是要在实践中将新闻推到最重要的地位,将新闻做到最极致的水平。新闻频道的建立,突破这种限制,为央视中央电视台拓展新闻报道空间,提升新闻报道水平打造了一个全新的平台。新闻管理体制开始变革,新闻报道无论从内容到形式,都更加具有新闻性。

那么新闻探测有哪些常用理论呢?

一、增量聚类法技术

新闻探测可以看作是一种按事件的聚类,可以设计为首先识别出新闻的出现;其次是将描写先前遇到的新闻报道归入相应的新闻簇。由于新闻探测是一种特殊的文本聚类过程,介绍一下聚类分析的基本原理。

聚类分析可以被分为基于划分的方法基于密度的方法和基于网格的方法等,它是数据挖掘中的一个很活跃的研究领域。常用的聚类分析算法是是聚类准则的确定,假定有一组样本(x;,x:),要求把它确切地分成多种分类,如果要评价各种聚类算法的优劣就必须定义一个准则函数。三种准则误差平方和准则、与最小方差有关的准则以及散布准则。

这里介绍聚类问题就变成对这个准则函数求极值的问题,它包括(1)误差平方和准则。使用这种准则进行聚类可获得较好的效果,当每一类的样本都很密集,而各类之间又有明显的分离。(2)与最小方差有关的准则

二、均值法计算技术

传统的增量K均值法。K均值聚类属于一种非层级聚类,即把样本从一个类重新分配到另外一个类中。比如分为K类,通常情况下,K均值的初始聚类中心可以任意选定,但这种做法减少了迭代次数,降低了计算复杂度,又提高了计算结果的准确性,很可能导致错误的探测结果。

K均值法使聚类域中所有样本到聚类中心的距离平方和最小,是一种适用面广、效率高的基于划分的非层级聚类。影响K均值算法的进行过程的因素有聚类中心数K、聚类中心的选择、样本输入的次序,以及数据的几何特性等。

三、基于层次的方法

基于层次的聚类可以分为两种:聚类层次结构的形成是自顶向下的还是自底向上的决定论凝聚的方式和分割的方式,凝聚的方式是根据一些规则将它们聚合成越来越大的类,是一种自底向上的方法,将每一条记录看作一个类。直到满足一些预先设定的条件。

使得类的数目到了预定值。由于K均值法过分依赖于新闻语料被处理的顺序,故虽然简单,但它的执行结果会因为上述原因影响其探测性能。K均值算法效果相对较好,但也存在着几个明显不足。

该算法执行结果常常由于过分依赖于新闻语料被处理的顺序而影响其探测性能,增量聚类算法虽然计算简单、运算速度快。但该算法的计算量也会对输入顺序过于敏感,随着新闻报道的处理进程而不断增加;过高的误分率是由于该算法聚类初始阶段可利用的信息非常少。该聚类算法常常陷于局部最优,对初始值比较敏感,鉴于传统的增量K均值法在事件探测中存在着诸多不足,

四、文本预处理

文本预处理即去掉一些如tag之类的标记,根据禁用词列表去除禁用词,词根还原。因为词与词之间没有明显的切分标志对于中文文本而言,所以还需要进行分词。另外,对于中文文本,还需要进行词性标注、短语识别等。

由于中文分词由于汉语分词存在切分歧义、未登录词识别分词与理解的先后等问题,对一串连续的汉字字符进行分词,在算法的实现上难度比较大。

目前主要采用的自动分词方法可以粗略地分为两类。基于规则的分词法文档频率文档频率数目。在特征项选择中,那些文档频次特别低和特别高的特征项根据预先设定的阐值去除,计算每个特征项在训练集合中出现的频次。

五、类中心初始化

在取得样本集的初始划分类之前,形成初始划分类,我们要选取一些具有代表意义的点作为初始聚类中心,将其余的点以某种方式划分到以这些代表点为核心的初始类中。不合适的初始值常常会使结果收敛到一个不希望的极小点并影响收敛速度,初始聚类中心的确定对聚类结果、聚类收敛时间的影响很大。

如果选择的初始值处在该域中距离吸引子很近的位置,则优化过程收敛到该极值点的速度将会很快,反之会导致较慢的收敛速度。如果初始值在吸引域之外,则优化过程可能收敛到其他局部极小点上。初始聚类中心的选择可以根据确定的聚类数k,选取数据集的前k个数据作为初始聚类中心,采用随机的方式从数据集合中选取k个数据作为聚类中心。这种方法最简单,在数据中寻找比较合适的代表点等,该方法用经验的方法确定要划分的类别数目,在聚类精度要求不是很高的情况下使用较多,但给后面的聚类带来很大的调整幅度,还可根据专家们所要解决的问题性质。

另外,还有根据网格点附近的样本点多少选取初始代表点,这类方法适合本文所要解决的问题。

六、特征选择和相似度计算技术

特征选择用于去除某些不相关或不重要的特征,而特征权重计算在某种意义上也可被看作是一种特征选择技术,用于调整特征的具有相对的重要性。

采用特征选择的手段来降低特征空间的维数在于计算复杂度会随着特征空间的规模呈现指数级增长。主要采用两种方法来进行特征选择。一种是阐值过滤法,另一种是排序筛选法。

七、IIKM算法技术

对于HKM算法而言,初始聚类中心的确定、聚类中心数、特征空间维数,邻域密度有效半径的选择会在很大程度上影响初始聚类中心的确定.该算法既能进行回溯探测又能进行在线探测。回溯探测旨在将涉及某一事件的所有新闻报道群聚成一个事件簇,处理后的结果中每一个事件簇表示一个事件,并且在理想情况下该事件簇中的每篇新闻报道讨论的内容均与该事件相关.该篇新闻报道是否是所分析的新闻文档流中讨论该事件的首篇报道。在线探测旨在从新闻报道流中判断出每一篇新闻报道讨论的是否是一个新事件,是事件探测任务。

由于每个事件仅仅有一个“首篇报道”,那么就仅仅有4个“首篇报道”,比如我们下面将要进行的实验包含4个事件,这对于系统探测性能的统计分析而言未免显得数目过小。这种方法虽然效率很高,但是其存在的缺陷也是明显的:一个是K个初始点的选择已经通过使用密度函数进行初始聚类,选择在一定程度上克服了此点不足对聚类结果的影响很大另外该算。

但该算法为了求出K维空间聚类,必须组合给出所有K维子空间的聚类,从而会导致其空间和时间效率均比较低。在划分网格时没有或者很少考虑数据的分布,要求用户输入的数据取值空间等间隔距离值很难确定,而且用一个网格内的统计信息来代替该网格内的所有点,导致了聚类质量的降低。

从算法的时间和空间复杂度、对数据输入顺序的敏感性、对数据的敏感性和聚类效果等多方面综合考虑,该算法被认为是在处理大数据量的聚类算法中较好的一种。本文所采用的CURE算法采用了一种新颖的层次聚类算法,将每个数据点看作一个类,对各聚类按照指定量进行收缩,在每步中都要把距离最近的两个类合并然后两两合并直到聚类个数等于K为止,它的基本思想是利用固定数目代表对象来表示相应聚类,但需要指出的是,该算法选择数据空间中固定数目的具有代表性的点,该算法选择基于质心和基于代表对象方法之间的中间策略。

CURE算法具有网格类算法效率高的优点,是一个将基于网格与基于密度相结合的方法,并且可以处理高维的数据。

当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新,虽然已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所作的工作较少。CURE算法的时间复杂性在处理大量数据时必须基于抽样、划分等技术,采用随机抽样与分割相结合的办法来提高算法的空间和时间效率。

由于数据量大,在更新后的数据集上重新执行算法以更新挖掘结果显然比较低效。新闻事件探测所处理的是流数据,这些数据会随着时间不断地更新。

前面对概念分析和层次结构做了一个说明,基于事件的新闻报道分析技术与文本分类/聚类、信息检索、信息抽取等几个交叉研究在于概念分析比较了的区别和联系。两个核心层是新闻报道分析分为低层处理和高层分析。

探讨了基于事件的新闻报道分析实现的技术途径,提出了基于事件的新闻报道分析的技术框架。在概念分析和层次结构的基础上,侧重于对高层分析所涉及的关键技术和内容的进一步细化。

基于事件的新闻报道分析技术受信息检索、文本、信息、信息抽取、人工智能和模式识别等多个研究领域的影响,是一个新兴的、充满挑战性的前沿性的研究课题.对其产生巨大的推动作用,是由于它作为系统工程领域的新兴代表。

参考文献:

[1](美)w.兰斯班尼特:《新闻政治的幻象》,当代中国出版社,2005年

[2]李希光:《媒体商业化与新闻执政》,当代中国出版社,2005年

[3]李良荣:《新闻学导论》,高等教育出版社,1999年

[4]杨保军:《新闻价值论》,中国人民大学出版社,2003年

[5]曹加恒,舒风笛,张凯.基于多媒体数据库的数据挖掘系统原型,《武汉大学学报》,2000(5)

[6]马宇飞,白雪生,徐光佑:新闻视频中口播帧检测方法的研究,《软件学报》2001,12(3)

[7]姜帆,章毓晋:新闻视频的场景分段索引及摘要生成,《计算机学报》,2003(7)

[8]熊华,老松杨,吴玲琦:一个基于内容的视频新闻节目,《计算机工程》,2000(11)。