中文文学作品中的社会网络抽取与分析

(整期优先)网络出版时间:2021-09-03
/ 2

中文文学作品中的社会网络抽取与分析

孙丽娜

哈尔滨市航空服务中等专业学校

摘要:自然语言是人类传播思想,交流信息的重要工具。在人类历史的长河中,通过语言文字的描述,大量政治、经济和文化的信息保留和传承下来,从新闻到写实文学作品再到社交媒体等,文本承载了大量的社会信息。

关键词:中文文学作品;社会网络抽取;

前言:中文文本处理可按段落、字词或主题等进行分区域处理,每区域附加一定的限制,每一区域可作为一个独立部分,《三国演义》等文学作品大多是章回体小说,因此,将各角色在章回中的共现作为角色之间的联系,共现次数作为其联系权重,这种规划是基于文学作品的特点而定的。

一、中文文学网络

网络文学的崛起从表面上来说也许是文学创作、传播和接受媒介随着科学技术发展所产生的,但实际上却是文学的主题、观念、目的和审美范式在跨文本、跨媒介、跨学科和跨文化的视域中直接嬗变的结果。传统的文学创作、传播和接受观念在网络媒介技术变革、计算机数据库的更新扩容与数字化生存境遇的轮番冲击下,发生了急遽的蜕变,其直接结果就是文学的“上网”或“触网”,以及由其所引发的真正依托于“网上环境”的文学创作、传播、互动与接受,文学表意的图像化、游戏化与“审美泛化”,文学的载体从物理世界进军到虚拟空间,文学的存在方式以物质化的“白纸黑字”变为非物质化的数据流和电子信息,并在虚与实的双层“界面”间往来穿梭和意指转化。这些变化所触及的除了文学存在形态之外,更多的是对文学创作方法、传播路径和接受方式的冲击,它所引发的是对文学意义的生成、文本内涵的阐释、研究范式的转型、审美观念的鼎新等“文学场域”内多种要素的深层掘进,对当下的文学研究者来说,既是一场前所未有的挑战,也是一次千载难逢的学术机遇。

二、中文文学作品中的社会网络抽取

1.识别文学作品中的角色。经典章回体小说使用的语言主要是现代白话文,其中也夹杂着一些文言文,如“看官”、“话说”、“某某日”等。作品中的角色涉及姓名、字、号、职位、生卒年、事迹等,在行文中的人物角色引用上,有名字使用,但更多的是别名使用,另外还有官职名、省略称呼、其他角色的称呼语等,利用统计方法并结合背景知识和web查询计算人物角色表达并形成角色列表,最简单的角色表达统计是对小说中出现的角色全名进行计数,采用字符串匹配操作,方法直观但准确度较低,这种方法也可用于角色表达中的别名、字、号等。小说角色表达中的职位、省略称呼、其他角色的称呼语等,除应用字符串匹配外,需对角色进行指代消解处理。通过深入研究小说中的语言特点发现,文白夹杂的叙事作品利用人称代词进行照应的情况非常少见。由此,本文采用基于规则的层次过滤模型进行角色表达的指代消解:层次一是名词过滤层,将分词和词性标注的文本中的名词(标注为/n和/nr)筛选出来;层次二是角色过滤层,首先借助背景知识和Web检索将角色表达的各种形式和角色主要信息组织成角色库,对上层过滤的名词与角色库信息进行比对并对其实施二次标注;层次三是语法语义过滤,对于有歧义的标注,比如官职中的“丞相”,判断其临近角色的归属来决定其所指。本文的分析对其不做处理。所以将其中出现频率较高的,文学评论家较为认可的人物作为构建社会网络的角色节点,最终选择了包括刘备、诸葛亮、曹操等126个角色作为研究的对象。

2.确定角色联系和权重。建立统计模型对章回角色引用进行统计,角色信息采用姓名、字、号、职位等,构建角色——章回矩阵,其中行表示不同的角色,列表示章回序列,矩阵中的元素表示角色在章回中的出现次数,设阈值对出现频率较低的角色进行过滤,以降低矩阵稀疏性。分析文学作品理论可知,小说的展开具有明显的主题独立性和场景连贯性,在故事展开过程中涉及的角色具有明显的聚集性,重要角色在场景转换中具有衔接连贯性。小说中角色之间的联系采用其共现关系。根据中文章回体文学作品的特点,这种共现关系分为章回共现和全文共现,两者只是对文本统计区域的不同。为计算联系权重,需要计算各对角色的共现关系,首先计算角色在章回中的共现矩阵建立相应的统计模型,然后再合成为全文中的角色共现矩阵。两者都是二维矩阵,行和列都是角色,矩阵中的元素表示两个角色在章回或整个小说中的共现次数。角色——章回矩阵和两个共现矩阵尽管都是二维关系矩阵,但两者是不同的,前者是一个双模矩阵,行和列表示不同的元素集合,统计小说各章回中每个角色的出现次数;后者是一个单模矩阵,行和列来自于一个集合,即文学作品中的角色集合,统计小说中角色对的共现次数。

3.社会网络分析。自从Watts和Strogatz以及Barab丘si和Al—bert的工作发表以来,复杂网络引起了研究者的广泛兴趣,其应用范围不断扩大,对语言复杂网络的研究也受到了极大关注。对小说抽取的社会网络,进行社会网络分析,包括角色频数分布、角色的中心性、凝聚子群等。角色频数分布文学作品一般有角色、事件、场景等组成,其中角色是作者构思作品、读者理解作品的核心元素,角色在文学作品中的表达频率可以作为角色重要性的度量指标之一。分析角色频数分布,角色库中的角色频数分布,其中横轴表示角色编号,纵轴表示角色出现次数。其幂律特性显著,分析小说中的所有角色的表达可以发现,其“长尾”中的“尾巴”会非常突出,也就是频数非常低的人物角色拉的很长,由此可以理解,文学作品中的角色分布具有有限幂律分布特征。需要说明的是,此处统计的小说角色频数分布,是指角色在小说中的出现频次,也就是小说中对某角色的表达数量,对角色的全称、字、号、主要官职等表达都统计在内,其简称和非主要职位等未做统计。中心性分析,社会网络的中心性分析是识别网络中“重要的”行动者,衡量一个行动者处于“中心”的程度。文学作品分析中需识别主角及其与其他角色之间的关系,以经典的社会网络中心性测度指标为基础,构造综合中心性指标,探测文学作品中的重要角色。进一步分析可以理解,核心成员是作者规划和展开故事的基础成员,是小说角色布局的关键,核心成员相对稳定,他们之间联系密切,是作者铺开故事的重要棋子,也是读者领会小说内容的主要成分。边缘角色往往是由于随机和不稳定因素加人的角色,随着故事的展开在局部起临时和辅助性的作用。具有其独特的性质,目前的模型和方法并不能完全将其描述出来。例如,角色在社会中产生多种多样的社会关系,角色之间、角色与环境之间是互相依存、相互依赖的关系,这种依赖关系是一种社会网络独有的特性,是通过观察整个结构和事件而发现的一种导出关系。除了社会性特征之外,由于角色在社会网络上从事各式各样的活动,其社会网络信息往往具有多维度、复杂关联的特点,而已有的分析方法往往关注于某个方面,并不能完全地建模这种特征。

自然语言处理应用于文学作品中进行社会网络分析,有许多工作要做,本文进行了有益的探索和研究,得到了一些实用性结论和启发。针对文学作品中的社会网络分析,不单单是人物角色呈现的关联,同时涉及时代、环境等背景知识,以及事件、写作手法等故事展开方式,同时需要借助成熟的自然语言处理技术,如命名实体识别、指代消解等,特别是夹杂着文言文的小说如何保证人名识别和指代消歧的准确性等。这些都是后续研究的目标和方向。

参考文献:

1.顾静航,钱龙华等.基于信息抽取的人物关系网络构建研究[D].苏州大学硕士学位论文,2019.