这三个矩阵相乘就可以恢复原来矩阵。如果我们在恢复时减少维数,就可以取得压缩语义空间的效果。
附图
下面是一个常被引用的例子:现有9条技术备忘录的题目,其中5条是关于人和计算机交互作用的,4条是关于数学图论的。这些题目在概念上不大相关,它们构成一个9列12行的矩阵,每一行是在这些题目中出现起码两次的实义词(均标为斜体),整理为表1。
c1:Human machine interface for ABC computer applications
c2:A survey of user opinion of computer system response time
c3:The EPS user interface management system
c4:System and human system engineering testing of EPS
c5:Relation of user perceived response time to error measurement
m1:The generation of random, binary,ordered trees
m2:The intersection graph of paths in trees
m3:Graph minors IV:Widths of trees and well-quasi-ordering
m4: Graph minors:A survey
表1
附图
使用SVD技术,就得到下列的3个矩阵,如表2:
表2
附图
然后我们取这三个矩阵的头两列(即取其两个维数)来加以还原,便得到下面的矩阵(表3):
表3
附图
我们可以首先看m4列的survey和trees。trees这个词在m4题目里并没有出现,但是m4里有Graph minors,而m3里也有Graph minors,且出现了trees,所以在原来矩阵里为0的值被变为0.66,它表示在有graph和minors的题目的无限样本中,trees可能出现0.66倍。相反地,survey在原来矩阵中的m4中为1,但是却变为0.42,反映了它在这样的上下文里并非人们所期望的,不足以表示这个题目的特征。我们还可以比较human和user,human和minors在原来矩阵和后来矩阵的相关系数:前者原为-.38,后者原为-.29,现分别提高到.94和-.83。而在原来的矩阵里,human并没有和user或minors一起出现。减少了维数后显示human和user是更为相似,而human和minors则相反,更为不相似。
LSA可以用来揭示一些隐含的内部关系。让我们再看另一个例子。中国学生英语语料库(桂诗春、杨惠中,2002)是一个有100万词的作文语料库,对5种不同水平——中学生(st2)、大学英语4级(st3)、大学英语6级(st4)、专业英语低年级(st5)、专业英语高年级(st6)——的写作失误进行了标注(共有61种)。最常见的失误有21种,占全部失误的87%。根据Landauer等人的意见,在进行SVD之前,必须对这些数据作预处理:1)把每个频数+1,然后转换成对数;2)把每一列的数值计算为-plog p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic et al.1999)为:
附图
这样做的目的是通过估算每一个词项在每一个语篇的重要性(即该词项与它所出现的语篇所提供的信息量的程度成反比例),对它的出现率加权。在信息提取中经常使用这种转换,可获显著效果。限于篇幅,我们略去了计算的中间数据和经SVD处理后(包括将维数减为2个)结果(注:我们使用的工具是Excel的“数据分析”和国际牲畜研究院Greg Hood所编制的,可在Excel上运转的Poptools2.4版。),只报告几个有意义的变化,这些变化说明,由于减少了维数,几种学习者的言语失误的关系都有所微调,趋于更为合理。例如第一种失误是拼写失误(Fml)。转换值并没有改变原来的次序,大学英语4级和6级学习者的拼写失误比中学学习者略多,因为它们的语源来自CET考试的命题写作,而中学生则是自由作文的居多。命题写作有特定的用词要求,往往成为拼写失误的来源(如要求学习者用pollution)。现在的分析并没有把特定用词要求考虑在里面,而仅就失误的频数和其他失误的关系而言,经过SVD处理后,这种失误的发生率呈现为逐步略有降低的趋势,较符合中国英语学习者的实际。和写作用词有很大联系的是用错了词(wd3),经过SVD处理后的变化如下:
Fm1 St2 St3 St4 St5 St6
原始频数 1929 2877 2113 1827 1687
转换值 3.30 3.47 3.34 3.27 3.24
处理后值 3.52 3.46 3.36 3.25 3.00
Wd3 St2 St3 St4 St5 St6
原始频数 1102 1635 1815 757 360
转换值 3.27 3.45 3.50 3.09 2.75
处理后值 3.30 3.49 3.44 2.99 2.84
经处理后,St3仍然是最高的,但St4的绝对频数虽然是最高的,处理后则比St3略低。St6的绝对频数比St5的少一半,但处理后的值为2.84并没有比2.99少一半,仅低0.15倍,这说明用错词在St6中仍然是一个常犯的失误。句法结构(Sn8)的失误也是中国学习者常见的失误,下面是另一个SVD处理后的变化:
Sn8 St2 St3 St4 St5 St6
原始频数 1104 446 862 493 232
转换值 3.27 2.85 3.16 2.90 2.55
处理后值 3.14 3.06 2.97 2.90 2.68
从绝对频数来看,St3似乎比St2和St4、St5都少,处理后则显得较为合理,趋于逐步降低。
一般来说,在SVD处理后还可以比较处理前后的余弦cosine(θ)(注:余弦Cosine(θ)为两个向量的夹角,比相关系数更能表示相似性的程度。其公式为:),有时亦用相关系数来表示。经过计算,相关系数从处理前的0.604增至0.728。拼写失误是中国学习者最容易犯的失误,和各种失误都有密切的关系。经处理后,它的平均相关系数从0.614提高到0.817。
4.LSA的应用
LSA以矩阵代数的SVD为依托,而SVD在信息处理,如图象压缩、噪音过滤、开发软件的源代码等方面都得到较广泛的使用。LSA在语篇处理和语义的分析和提取方面均有广阔应用前景。
第一、我们要看LSA模型是怎样回答我们柏拉图问题。需要证明的是通过大量接触自然文本,人们能否获得语义相似性的知识?Landauer等人先对一个有代表性的英语语料库(包括美联社的新闻、给学生看的Grolier's美国大百科词典和有代表性的儿童读物)做SVD分析,然后用这个模型来做一次TOEFL同义词测试(共80个项目)。为了模拟人的行为,他们把题目中的测试词和每个选项的余弦都计算出来,然后让LSA模型来选择意义最接近的词。LSA的答对率为65%,相当于在美国的来自非英语国家的考生的平均答对率。但是要进一步回答儿童怎样在“负面的证据”的情况下习得词汇,还要考虑效率问题。Landauer等人认为,归纳方法取决于重建一个处于高维数空间的多重相似性系统,这样出现在局部上下文的事件也就可以反映高层次语义空间的相似性。因为四分之三的词语知识都是来自间接归纳,即接触一些那些词语并不在其中出现的文本。他们进一步完善其语料库的选词办法,并对照Carroll等人的Word Frequency Book(1971)所提供的数据,推断出每一段文本后的词汇增长率为0.20。如果一般学生每天平均读50段文字,就可每天增长10个新词。
第二、在信息提取方面,出现了LSI技术,以取代一般的主题词检索。早在80年代,Dumais等人(1982)对一个包括有1033个医学文献的摘要和题目的数据库,自动检索到出现两次以上的词语5823个,经过SVD处理取得100个因子,然后对数据库提出30个问题,LSI比原来的主题词检索改善了13%。后来技术有所提高,据Berry等人(1994)对几个系统的检验,LSI的改善程度已达30%。Deerwester等人(1990)认为,LSI的优点是,它可以解决同义性、多义性和词语依赖性(term dependency)三方面的问题。LSI的研究还在发展,一些令人兴奋的进展是信息过滤、增加检索问题的长度(TREC系统可以提出长达50个词的问题来进行检索)和进行跨语种检索(Rosario 2000)。
第三、文本相似性研究。在语篇理解方面,Foltz,Kintsch和Landauer(1993)等人用LSA来自动化处理语篇连贯(以心脏科学文献为试验样本),把一个句子或片段和接着的句子或片段的连贯性来分析比较,其相关系数高达.90。在他们所建立的网站http://LSA.colorado.edu上面提供了一些已经根据心理学、百科全书、文学成语、心脏科学的语料库给读者进行网上比较文本相似性研究。例如我们随机从一本认知心理学教科书里找了两段在词语上没有多大联系的话:
"These findings indicate a considerable degree of functional equivalence of
perception
and imagery.However,it is possible that subjects in the imagery condition merely
made
plausible guesses about the fields of resolution,and did not actually rely on
imagery
at a11."
"While it is very straightforward to see that previous learning can facilitate
problem
solving by supplying well-practiced skills and strategies,it is perhaps less obvious that knowledge acquired
in the past can sometimes disrupt,and interfere with,subsequent attempts to solve
problems."
这两段话在用词方面没有太多相同之处,但是和心理学语料库的维数比较以后,它们的相关是.82。
第四、使用LSA来进行写作质量评估。Landauer,Laham和Foltz(1998)试验使用5种不同的方法来应用LSA对作文题目的答案进行评分,如让评分员对一些作文样本进行评分,然后计算出评了分的作文和未评分的作文的余弦,再根据相似性权重把最相似的作文分数的平均分赋予未评分的作文,等等。这5种方法所评出的分数的相关程度接近于它们和专家评分的相关程度。在另一项研究中,他们还用这方法来评估8个考试,题目从心脏解剖和生理学到心理学概念,美国历史,当前社会问题和市场问题。通过元分析发现LSA和专业评分员(来自教育考试服务公司或其他专业机构或课程导师)的相关高于专业评分员之间的相关。LSA评分的可靠性说明一个篇章的全面的语义表征主要决定于词的选择,而对句法使用则要求不高。
第五、使用LSA来模拟心理语言学试验。语义启动是一种常用的试验,Landauer用LSA方法来模拟Till等人(1988)的判断多义词的试验,结果完全一致。这些结果显示在语篇理解中,忽略了词序、句子结构、非线性的词与词的相互作用的词义关系也能够预测人类的行为。Kintsch等人(1999)还通过LSA所获得的信息提出长时工作记忆(Long-term Working Memory,LTWM)的理论。他认为人类的记忆系统包括了感知特征、语言特征、命题结构、宏结构、语境模型、控制结构、目标、词汇知识、框架、一般知识、情节记忆等等成分。它们对理解语篇至为重要,远远超过短时记忆。LTWM认为在某些条件下工作记忆可以大大延伸,LSA在某种程度模拟了这种机制,实际上也模拟了人类的知识系统。大部分人类知识都体现为语言,而LSA通过减少维数来筛选它所处理的信息,从而保留了它所处理的文本的主要语义关系。例如在LSA处理的文件中,mountain和mountains的相关系数可能很低,但是通过减少维数后,它们的相关却是.81。它的推断是这两个词在语义上有密切联系。同样地,围绕mountain还可以找到peaks,rugged,ridges和climber,而围绕mountains又可以找到peaks,rugged,plateaus和foothills。我们所需要的正是这些信息,以认识人们在理解过程中是怎样通过LTWM来激活知识的。又如"The band played a waltz."(乐队奏了一曲华尔兹)和"Mary loved to dance." (玛丽喜欢跳舞)这两句话虽然无甚直接联系,但它们都分别激活了一些第三方的互有联系的语词,故其余弦为.45。
第六、在LSA的基础上,Kintsch等(2000)及Steinhart(2001)又开发了训练学生写作的软件。这个软件是一个在线的辅导学生写摘要的软件,叫做Summary Street。Steinhart认为,写摘要是一种比较难的技能,低年级学生(如初中生)往往依靠“抄和减”的策略来写摘要,而高年级的学生(如高中生)则使用较复杂的压缩规则,如重建和归纳。写摘要训练不仅仅是一种写作技巧的训练,它可以提高学生的阅读理解、获取知识和思维能力。这个软件首先让学生看一些文章如能源科学、古代文明、血液循环系统等,然后提出写摘要的一些要求,如找出主题句、找出支持主题句的两三个重要思想和细节,把它们组成一句话,用一个概括性的词语来代替具体的项目和事件,避免烦琐的信息和细节,避免重复信息等等。学生根据这些要求把阅读的文章写成摘要,在网上输入到Summary Street系统里,系统就能分析摘要,告诉学生摘要在多大程度上反映原文,长度是否合乎要求,等等。学生可以通过系统提供的反馈信息(包括指出拼写错误和用词不当,信息覆盖面是否足够等),不断改写摘要。他在Boulder县中学试验的结果说明,运用Summary Street训练学生所写出的摘要比使用传统的文字处理器写出的摘要要好,特别是处理难度比较大的文章更是如此。
5.启发和问题
LSA直逼哲学上的认识论问题,却又开拓了广阔的应用前景,惹人深思。一是人们认识世界从意义开始,语篇里隐含着许多错综复杂的语义关系,是了解语义的钥匙。二是现代科学技术为建立、储存和提取包括了大量语篇的语料库创造了条件,也为人们认识这些错综复杂的语义关系创造了条件,使我们有可能解决许多与文本有关的问题。三是认识问题的一个有效途径是减少维数,提高概括力。和维数匹配的归纳可以大大改善知识的提取和表征。四是LSA要解决的语篇中的语义关系,它既依赖于计算机技术,又利用了奇异值分解的线性代数模型,充分体现了文理互相渗透的特点。
但是LSA也留下了一些有待我们继续探索的问题。最主要的是它只考虑语词,而不考虑句法信息,甚至不考虑词序的信息。而且它完全依赖于数学模型,所得到的结果有时不好解释。
【参考文献】
1 Berry,M.,S.Dumais,& G.O'Brien[M].1994.Using linear algebra for Intelligent Information Retrieval [M].Boston:
Houghton
Mifflin Company.
2 Carroll,J.,et al.1971.Word Frequency Book.Houghton Mifflin Company & American
Heritage
Publishing Co.,Inc.
3 Chomsky,N.1965.Aspects of the Theory of Syntax [M].Cambridge,MA:
MIT Press.
4 Chomsky,N.1986.Knowledge of language:Its nature,origin,and use [M].
Westport:
Greenwood
Publishing Group.
5 Chomsky,N.2000.New horizons in the study of language and mind[M].Cambridge:Cambridge University Press.
6 Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,& R.Harshman.1990.Indexing by latent
semantic analysis [J]
.Journal of the American Society for Information Science 41:391-407.
7 Dumais,S.et al.1982.Using semantic analysis to improve access to textual
information [J].Machine Studies 17:87-107.
8 Foltz,P.W.,W.Kintsch & T.K.Landauer.1993 (Jan). An analysis of textual coherence
using Latent Semantic Indexing [A].Paper presented at the meeting of the Society
for Text and Discourse,Jackson,WY.
9 Geoffrey sampson.2001.Empirical Linguistics [M].London:Continuum.
10 Graesser,A.1981.Prose Comprehension beyond the word [M].New York:Springer.
11 Kintsch,W.,D.Steinhart,G.Stahl & LSA Research Group.2000. Developing summarization
skills through the use of LSA-Based Feedback [J].Interactive learning environments 8 (2):87-109.
12 Kintsch,W.1988.The role of knowledge in discourse comprehension:A construction-integration model [J].Psychological Review 95:163-182.
13 Kintsch,W.1998.Comprehension [M].Cambridge University Press:86-91.
14 Kintsch,W.,L.Vimla,K.Patel & A.Ericsson.1999.The role of long-term working memory in text comprehension [J].Psychologia 42:186-198.
15 Landauer,T.& S.Dumais.1997.A solution to Plato's problem:The Latent Semantic
Analysis theory of the acquisition,induction,and representation of knowledge
[J].Psychological Review 104:211-240.
16 Landauer,T.K.,D.Laham & P.W.Foltz.1998.Computer-based grading of the conceptual content of essays.Unpublished manuscript.
17 Landauer,T.,P.W.Foltz & D.Lanham.1998 An introduction to latent semantic
analysis [J]. Discourse Processes 25:259-284.
18 Maletic,J.et al.1999.14[th]IEEE ASE'99 [A].Cocoa Beach FL.12-15[th][C].pp.251-254.
19 Osgood,C 1971.Exploration in semantic space:A personal diary [J].Journal of Social
Issues 27:5-64.
20 Pinker.1994.The Language Instinct.[M].New York:William
Morrow Company,Inc.
21 Rosario,B.2000.Latent Semantic Indexing:An overview
[A].INFOSYS
240 Spring 2000.
22 Shepard,R.1987.Towards a universal law of generalization
for psychological
science [J].Science 237:1317-1323.
23 Steinhart,D.2001.Summary Street:an intelligent tutoring system
for improving student writing through
the use of latent semantic analysis [D].Unpublished doctoral
dissertation,Institute of Cognitive
Science,University of Colorado,Boulder.
24 Till,R,E.Mross & W.Kintsch.1988.Time course of priming for
associate and inference
words in discourse
context [J].Memory and Cognition 16:283-299.
25 van Dijk,T.,& W.Kintsch.1983.Strategies of discourse
comprehension
[M].New York:Academic Press.
26 桂诗春,2000,《新编心理语言学》[M]。上海:上海外语教育出版社,308-329。