HTML文件的文本信息预处理技术探讨

(整期优先)网络出版时间:2019-11-22
/ 2

HTML文件的文本信息预处理技术探讨

李武华

广州市汇源通信建设监理有限公司广东省广州市510000

摘要:本文对HTML文件标准进行介绍,进而就HTML文件的文本信息预处理技术具体的应用策略进行探讨,希望通过这一技术的合理应用,促进项目文本结构组成的有效解析,从HTML文件文本中提炼主体文本,发挥该文本的应用价值。

关键词:HTML文件;树形结构;预处理技术

前言

大数据时代下,在海量信息当中,文本信息在其中占据很大比重,针对文本信息的文件存放与处理,可采用HTML的格式进行,而这些文本信息中还可能掺入格式信息、媒体信息与画面信息等,而这些信息的存在,并不利于进行文本信息的处理与理解,因此就需要通过预处理的方式实现信息过滤。

1.HTML技术标准

HTML文件格式是网络上最为常用的一种文件格式之一,对于HTML格式文件进行合理处理,便于网络信息内容的呈现。所谓HTML标准,就是一种超文本标记语言,以通用标记语言为基础而形成的文档信息处理系统,其基本理念在于通过对标记进行描述以实现文档结构附加信息的获取。HTML格式利用通用标记语言进行一定标记的定义,以实现对文档显示格式与显示方式的描述。HTML文件语法所涵盖的内容包括四方面,即实体、元素、属性与注释。

其中,实体就是通过数字及符号的形式对HTML文档字符加以表述,可以表现常规情况下无法加以键入的信息与字符,或者某些与HTML特定字符之间存在冲突的字符,具体表示形式通常以“&”为起始,以“;”为结尾。

元素即用以代表文档结构,通常每个元素的组成部分包括三方面,即开始标记,表示为<element-name>、元素内容可以表示为element-name,结束标记可以表示为</element-name>。HTML文件中,部分元素可以不具备结束标记,部分元素可以不具备内容与结束标记。

属性即HTML文件中元素特性的体现,其具体表现形式为“属性=值”,可应用于元素开始标记当中。元素的开始标记中可包含多属性,不同属性之间可以通过空格进行区隔。

注释是“<--”“-->”之间用以提高HTML文档可读性的重要元素,注释在HTML文件中的应用,并不会影响文档结构。

2.HTML文件预处理方法

HTML文件主体文本的选取,可以通过HTML文件处理的方式加以实现。HTML文件中的主体文本就是该文件所显示的最为主要的内容,以新闻网页为例,其主体文本内容包括标题内容与正文内容等,其余的广告信息与关联链接等则并非主体文本,针对主体文本以外的内容,在进行HTML文件预处理时,应对非文本信息进行过滤。进行HTML文件处理时,应充分考量文件数据结构及文件主体文本选取方法两方面问题。

2.1HTML文件的规整化

通常来说,HTML文件中,文件元素之间相互嵌套,因此可采用树形结构的方式进行文件组织。但在HTML文件中,相关文件元素并非全部属于递归嵌套,针对这种问题,就需要在进行树形结构的文件组织优化调整之前,合理规整HTML文件的内部元素,确保所有文件元素都处于递归嵌套的情况下,才能够利用树形结构组织。对于HTML文件进行规整化的具体过程加以明确,以充分发挥HTML文件结构的应有价值。

2.1.1生成HTML链

HTML文件可以通过开始标记、结束标记、文件文本与注释序列的方式进行表示,具体可表示为以下形式:

HTML文件:=(开始标记|结束标记|文本|注释)*

进行HTML文件存放时,可通过链表结构加以表示,这种链表被称作HTML链,其具体节点应进行有效定义,应就结点类型、开始与结束标记等相关信息进行合理定义。HTML注释的应用,并不会对及HTML文件文本的处理产生大的影响,因此在进行HTML链的处理时,无需包含具体的注释内容。

2.1.2HTML标记配对

在HTML文件中,按照是否具备结束标记的标准进行文件元素类型的划分,具体可将其分成三种类型,即包含结束标记的一类元素,不需要具备结束标记的二类元素,无所谓是否包含结束标记的三类元素。在HTML文件中,标记配对的目标在于,若在HTML链中就存在element元素的开始标记的情况下,确保元素文件的结束标记也存在于HTML链当中[1]。

2.1.3消除交叉元素

如上所述,在HTML文件中可以存在交叉元素,比如<element1><element2></element1></element2>。类似这种交叉元素的存在,应当在HTML文件预处理时加以消除,可将存在交叉结束标记的元素在具体结束标记的位置分裂为相同元素,比如在结束标记</element1>处,将元素element2分开,将开始标记与结束标记增加于</element1>的前后,促使交叉元素的转化,使之成<element1><element2></element2></element1><element2></element2>的形式。

通过对栈s进行合理定义,在实际标记中充分利用s进行出栈及入栈,以确保具体操作得以实现。出于满足描述需求的考量,应进行合理定义。出于便于说明的考量,应对element元素的开始标记定义为S(element),将element元素的结束标记定义为E(element)。

2.2HTML文件数据结构

采用HTML标记配对与交叉元素的合理消除,实现HTML链相关元素的递归嵌套,以促进HTML树形结构的转化,为后续操作提供方便,进行HTML树形结构节点合理定义。

在进行HTML树形结构的构造时,应首先进行根节点打造,从文本串开始进行逐步扫描,进行后续标签的获取。这一过程中,如果获取起始标签,进而进一步向后扫描与搜索,形成相应的而技术标签。起始标签与结束标签之间的HTML文件内容为S1,从HTML文件根节点入手进行Node子节点的构造,将该子节点作为子结构根节点进行HTML文件内容的分析,通过递归方式实现HTML树形结构的合理构造。

2.3HTML文件中的主体文件

对于HTML文件中主体内容的识别与合理选取,应首先分析HTML文件的结构布局,明确HTML文件所具备的规律性特征。通常来说,网页批量生成的情况下,许多大型网站会在数据库中存储网页内容,进而以模板为主要形式进行页面存放。通过客户端进行网页访问时,通过服务器读取数据库内容,键入网页内容,并针对页面内容进行键入并读取,可进行网站模板的分析,以明确网站页面实际布局,分析常规网站,以获取HTML页面规律。

3.研究结果

出于对以上分析结果是否准确加以判断的考量,通过实验研究的形式进行验证与讨论。在具体实验研究当中,采用某信息检索网站进行网页处理,进行了30万以上网页信息的预处理,在完成处理工作的网页当中随机提取千份样本进行针对性研究与检验,其中只有一个网页存在主体内容错误提取的问题,而导致这种错误问题的主要原因在于,网页信息广告栏文字信息内容远远超过网页主体信息内容,从而导致实验程序将广告文本信息作为主体文本信息[2]。

结语

HTML格式是一种应用范围最广的格式类型,进行HTML格式文件的预处理,可以更好地对文件组成结构进行解析,更好地提炼主体文本,或获取HTML文件中的其他元素。

参考文献

[1]杨海亮,徐用吉.提取方正排版文件广义元数据并生成全文HTML的探索[J].中国科技期刊研究,2016,27(02):202-206.

[2]杜戎平.用Java语言实现Excel表格数据到HTML表格数据的转换[J].电脑编程技巧与维护,2014(23):62-64.