简介:随着信息化的持续深入发展,大多数组织内部都有由过去遗留下来的许多分布、自治、异构的应用系统,大家都迫切期望能够实现不同类型、内容和格式的数据相互转换。类型转换将数据表达式从一种类型转换成另外一种类型,SELECT列表、WHERE子句以及允许引用表达式的任何地方都有可能需要进行类型转换。并不是所有的数据类型之间都可以进行数据转换,比如在SYBASE数据库下不能在DATETIME和1NT之间进行类型转换。根据数据类型之间是否能自动执行数据类型的转换,又分为显式类型转换和隐式类型转换。显式类型转换是指数据类型之间不能自动执行数据类型的转换,必须使用系统内部转换函数来显式地请求转换成其他数据类型。隐式类型转换是指数据库系统能够根据需要自动执行数据类型的转换,比如比较字符串表达式和日期表达式,或者比较整数表达式和长整数表达式,或者比较具有不同长度的字符串表达式,系统就会自动将一种类型转换成另外一种数据类型。在进行数据转换处理时还会遇到根据条件分支选择进行内容转换,就是根据输入的值和某种匹配规则来计算所有输出的值。不同的数据库平台支持条件分支选择的方式也不同,比如在SYBASE中用CASE语句,而在ORACLE中却使用DECODE函数。内容转换函数DECODE是按照值进行替换,TRANSLATE函数则是按照顺序逐个替换每位字符,最后实现了简单的密码机制。如果数据库不支持条件分支选择内容转换,则需要重复多次使用WHERE语句来处理。
简介:传统针对文本数据的分析,往往基于词频、词频逆文本统计量作为文本的表示特征.这类方法往往只反映了文本的部分信息,忽略了文本的内在语义特征.本文研究了中文词语衔接的概率语言模型,其基本思想在于根据文本中词语出现的先后顺序进行建模分析,该模型在短文本数据挖掘中能够很好地针对文本语义进行量化分析.主要解决两类问题:一、如何合理地将中文词转化为数字向量,并且保证中文近义词在数字空间特征上的相似性;二、如何建立恰当的向量空间,将中文文本的语义和结构特征等信息保留在向量空间中.最后结合某城市房屋管理部门留言板的实际留言文本数据,利用BP神经网络和RNN网络两种算法,实现概率语言模型的求解.与传统文本处理方法的对比说明,本文的模型方法针对短文本语义挖掘问题具有一定的优势性.