分类筛选
分类筛选:

关于自然语言论文范文资料 与基于XBRL自然语言语句形式化标注有关论文参考文献

版权:原创标记原创 主题:自然语言范文 科目:毕业论文 2024-03-16

《基于XBRL自然语言语句形式化标注》:该文是关于自然语言论文范文,为你的论文写作提供相关论文资料参考。

【摘 要】 为了提高机器对自然语言的理解能力,以语义形式化为切入点,研究了基于可扩展商业报告语言(XBRL)的自然语言语句的形式化标注问题.研究表明,自然语言句子的语义表达模式灵活多样,其语义需要分别从词汇意义、语法意义、其他意义等方面加以理解; XBRL的技术体系结构具有可扩展性,通过扩充基础规范,重构分类标准,增加新元素,基于XBRL技术可对自然语言的语句进行形式化标记,进而提高机器对自然语言的理解能力.

【关键词】 自然语言语句; 形式化标注; XBRL

【中图分类号】 H102 【文献标识码】 A 【文章编号】 1004-5937(2017)24-0070-04

当今社会已进入大数据时代,大数据及其应用将会引起人类社会的又一次革命[1].大数据具有容量大(Volume)、种类多(Variety)、流动速度高(Velocity)、真伪混杂性(Veracity)等特征,是使用常规的工具难以处理的数据集合[2].之所以难以用常规的工具处理大数据,主要是因为大数据中含有大量的非结构化数据,而非结构化数据中相当大的一部分是来自于社交媒体的自然语言[3].长期以来,人们试图让计算机等智能设备代替人类理解并处理自然语言,但实践证明,由于存在语言现象无限而可利用的計算资源有限的矛盾,自然语言是一种难以用机器理解的语言[4-5].而语言标注是一种对语言数据进行识别、选择和归类的工作,既能将语言数据中隐藏的意义显式地表现出来,也能按照不同的使用需求对语言数据进行标准化处理,有助于将自然语言转换为易于机器理解的数据[6].被誉为互联网女皇的玛丽·艾克在《2014年互联网趋势报告》中提出,从2014年开始,应用大数据解决各类问题的趋势将显现,但现有的通用数据中有34%的信息具备研究价值,其中只有7%的数据被做了标注,被分析过的只有1%[7].由此可见,为了便于对大数据进行分析使用,数据标注具有重要的作用.XBRL是适用于商业报告领域的一种国际化的标注语言,目前已在多个国家的金融监管、财政监管和税务监管领域得到应用[8].如果能用XBRL标注自然语言,这将为提高其在机器智能领域中的可用性创造非常有利的条件.本文的贡献在于以语义形式化为突破点,提出了改进自然语言语句可用性的方法,并用扩展的XBRL作为标记语言,将有助于推动自然语言在计算机智能领域中的应用.

一、自然语言语句的语义组成

自然语言主要由句子构成.语言学研究认为,语义是语言的意义内容,它是客观现实地在人的意识中的反映.鉴于自然语言语句的语序灵活,依据传统的依存树投射现象原理不能解决某些句式的语义理解问题[9-10],本文拟从语义分解与组合的视角出发研究自然语言语句的形式化标注问题.

本文的研究前提是句子的基本语义可分为词汇意义、语法意义和其他意义三大类,这三大类语义组合起来可以完整地反映句子的含义;同时总可以找到不同的标注元素组合来表示各种自然语言语句的语义,标注方式(标注元素及其组合)与语句语义可以实现一一对应的关系.

(一)词汇意义

词汇是自然语言的建筑材料,由词和熟语组成[11].词是音义结合的、语法上定型的、能独立运用的最小语言单位.熟语作为常用固定组合,语音和谐,语义结合紧密,是语言中独立运用的词汇单位.无论是词还是熟语,都有一定的意义,统称为词汇意义.词汇意义是对客观现实抽象、概括的反映,一个词汇意义概括一类现象.

(二)语法意义

语法是语言的组织规律,是人类思维长期思考的结果.语法用来组织语言中的词汇单位,是语言的“建筑法”.语法意义是指用词造句时产生的词与词之间的关系[12],包括三种基本类型:(1)语法范畴意义,如性、数、格、时、人称、体、态等用一定的语法形式①表达的各种语言*有的意义;(2)语*能意义,如主语、谓语、定语等句子成分意义;(3)句法结构意义,如陈述句、疑问句、祈使句等句型意义以及变式句、省略句等句型转换意义.

(三)其他意义

其他意义是指除了词语意义和语法意义以外,一个语句可能具有的其他语义,包括修辞意义、语境意义等.修辞意义是指通过采用特别的语言手段而使句子所体现出的感*彩、语体色彩、联想色彩等[13];其中感*彩反映人们对客观现实的主观评价和态度,语体色彩是指语言使用随环境而异产生出的书卷语体、谈话语体、艺术语体和科学语体等一系列使用语言材料的特点,联想色彩是从词汇意义的联想而产生的预示或者氛围的语言使用技巧.语境意义包括上下文意义和社会文化意义两种;上下文意义是指一些语言单位在具体的言语环境下所具有的特别意义,社会文化意义则指一些语言单位的含义与社会文化背景有关.语境意义在使用语言时产生,附着在语言材料之上,受言语环境制约.

二、自然语言语句的语义形式化方法

由于自然语言语句在使用中容易产生歧义现象[14],所以要进行快速准确处理,必须首先把自然语言语句所蕴涵的语义采用形式化的方法加以描述,其次用适当的标记语言把这种描述标记成为计算机可以识别的数据,然后通过特定的程序让计算机处理这些标记数据,最终实现提高自然语言可用性的目标[15].自然语言语句语义表达形式化的目标是对不同的句子语义用不同的标注元素组合描述,使标注方式(包括标注元素及其组合)与句子的具体语义一一对应起来.

(一)词汇意义的形式化

所谓词汇意义的形式化是指用不同的标注元素组合表示不同的词汇意义,使两者之间具有一一对应的关系.句子所使用的词汇包括实词和虚词两大类,实词的意义能够独立表达,虚词的意义不能独立表达,需和实词结合起来表达[16].无论是由实词还是由实词与虚词组合而成的词汇,从其所代表的意义来看,可分为单义词和多义词两种类型.单义词容易满足语义与描述方式一一对应的原则,多义词不符合这种原则,需要借助于多义词在句子中所具有语法意义和修辞意义来联合描述其语义,实现一一对应的形式化要求.

自然语言论文参考资料:

自然杂志订阅

自然辩证法结课论文

语言教学和杂志

自然指数期刊

自然杂志

人和自然杂志

结论:基于XBRL自然语言语句形式化标注为关于自然语言方面的论文题目、论文提纲、数学自然语言论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

和你相关的