关于著作权保护论文范文资料与文本和数据挖掘技术（TDM）和著作权保护有关论文参考文献-论文写作网

《文本和数据挖掘技术（TDM）和著作权保护》：关于免费著作权保护论文范文在这里免费下载与阅读,为您的著作权保护相关论文写作提供资料。

摘要：生活在一个信息化的“大数据”时代下的我们,习惯性得使用互联网包括关键词搜索、资料搜集、数据库检索、馆藏电子图书阅读等基于文本和数据挖掘技术（TDM）所衍生出来的各类功能.本文将从TDM的基本定义出发,讨论该技术在生活中大规模适用的实用价值背后所潜藏的著作权法律风险,并就国外与我国针对该技术的立法现状做一定分析,并提出一些个人观点.

关键词：文本和数据挖掘；著作权保护；合理使用；版权例外

一、TDM的定义

TDM,Text and Data Ming,也被称做Content Mining,是一种基于计算机数据处理技术对数字化的数据进行处理并提取隐含信息的过程.学界中对于其定义有诸多讨论.

1.我国学者定义

郝文江（2007）认为,文本和数据挖掘（TDM）,是指通过运用自动分析技术对现有的文本和数据进行考察分析,以便从中发现某种模型、趋势或其他有用信息.化柏林（2008）认为,数据挖掘是指从大量的、不完全的、模糊的、随机的应用数据中,提取隐含在其中的但又是潜在有用的信息和知识的过程.宋海艳、邵承瑾等（2014）认为数据挖掘只是知识发现阶段即从数据集中提取信息阶段的一个关键环节,整个知识发现阶段应当包括数据准备阶段、数据挖掘阶段以及结果解释与评价阶段.

2.国际上典型的定义

更为明确的定义可以在英国知识产权办公室（UK IPO）2012年针对TDM做的一项影响分析中找到,“文本和数据以及数据分析方法是从现有的电子信息中提取数据,建立新的事实和关系,以从先前的研究中建立新的科学发现.这种方式包括复制已完成的工作成果,作为提取数据过程的一部分.”国际科学、技术和医学出版商协会（STM）认为,“文本和数据挖掘意味着对发布者的内容进行广泛的自动化的搜索,其包括对语言结构的排序、分析、增补或删除以及选择和包含,常在行业索引或者数据库中用于分类或识别关系.”

Jean-Paul Triaille et al （2014）的报告中将TDM称做数据分析（Data Analysis,DA）,认为这是一种对于数字材料的自动化处理,包括文本、数据、声音、图像或其他元素,或这些元素的组合,以便发现新的知识或见解.这个过程有四个特点：①具有自动性：是电脑对于选择的电子数据进行自动获取的过程（他们认为正是这种区别于人为选择的技术性特征使得TDM功能强大且引发了新的版权问题）；②数据经过处理：包括提取、复制、比较、分类以及其他数据分析过程；③对象是数字化材料,包括文本、数据、图片及其他元素；④是为了发现新知识或启示.

由上可知,生活中我们所进行的数据检索工作、数据库使用过程,数字图书馆馆藏图书阅读等操作,都是在TDM或DA的基础上,对我们所选择的数据进行处理后所呈现的成果.

二、TDM的应用和价值

当前,TDM技术在多个领域都展现出极强的实用价值.出版研究联盟针对期刊文本挖掘技术适用的一项调查（2016）表明,文本和数据挖掘技术正在被人们所认知和接受,人们普遍认为该技术能够對每一个领域的研究人员产生积极的作用.李钢（2016）提出,在商业领域,商家解决信息不对称问题的传统方式是依赖统计数据推测消费者偏好,而文本挖掘通过自然语言分析使商家能够直接了解消费者对产品的喜好,并对其市场策略做出相应的调整.孟庆良、展俊平（2014）在一项医学研究中运用TDM技术,得出结论,认为TDM技术能够为中西医结合研究提供更直观的展示,为中医临床研究提供有益参考,更好地指导服务于临床.郭金龙、许鑫（2012）从TDM在数字人文研究中的典型应用出发,指出TDM技术的发展将对创新人文科学的研究方法和研究范式产生深远的影响.

综上而言,TDM技术可以被视为广义上的一种利用“大数据”的网络背景,对现有的电子化文本和数据进行挖掘,处理并提炼出有用信息的过程,其具有知识发现、运用广泛、商业潜力巨大的特点.

三、TDM与著作权保护的冲突

全球研究界每年将产生150多万篇新的学术文章,这些文章以及其他类似文学、技术、科学作品经过发表和数据化处理之后,就形成了一个极为庞大的全球性的文献数据库.由于访问限制等原因,文章的数据会被分类储存到不同的载体或者电子馆藏图书馆中.但是TDM技术在一定程度上可以突破访问壁垒,在将所能提取到的数据整合后,呈献给访问者一种可视化的数据分析后的成果.其结果可能是根据关键词导出的段落化的文献,根据信息搜索出的碎片化的数据信息,或者根据图片分类检索功能产生的图片映像等形式.

大致来说,TDM的应用过程可以分为大致几个阶段：

（1）数据源的获取：将所需要的内容从外部来源或内部自有数据中提取出来,该内容可能是受到版权保护或者是数据库通过一定的技术手段进行防护的；

（2）转化内容：必要时,将提取出的内容转化为所需要的形式；

（3）加载内容：将需要的内容加载到数据集、存储库或者内容集合中；

（4）数据分析：对内容数据进行挖掘并分析；

（5）成果展现：通过分析产生挖掘后的结果.

在这五个阶段之中,无论是对于数据的获取或者转化、复制、重新加载以及分析,都会在一定程度上触碰到法律的边界.

I.Hargrees （2011）在其研究中肯定了TDM的价值,认为对学术文献和其他数字化的文本进行挖掘和分析为新知识的发展和创新提供了一个真正的机会.但Dr. Diane McDonald & Ursula Kelly（2012）指出,为了“被挖掘”,上述数据必须被访问、复制、分析、注释并与现存的信息和理解所关联,这在一定程度上,侵犯了出版商的利益.

对于这样一种使用价值巨大、前景良好的技术来说,其还需要克服一些法律法规上的壁垒,尤其是在数据处理过程中所发生的,对数据进行复制、分析、时的自主技术性操作和著作权法中为了保护版权所赋予权利人的权利价值之间,所产生的实践价值和法律价值的冲突选择.

著作权保护论文参考资料：

结论：文本和数据挖掘技术（TDM）和著作权保护为关于本文可作为相关专业著作权保护论文写作研究的大学硕士与本科毕业论文著作权保护论文开题报告范文和职称论文参考文献资料。