关于网络数据论文范文资料与基于Scrapy农业网络数据爬取有关论文参考文献-论文写作网

《基于Scrapy农业网络数据爬取》：本论文为您写网络数据毕业论文范文和职称论文提供相关论文参考文献，可免费下载。

摘要：准确、及时、高效地获取农业数据是全产业链农业信息分析预警工作的前提和基础,是提升农业信息分析预警专业化和规范化水平的关键.本研究针对互联网中存在的大量农业信息数据,以玉米价格数据为例,设计数据抓取和规范化存储策略,首先基于Scrapy框架建立对网页的请求响应,分析网页布局后对关键信息进行循环抓取,并利用正则表达式将抓取的信息提取为格式化数据,然后将数据本地化存储为Microsoft Excel表格或存储至数据库中,最后利用Echarts将数据以可视化的方式在Web端展示,从而实现对农业网络数据的挖掘和利用.

关键词：Scrapy；爬虫；网络数据；数据挖掘；玉米价格

中图分类号： S126 文献标识号：A文章编号：1001-4942（2018）01-0142-06

Abstract Accurate, timely and efficient access to agricultural data is the prerequisite and basis for analysis and early warning of agricultural informations in the whole industry chain. It is the key to enhancing the professionalization and standardization of agricultural information analysis and early warning. With the maize price as an example, the research focused on large amounts of agricultural informations on the Internet and developed data crawling and normalized storage strategies. Firstly, we created request & response to the web pages based on Scrapy framework, analyzed the web page layout and then crawled the key informations cyclically；the data were extracted into formatted data using regular expressions, and then were stored as the localized data in a Microsoft Excel spreadsheet or in a database. Finally, Echarts was used to visualize the data on the Web, and thus the mining and utilization of agricultural network data were realized.

Keywords Scrapy； Crawler； Network data； Data mining； Maize price

随着大数据技术的发展,农业大数据的开发和利用逐渐成为当前研究的热点.农业大数据来源于农业生产、农业经济、农业流通、农业科技等各个方面,来源广,类型多,结构复杂,具有潜在应用价值.数据来源不同,其获取技术不同,目前农业大数据获取主要包括：农业生产环境数据采集、生命信息智能感知、农田变量信息快速采集、农业遥感数据获取、农产品市场经济数据采集、农业网络数据抓取等[1].在“互联网+农业”的发展形势下,农业网络数据已成为农业大数据的重要组成部分,但由于其数据格式复杂多样,不利于快速统计分析,多仅是对数据的粗略展示,因此,如何有效统一农业网络数据格式,进一步挖掘数据的深层价值,成为当前大数据技术研究的重点.

农产品市场价格信息对于分析农产品市场行情变化,预测其价格走势,降低交易风险,增加收益,具有重要意义.目前,网络上的农产品价格数据,一般是由特定工作人员采集市场价格信息后通过移动终端上报各农业服务机构,再由农业服务机构发布到网上[2,3],对农产品交易具有一定的指导意义.但由于各服务机构发布的数据格式不统一,不利于对相关数据的进一步挖掘分析,限制了其利用价值.利用爬虫技术从网络中以一定的规则采集数据,并统一格式存储,为进一步挖掘网络数据应用价值奠定了基础[4-7].

网络爬虫（web crawler）也叫网络蜘蛛（web spider）,是实现自动浏览网页和网页数据抓取的计算机应用程序.Scrapy是使用Python编写的爬虫应用框架程序,具有结构简单、使用方便的特点,用户借助Scrapy可以快速浏览下载网页信息,并根據需要保存关键数据为需要的数据格式.目前,Scrapy被广泛应用于数据挖掘领域,已经发展成为数据挖掘研究领域重要的应用工具[8].

玉米是我国重要的粮食作物,玉米价格是市场发展和供给平衡状态的直接反映,通过提取其市场价格信息,不仅能够直观展示玉米交易市场的发展态势,同时有利于为供给侧结构性改革提供数据支撑,为相关部门制定生产发展决策提供理论依据.本研究以网络上发布的玉米市场价格为例,基于Scrapy设计爬虫,从中国饲料行业信息网爬取玉米价格信息数据,并以Microsoft Excel 表格的形式存储或存为数据库,以期为农业网络数据的进一步挖掘利用提供一种有效的数据提取方法.

1 基于Scrapy的爬虫设计

1.1 Scrapy框架

网络爬虫是以一定的规则自动抓取互联网信息的程序或者脚本,需要面向不同的应用场合解决网络连接、爬取策略等问题[9-12].Scrapy爬虫框架可以帮助开发者快速开发爬虫,其基于Twisted异步网络库来处理网络通讯,能够实现并行、分布式爬取,提高了爬取效率.

网络数据论文参考资料：

结论：基于Scrapy农业网络数据爬取为大学硕士与本科网络数据毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载，关于免费教你怎么写数据网络是什么方面论文范文。