分类筛选
分类筛选:

关于阿里巴巴论文范文资料 与基于阿里巴巴大数据重复购买预测实证有关论文参考文献

版权:原创标记原创 主题:阿里巴巴范文 科目:职称论文 2024-02-01

《基于阿里巴巴大数据重复购买预测实证》:关于免费阿里巴巴论文范文在这里免费下载与阅读,为您的阿里巴巴相关论文写作提供资料。

【摘 要】淘宝网站能够收集到海量用户的购物行为日志,它使得掌握用户的购物偏好成为了可能.尽管用户的购买模式具有高度的多样性和自由性,但是周期性的购买是非常频繁的现象.因此寻找用户的周期行为对了解用户对商户的偏好非常重要.本文基于2017年阿里巴巴竞赛所获得的数据,从海量的购物行为数据中挖掘了用户特征、商户特征和用户-商户特征,对寻常情境下新用户未来在同一家店铺再次购买行为的预测进行了研究.此外,针对训练数据中类别及不平衡的问题,提出随机抽样并赋予各类别不同权重相结合的策略,并基于该策略将训练样本划分为6组,分别用SVM和随机森林训练多个预测模型.最后,通过集成将这多个预测模型共同进行预测.通过实验验证,所提出的组合预测方法具有很高的有效性.

【关键词】组合预测方法 SVM模型 随机森林 集成学习 客户重复购买

一、引言

随着人类进入信息时代的步伐加快,电子商务网站也越来越流行.截至2017年6月,中国网民规模达7.51亿,其中网络购物用户规模达到5.14亿.商家为了发展忠诚的客户,有时在特定日期(例如,“双11(11月11日)”)进行大型促销以吸引大量的新买家,但是许多吸引的买家是一次性的交易猎手,这些促销活动对销售可能没有长期的影响,因此为了大大降低促销成本提高投资回报率(ROI),商家必须确定谁可以转化为重复的买家.本文基于424170个不同的用户、4995个不同的商户从某年5月11日到11月12日在天猫的约5000万条海量行为日志,建立用户的商户偏好,进行商户筛选并预测他们在未来6个月内再次在同一个商户的购买行为.

传统的用户兴趣度估计方法有:王微微等结合用户的浏览内容,采用期望最大化算法实现用户聚类,将用户划分到对应的簇,创建用户的兴趣度模型.但是聚类可能收敛到局部最小值,在大规模的数据集上收敛的较慢,而且运用期望不能准确的预测用户的重复购买行为.

本文根据用户对商户的行为数据进行研究,提取了用户对商户的重要行为特征.根据这些特征,我们分别基于随机森林和SVM构造了分类模型.对新用户未来六个月内是否会再购买该商户的商品进行预测,并实现了理想的预测结果.经研究发现,对于用户海量购物行为数据,若提取重要的特征信息,对于准确预测该用户的行为取向具有重要的现实意义.针对训练数据中类别及不平衡的问题,我们对负样本进行随机欠采样,对正样本进行随机过采样.最后,通过集成将这多个预测模型共同进行预测如图1所示:

二、模型算法

(一)SVM原理介绍

支持向量机的主要理念可以概括为两点:第一,通过学习寻找最优的分割超平面使得两类之间的分割距离最大;第二,基于结构风险最小化的理论去特征空间中找最优的超平面.当支持向量机用于解决非线性问题时,这个方法是通过非线性映射将样本空间映射到高维空间中或是无限维度的特征空间以至线性支持向量机的方法可用于求解非线性样本空间中的分类问题.从样本空间到特征空间的非线性映射如图2.

(二)随机森林原理

训练过程是从树根节点开始,递归学习最优的分裂函数来划分该节点上的样本,使得新生成的孩子节点上样本纯度不断增加,直到满足下列条件之一:(a)达到树生成的最大深度;(b)节点样本纯度达到要求;(c)节点上样本数目达到最小值.因此可使用该模型进行分类预测.

(三)集成原理

集成学习通过将多个分类器进行结合,获得比单一分类器显著优越的泛化性能.为了使集成的分类器获得尽可能好的性能,应该使单个分类器间尽可能呈现多样性.为获取分类器的多样性,我们的工作主要从三个方面进行:

第一,使用不完全相同的训练样本训练分类器;

第二,使用不同的分类器模型进行训练,我们选择SVM和随机森林这两类优秀的分类器;

第三,设置分类器不同的参数进行训练.具体而言,我们将训练3个SVM模型和3个随机森林模型,并且每一个模型所设置的参数都不一致.在预测阶段,我们将每个分类器的输出值进行简单评价获得最终的预测结果.

三、实证分析

阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台—“天池”上开展的基于“天猫”(购物网站)海量真实用户访问数据的Repeat Buyers Prediction-Challenge the Baseline大赛.阿里巴巴大数据竞赛官方提供了某年5月到11月天猫部分购物行为数据.在竞赛官方网站上提供的数据有9类,分别为用户ID、商品ID、类别ID、商户ID、品牌ID、用户年龄、用户性别、用户对商户的行为和操作时间.

其中,用户对商户行为类型包括点击、加入购物车、购买和*4种.操作时间隐藏了年份但精确到了天的级别.每个商品ID仅限一家商户所用.每个用户ID对于相应商户都是新用户.

(一)数据清洗及归一化处理

在实验之前,需要对数据进行清洗,使之有效.通過分析,我们对异常值做了处理:在所给数据中,我们将空值和记录为NULL的值记为异常值.这种情况分别出现在用户的年龄和性别中,为了提高预测的准确性我们分别用年龄的平均值和性别的平均值来代替年龄和性别中的异常值.

选取的特征在尺度上可能存在很大的差别.假设特征向量由两个解释变量构成,第一个变量值范围[0,1],第二个变量值范围[0,1000000],这时就要把第二个变量的值调整为[0,1],这样才能保证数据是单位方差.如果变量特征值的量级比其他特征值的方差还大,这个特征值就会主导学习算法的方向,导致其它变量的影响被忽略.通过对所选特征的统计分析,我们计算了所有训练集中每一维特征的均值(图4)和标准差(图5),因为数量级差别较大,为方便视图我们取了对数来作图.

由图5可知,这些维度特征的数量级差别较大.为了使分类器的训练更加稳定有效,我们对每一维特征都进行了标准化处理,将其归一化至“0”均值和“1”方差的分布.

阿里巴巴论文参考资料:

结论:基于阿里巴巴大数据重复购买预测实证为适合不知如何写阿里巴巴方面的相关专业大学硕士和本科毕业论文以及关于阿里巴巴1688.com论文开题报告范文和相关职称论文写作参考文献资料下载。

和你相关的