通知 Notice
2022 年首届钉钉杯大学生大数据挑战赛训练赛评阅要点
来源:
发布于:2022-07-08
浏览量:2069
分享

附件下载:

2022钉钉杯训练赛评阅要点及程序.rar


练习A:二手房房价分析与预测

一.问题背景

住房一直以来都是人们关心的热门话题,房价也是人们时时刻刻关心的热点。虽然新房子更加上档次,但是二手房有着现房交易,地段较好,配套设施完善,选择面更加广泛等优势,因此二手房越来越受到广大消费者的青睐。根据现有二手房的地段、装修等属性预估该二手房的价格也是买卖双方所关心的问题。因此通过现有数据,分析并且预测二手房的价格是一项有意义的研究课题。

二.解决问题

1.全市二手房数据分析

在进行数据分析之前能进行数据清洗,填充或者删除空值或NA值的学生应该给予加分。详见house_analysis.py中数据清洗函数。

(一)区域二手房均价分析

根据附件中的数据集,将二手房数据按照“区域”属性进行划分,然后计算每个区域的二手房均价,最后将区域及对应的房屋均价信息通过纵向条形图显示。

先对二手房实现依据“区域”属性的划分,在通过mean方法计算出每个区域的均值房价,最后获取所有区域信息并且画图显示。计算详见house_analysis.py的get_average_price()函数,画图详见show_window.py的show_average_price()函数。

(二)区域二手房数据及占比分析

根据附件的数据集,计算各个区域二手房数量占总二手房数量的百分比,并画出饼状图。

先对二手房实现依据“区域”属性的划分,再使用size方法获取每个区域二手房的数量,最后计算百分比并且画图。计算详见house_analysis.py的get_house_num()函数,画图详见show_window.py的show_house_number()函数。

(三)二手房装修程度分析

将二手房按照“装修”属性进行划分,然后计算不同装修程度的二手房数量,并用条形图显示不同装修程度二手房的数量。

先对二手房实现依据“装修”属性的划分,再使用size方法获取每种装修程度的二手房数量,再把数据画图分析。计算详见house_analysis.py的get_renovation()函数,画图详见show_window.py的show_renovation()函数。

2.二手房房价预测

(一)将二手房按照户型进行分组,然后提取前5组最热门的二手房户型(出售数量最多的5组户型),最后计算这5个热门户型的均价并画图显示。

先对二手房按照“户型”属性划分,再计算每个户型的二手房的数量,选取待售数量最多的5个户型,最后计算每个户型的均价并且画图显示。计算详见house_analysis.py的get_house_type()函数,画图详见show_window.py的show_type()函数。

(二)选择附件中适合的属性,建立模型预测二手房的价格。

选择合适的属性,并且建立模型,预测二手房的房价。因为题目比较简单,所以可以使用传统的方法或者比较简单的深度学习方法。加入防止过拟合的正则化方法可以获得加分。

计算详见house_analysis.py文件,画图详见show_window.py的show_total_price()函数。

 


练习题B:电商书籍销售

一.问题背景

随着当当网,淘宝,京东等电商平台开启书籍销售,网购书籍越来越成为消费者购买书籍的首选方式,而网售书籍的成交量也逐年上升。随着电商行业的激烈竞争,不同的电商平台推出了各式各样的网上书籍营销方案,各大公司可以通过付费广告提高图书的曝光率。那么,公司投入广告费之后究竟能够为企业带来多少收益,对书籍的销售有多大的影响,是各个公司所广泛关注的问题。

二.解决问题

1.电商书籍销售数据挖掘

(一)销售收入分析

为了便于分析每天和每月的销售收入数据,需要按天和按月计算附件数据集中的书籍销售收入情况,并且画图显示。

可以使用Pandas中DataFrame的resample()函数和to_period()函数解决该问题。计算和画图详见sales.py文件。

(二)销售收入与广告费相关性分析

1)画出销售收入和广告费在不同月份变化情况的折线图。

2)画图销售收入和广告费二者关系的散点图。

3)观察(1)和(2)图中销售收入和广告费的变化情况,分析并论述二者的相关性。

图画是分析广告费和销售收入二者的相关性的重要工具,画图详见line.py文件。

广告费和销售收入二者成正比关系,近似线性关系。学生可以根据自己掌握的知识来分析二者关系,只要论述合理,有理有据,即可获得加分。

2.书籍销售收入预测

(一)以附件中2019年该公司投入的广告费和获得的销售收入作为数据集,计算2019年每月投入的广告费和获得的销售收入,训练一个以月投入广告费作为输入以月获得销售收入作为输出的回归模型。

假设2020年上半年的广告费投入为如下预算:

1月

2月

3月

4月

5月

6月

120000

130000

150000

180000

200000

250000

如果以此预算投入广告费,预测该公司2020年上半年每月的销售收入情况,并画出预测的折线图和散点图。

首先计算2019年每个月的广告费和销售收入,共12个月。通过第1题的分析可知二者几乎成线性关系,所以可以采用简单的线性回归模型预测广告费和销售收入的关系,详见pred.py文件。

如果采用比线性模型更复杂的模型(如神经元网络),由于数据量较少,需要加入正则化等避免过拟合的机制,否则很容易过拟合。根据奥卡姆剃刀原则使用线性模型即可,如果学生可以回答出奥卡姆剃刀原则或者过拟合等因素来设计模型可以获得加分。

(二)如果该公司2020年上半年的实际销售收入如下:

1月

2月

3月

4月

5月

6月

360000

450000

600000

800000

920000

1300000

对问题(一)建立模型的预测情况进行评价。表述你对预测结果和评价结果的分析,以及所得到的结论。

提示:可以借助指标函数对预测结果进行评价,如:Scikit_Learn提供的r2_score()函数等。

使用Scikit_Learn的r2_score()函数评价预测模型即可,详见pred.py文件。学生只要对预测结果和评价结果论述合理,有理有据,即可获得加分。

 

联系我们 CONTACT US

竞赛合作

范老师

手机:15661144116

QQ:2875393680

邮箱:2875393680@qq.com

邮编:010000

报名咨询

藏老师

手机:18947927578

QQ:3046361057

邮箱:3046361057@qq.com

邮编:010000

数维杯数学建模官网
蒙ICP备2023000922号