通知 Notice
钉钉杯大数据竞赛中那些数据集到底有什么用?
来源:
发布于:2024-05-29
浏览量:1204
分享

钉钉杯大数据竞赛中那些数据集到底有什么用?


在钉钉杯大数据竞赛中,通常将大赛的数据集按照不同的功能分成三种:训练集、验证集和测试集。

一、训练集(Training Set)

作用:用来训练模型算法,模型算法根据这个集合中的样本和对应的标签来学习模型参数或权重。

二、验证集(Validation Set)
作用:用来调整模型参数、选择模型结构和超参数优化。帮助评估模型在未见过的数据上的表现,防止过拟合。
三、测试集(Test Set)

作用:用来对最终模型进行性能评估,测试集的结果能反馈模型在实际应用中的泛化能力。

【注】要想模型泛化能力好,测试集、验证集必须和训练集来自于同一分布。

四、三种数据集之间的关系和一般的划分方法
三种数据集的关系

在机器学习的过程中,先使用训练集构建模型,再用验证集调参,最后用测试集测试模型性能。有时候也直接分成训练集和测试集,不要验证集。
数据集的划分方法

 留出法:直接将原始数据随机划分成两部分

 训练集:验证集:测试集 = 70%:15%:15%

 训练集:测试集 = 80%:20%

【注】要注意的是,在数据量非常庞大(比如100万甚至1000万)时,验证集和测试集的比例就没必要这么高了,有时1%(1%也有1万条或10万条数据)或更低的占比也能很好的评估模型。

交叉验证法:当数据有限的时候,可以采用K折交叉验证法,来充分利用数据。

自助采样法:用于生成新数据集,尤其是当无法直接分割成多个集合时,通过有放回的抽样方式创建新的训练集,并用剩余的数据作为近似的测试集。

什么是过拟合和欠拟合,为什么会出现这个现象?

过拟合指的是在训练数据集上表现良好,而在未知数据上表现差。

欠拟合指的是模型没有很好地学习到数据特征,不能够很好地拟合数据,在训练数据和未知数据上表现都很差。如图所示:

过拟合的原因在于

    (1)参数太多,模型复杂度过高;

    建模样本选取有误,导致选取的样本数据不足以代表预定的分类规则;

   (2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;

   (3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立。

欠拟合的原因在于

(1)特征量过少;

(2)模型复杂度过低。

怎么解决欠拟合?


    (1)增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;

    (2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强;

   (3)减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数;

使用非线性模型,比如核SVM 、决策树、深度学习等模型;

    (4)调整模型的容量(capacity),通俗地,模型的容量是指其拟合各种函数的能力;

    容量低的模型可能很难拟合训练集。

怎么解决过拟合?(重点)

  (1)获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法

   (2)特征降维:人工选择保留特征的方法对特征进行降维

    加入正则化,控制模型的复杂度

   (3)Dropout

   (4)Early stopping

   (5)交叉验证增加噪声

为什么参数越小代表模型越简单

因为参数的稀疏,在一定程度上实现了特征的选择。

越复杂的模型,越是会尝试对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。因此参数越少代表模型越简单。

钉钉杯介绍

竞赛已成功举办两届,竞赛的参与学校、参赛队伍、参赛人数不断攀升、屡创新高。截止目参赛高校已达到512多所,累计参赛人数万人以上。往届参赛高校覆盖复旦大学、华中科技大学、天津大学、上海交通大学等高校。除中国大陆高校外,同时吸引来自澳大利亚悉尼大学等境外高校参赛。图片 

钉钉杯大数据竞赛发展至今已被众多所高校纳入学科认定赛事,成为继kaggle、天池大数据竞赛之后的又一项全国性数据科学竞赛,且得到高校以及知名企业的高度认可和鼎力支持,竞赛可作为学生评奖评优、综测加分、大厂offer、实习机会&高薪就业、数据分析与数据挖掘实战项目等提供有效帮助。

钉钉杯赛程安排

1、报名时间:即日起至2024年7月26日06:00(周五)

2、初赛:(7月26日09:00-8月1日09:00)

1)竞赛结束前必须在线提交结果数据、论文和代码,提交时系统验证提交数据格式是否正确;

3)最终初赛成绩中前15%获奖选手将晋级复赛;

3、复赛(8月28日09:00-9月2日09:00)

复赛为统一命题,不更换题目背景,但可能会更换题目问题和数据

4、决赛(10月中旬)

复赛中综合总排名前10的队伍进入答辩环节,答辩采用线上或者线下的方式进行。答辩决出冠军1支队伍、亚军2支队伍、季军3支队伍(不分组别,不分赛题)。

报名方式

扫码报名

图片

图片

扫码进入官方参赛群(组队+获取历年真题及论文)

获奖证书样式图片

图片





联系我们 CONTACT US

竞赛合作

范老师

手机:15661144116

QQ:2875393680

邮箱:2875393680@qq.com

邮编:010000

报名咨询

藏老师

手机:18947927578

QQ:3046361057

邮箱:3046361057@qq.com

邮编:010000

数维杯数学建模官网
蒙ICP备2023000922号