在钉钉杯大数据竞赛中,通常将大赛的数据集按照不同的功能分成三种:训练集、验证集和测试集。
作用:用来训练模型算法,模型算法根据这个集合中的样本和对应的标签来学习模型参数或权重。
作用:用来对最终模型进行性能评估,测试集的结果能反馈模型在实际应用中的泛化能力。
【注】要想模型泛化能力好,测试集、验证集必须和训练集来自于同一分布。
留出法:直接将原始数据随机划分成两部分
训练集:验证集:测试集 = 70%:15%:15%
训练集:测试集 = 80%:20%
【注】要注意的是,在数据量非常庞大(比如100万甚至1000万)时,验证集和测试集的比例就没必要这么高了,有时1%(1%也有1万条或10万条数据)或更低的占比也能很好的评估模型。
交叉验证法:当数据有限的时候,可以采用K折交叉验证法,来充分利用数据。
自助采样法:用于生成新数据集,尤其是当无法直接分割成多个集合时,通过有放回的抽样方式创建新的训练集,并用剩余的数据作为近似的测试集。
过拟合指的是在训练数据集上表现良好,而在未知数据上表现差。
欠拟合指的是模型没有很好地学习到数据特征,不能够很好地拟合数据,在训练数据和未知数据上表现都很差。如图所示:
(1)参数太多,模型复杂度过高;
建模样本选取有误,导致选取的样本数据不足以代表预定的分类规则;
(2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;
(3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立。
(1)特征量过少;
(2)模型复杂度过低。
(1)增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;
(2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强;
(3)减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数;
使用非线性模型,比如核SVM 、决策树、深度学习等模型;
(4)调整模型的容量(capacity),通俗地,模型的容量是指其拟合各种函数的能力;
容量低的模型可能很难拟合训练集。
(1)获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法
(2)特征降维:人工选择保留特征的方法对特征进行降维
加入正则化,控制模型的复杂度
(3)Dropout
(4)Early stopping
(5)交叉验证增加噪声
因为参数的稀疏,在一定程度上实现了特征的选择。
越复杂的模型,越是会尝试对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。因此参数越少代表模型越简单。
竞赛已成功举办两届,竞赛的参与学校、参赛队伍、参赛人数不断攀升、屡创新高。截止目参赛高校已达到512多所,累计参赛人数万人以上。往届参赛高校覆盖复旦大学、华中科技大学、天津大学、上海交通大学等高校。除中国大陆高校外,同时吸引来自澳大利亚悉尼大学等境外高校参赛。
钉钉杯大数据竞赛发展至今已被众多所高校纳入学科认定赛事,成为继kaggle、天池大数据竞赛之后的又一项全国性数据科学竞赛,且得到高校以及知名企业的高度认可和鼎力支持,竞赛可作为学生评奖评优、综测加分、大厂offer、实习机会&高薪就业、数据分析与数据挖掘实战项目等提供有效帮助。
1、报名时间:即日起至2024年7月26日06:00(周五)
2、初赛:(7月26日09:00-8月1日09:00)
1)竞赛结束前必须在线提交结果数据、论文和代码,提交时系统验证提交数据格式是否正确;
3)最终初赛成绩中前15%获奖选手将晋级复赛;
3、复赛(8月28日09:00-9月2日09:00)
复赛为统一命题,不更换题目背景,但可能会更换题目问题和数据
4、决赛(10月中旬)
复赛中综合总排名前10的队伍进入答辩环节,答辩采用线上或者线下的方式进行。答辩决出冠军1支队伍、亚军2支队伍、季军3支队伍(不分组别,不分赛题)。
扫码报名
扫码进入官方参赛群(组队+获取历年真题及论文)
获奖证书样式
范老师
手机:15661144116
QQ:2875393680
邮箱:2875393680@qq.com
邮编:010000
藏老师
手机:18947927578
QQ:3046361057
邮箱:3046361057@qq.com
邮编:010000