通知 Notice
2022年首届“钉钉杯”大学生大数据挑战赛复赛题目
来源:
发布于:2022-09-23
浏览量:3484
分享

复赛A:银行卡电信诈骗危险预测

一、问题背景:

数字支付正在发展,但网络犯罪也在发展。电信诈骗案件持续高发,消费者受损比例持续走高。报告显示,64%的被调查者曾使用手机号码同时注册多个账户,包括金融类账户、社交类账户和消费类账户等,其中遭遇过电信诈骗并发生损失的比例过半。用手机同时注册金融类账户及其他账户,如发生信息泄露,犯罪分子更易接管金融支付账户盗取资金。

随着移动支付产品创新加快,各类移动支付在消费群体中呈现分化趋势,第三方支付的手机应用丰富的场景受到年轻人群偏爱,支付方式变多也导致个人信息也极易被不法分子盗取。根据数据泄露指数,每天有超过 500 万条记录被盗, 这一令人担忧的统计数据表明 - 对于有卡支付和无卡支付类型的支付,欺诈仍然非常普遍。

在今天的数字世界,每天有数万亿的银行卡交易发生,检测欺诈行为的发生是一个严峻挑战。

二、数据描述:

该数据来自一些匿名的数据采集机构,数据共有七个特征和一列类标签。下面对数据特征进行一些简单的解释每列的含义对我们来说并不重要,但对于机器学习来说,它可以很容易地发现含义。它有点抽象,但并不需要真正了解每个功能的真正含义。只需了解如何使用它以便您的模型可以学习。许多数据集,尤其是金融领域的数据集,通常会隐藏一条数据所代表的内容,因为它是敏感信息。数据所有者不想让他人知道,并且数据开发人员从法律上讲也无权知道)

➢ distance_from_home:银行卡交易地点与家的距离;

➢ distance_from_last_transaction:与上次交易发生的距离;

➢ ratio_to_median_purchase_price:近一次交易与以往交易价格中位数  的比率;

➢ repeat_retailer:交易是否发生在同一个商户;

➢ used_chip:是通过芯片(银行卡)进行的交易;


➢ used_pin_number:交易时是否使用了 PIN 码;

➢ online_order:是否是在线交易订单;

➢ fraud:诈骗行为(分类标签);

三、解决问题:

1) 将给定数据集进行“下采样”,构建新的数据集,使各类别样本分布均匀(发生诈骗行为和未发生诈骗行为的样本数一样);

2) 再次构建多种数据挖掘模型(至少三种)进行预测,给出模型的精度;

3) 依次将影响模型预测精度的特征按照影响程度的大小进行排序,绘制条形图;

4) 依次计算测试集中每个样本发生欺诈行为的概率;

5) 将使用新数据集进行的数据分析,模型评价通过作图的形式进行可视化;

6) 根据分析结果,从个人角度给出对预防电信诈骗需要着重关注的一些信息;

7) 结合样本数据的分析结果,从反电信诈骗机构,移动通讯公司,各大银行的角度,阐述可以通过什么样的技术手段能从网上银行或者 ATM 机进行交易时给出防止电信诈骗的预警措施。


复赛 B:航班数据分析与预测

一.问题背景

随着科技的发展,乘坐飞机出行为人们的生活带来了极大的便利,航空交通管理影响着人们的工作和生活效率。在大数据和人工智能时代的今天,各种各样的信息科学和工程技术广泛应用于航空领域,为人们的生产生活提供更高的便利性,因此提高空中资源的优化配置,一直都是计算机科学与技术、信息科学与工程、数学等领域的一门热点研究方向。当前航空延误是空中资源优化配置的一项经典课题,分析与预测航空延误有助于提高资源的优化管理,提高生产生活效率, 可以为乘客提供更优质的服务。

二.解决问题

1.机场聚类分析

(一)以附件2006-2008年航班数据和机场数据作为依据,计算每个机场的五个属性:起飞和到达航班总数、到达延迟超过10分钟航班的比例,出发延迟超过10分钟航班的比例,取消航班的比例,该机场所有航线的平均距离。使用这五个属性对所有机场进行聚类,分析如何聚类以及聚成几类比较好,并且说明原因。

(二)以附件2006-2008年航班数据和机场数据作为依据,选择合适的属性以任意一种聚类算法对所有机场进行聚类。

以论文形式说明:

(1)选择这些属性进行聚类的依据,所选择聚类算法的流程,聚类的结果以及该结果所表达的意义。

(2)将你的聚类算法与(一)题的聚类算法进行比较,说明二者算法的优缺点以及二者结果的优缺点。

2.航班延误分析

以论文形式说明:先给出自己对问题(一)和(二)航班延误的分析,再建立模型做实验得到航班是否延误的准确率,分析模型和实验结果,并且检验自己最初对问题(一)和(二)的分析。

(一).以附件中的2001-2005年的航班数据作为训练集,以附件2006-2008年的航班数据作为测试集,先以文字形式分析起飞航班是否延误受哪些因素影响,再建立模型预测起飞航班是否延误,测试集准确率越高越好,分析模型和实验结果,并且以实验结果检验自己最初的分析。(注:测试集不能参与到训练和验证中,否则作违规处理)

提示:可以在训练、验证和预测中使用机场所在地天气情况等信息,详见附件数据属性说明表。

(二).以附件中的2001-2005年的航班数据作为训练集,以附件2006-2008年的航班数据作为测试集,先以文字形式分析到达航班是否延误受哪些因素影响,建立模型预测到达航班是否延误,测试集准确率越高越好,分析模型和实验结果,并且以实验结果检验自己最初的分析。(注:测试集不能参与到训练和验证中,否则作违规处理)

提示:可以在训练、验证和预测中使用机场所在地天气情况等信息,详见附件数据属性说明表。


赛题附件

2022年首届“钉钉杯”大学生大数据挑战赛复赛题目

下载时间:9月23日09:00-9月30日09:00

点击下载

提取码:w5re 

 参赛说明

复赛参赛队伍选择初赛作答中所选择的题目的继续进行作答,不得更换选题。

复赛时间9月23日09:00-9月30日09:00)




联系我们 CONTACT US

竞赛合作

范老师

手机:15661144116

QQ:2875393680

邮箱:2875393680@qq.com

邮编:010000

报名咨询

藏老师

手机:18947927578

QQ:3046361057

邮箱:3046361057@qq.com

邮编:010000

数维杯数学建模官网
蒙ICP备2023000922号