总奖金
210,000
魔镜杯风控算法大赛
参赛队485
参赛人数1101
拍拍贷“魔镜杯”互联网金融数据应用大赛,旨在打造一个健康高效、开放透明、创新驱动的普惠金融生态圈,并以此为主题设计了相应的三个赛题——风控算法比赛、数据产品开发比赛、金融产品创新比赛。
初赛中
2016年2月25日
复赛中
2016年4月8日
决赛中
2016年5月15日
比赛概览

拍拍贷“魔镜风控系统”从平均400个数据维度评估用户当前的信用状态,给每个借款人打出当前状态的信用分,在此基础上,再结合新发标的信息,打出对于每个标的6个月内逾期率的预测,为投资人提供了关键的决策依据,促进健康高效的互联网金融。拍拍贷首次开放丰富而真实的历史数据,邀你PK“魔镜风控系统”,通过机器学习技术,你能设计出更具预测准确率和计算性能的违约预测算法吗?

  • 选手可以参与魔镜杯中的多个赛题。
比赛规则

参赛团队需要基于训练集数据构建预测模型,使用模型计算测试集的评分(评分数值越高,表示越有可能出现贷款违约)。

  • 模型评价标准
    • 定义:本次比赛采用AUC来评判模型的效果。AUC即以False Positive Rate为横轴,True Positive Rate为纵轴的ROC (Receiver Operating Characteristic)curve下方的面积的大小。
    • M 为正样本个数,N 为负样本个数,M * N 为正负样本对的个数。Si为第i个正负样本对的得分,定义如下:
    • scorei-p为正负样本对中,模型给正样本的评分,scorei-n为正负样本对中,模型给负样本的评分。AUC值在[0,1]区间,越高越好。
  • 初赛
    • 面向初赛选手,提供3万条训练集数据,2万条测试集数据(其中包括1万条测试数据和1万条验证数据,但具体分法不公开)
    • 参赛团队需要提交模型代码,以及对于2万条测试集中每一条数据的评分(评分数值需要精确到小数点后4位)。 每次提交以后,系统会返还测试集中1万条测试数据预测结果对应的AUC值,Leaderboard会参照这一数值。 另外的1万条验证数据预测结果的AUC值不会返回。
    • 每个团队最后一次(注意:不是最好一次)提交结果在1万条验证数据上的AUC会作为初赛成绩。成绩最好的前100名团队进入复赛。
    • 预测结果提交接口将于3月15日开放,每日可进行一次提交。预测模型的最终结果提交截止日期为3月31日
  • 复赛
    • 面向复赛选手,将新增3万条训练集数据,1万条测试集数据。
    • 参赛团队提交模型代码文件、测试集预测评分、模型说明文档。文档为PDF格式(由PPT文档另存为PDF),至少需要包含的内容为:数据处理、变量生成、模型算法、其它讨论。
    • 每个参赛团队可提交最多两次,成绩以最佳提交结果为准。
    • 进入决赛的标准是:70%模型表现(基于模型AUC表现),30%模型设计(基于模型代码和模型文档)。模型设计的评估会是对于严密性、创新性、稳定性等的评估。
  • 决赛
    • 参赛团队以PPT形式现场向评委会讲解模型表现与设计思路,由评委进行现场评分并颁发奖项。决赛的评分维度为模型AUC表现、模型理论基础、设计创新性、表现稳定性等。
比赛日程
  • 报名 & 初赛提交

    2月25日-3月31日 组建参赛团队并报名,于截止日期前提交初赛作品方案。选手可以于3月15日开始提交预测结果,并得到AUC数值反馈。

  • 初赛评审

    4月1日-4月7日 评委进行在线评审,选出各个赛题的前100名进入复赛,并提供评分反馈帮助选手完善作品。

  • 复赛提交

    4月8日-4月18日 复赛团队进一步完善作品,于截止日期前提交复赛作品方案。

  • 复赛评审

    4月19日-4月23日 评委进行在线评审,选出各个赛题的前6名进入决赛。

  • 决赛路演

    5月15日 三个赛题共18支决赛团队进行项目路演,评委现场打分并颁出奖项。

奖金奖励
  • 魔镜大奖

    对于魔镜杯三个分赛题中最优秀的金奖团队,额外奖励10万元现金

  • 魔镜金奖

    10万元现金 一支团队

  • 魔镜银奖

    5万元现金 一支团队

  • 魔镜铜奖

    1万元现金 两支团队

比赛数据

本次大赛将公开国内网络借贷行业的贷款风险数据,包括信用违约标签(因变量)、建模所需的基础与加工字段(自变量)、相关用户的网络行为原始数据。本着保护借款人隐私以及拍拍贷知识产权的目的,数据字段已经过脱敏处理。

数据编码为GBK。初赛数据包括3万条训练集和2万条测试集。复赛会增加新的3万条数据,供参赛团队优化模型,并新增1万条数据作为测试集。所有训练集,测试集都包括3个csv文件。

初赛数据下载链接

复赛数据下载链接

数据类型说明文档下载链接

  • Master

每一行代表一个样本(一笔成功成交借款),每个样本包含200多个各类字段。

idx:每一笔贷款的unique key,可以与另外2个文件里的idx相匹配。

UserInfo_*:借款人特征字段

WeblogInfo_*:Info网络行为字段

Education_Info*:学历学籍字段

ThirdParty_Info_PeriodN_*:第三方数据时间段N字段

SocialNetwork_*:社交网络字段

LinstingInfo:借款成交时间

Target:违约标签(1 = 贷款违约,0 = 正常还款)。测试集里不包含target字段。

  • Log_Info

借款人的登陆信息。

ListingInfo:借款成交时间

LogInfo1:操作代码

LogInfo2:操作类别

LogInfo3:登陆时间

idx:每一笔贷款的unique key

  • Userupdate_Info

借款人修改信息

ListingInfo1:借款成交时间

UserupdateInfo1:修改内容

UserupdateInfo2:修改时间

idx:每一笔贷款的unique key