1. 大赛介绍

随着大数据时代和数据密集型研究范式的到来，基于数据进行研究，对数据进行管理、共享和再利用，成为学术研究的新趋势。为了鼓励各学科领域学子基于数据进行创新研究，促进研究数据的保存和共享，由国家信息中心大数据发展部、北京市信息资源管理中心作为行业指导单位，北京大学图书馆、北京大学信息管理系、南海大数据应用研究院，联合北京大学中国社会科学调查中心、北京大学计算语言学研究所，面向全国高校在读学生，开展首届全国高校数据驱动创新研究大赛。

本次大赛将于2017年12月至2018年3月期间举行，欢迎各学科领域优秀学子提交论文参与竞赛。

大赛最新信息请参见官网http://opendata.pku.edu.cn/competition-2018.xhtml。

1.1. 参赛对象

全国高校本科、硕士、博士在读学生。

1.2. 赛程赛制

大赛的时间安排与组织形式如下：

（1）启动与培训。时间：2017年11月30日和2017年12月1日。方式：现场培训与网络直播，详情见附录1：

（2）参赛报名。时间：2017年12月1日至2018年1月15日。

（3）成果提交。时间：2018年1月16日至2018年2月28日。

（4）成果评审。时间：2018年3月1日至2018年3月16。2018-03-16在大赛官网公布。

（5）现场答辩。时间：2018年3月19日至2018年3月23日期间。地点：北京大学。现场答辩，决出一等奖、二等奖、三等奖。

（6）海南颁奖。时间：2018-03-28，一等奖、二等奖获奖代表，将受邀参加2018年3月26至28日在海南陵水举办的“第二届京陵大数据峰会”，进行成果展示和颁奖。

2. 奖项设置

（1）一等奖（1组），奖金10000元

（2）二等奖（3组），奖金5000元（至少包含1组本科生）

（3）三等奖（8组），奖金3000元（至少包含3组本科生）

（4）优秀奖（30组），奖金1000元（至少包含12组本科生）

3. 北京大学开放研究数据平台

（1）平台简介

北京大学开放研究数据平台的由北京大学图书馆、国家自然科学基金-北京大学管理科学数据中心、北京大学科研部、北京大学社科部联合主办和推出。平台以“规范产权保护”为基础，以“倡导开放科学”为宗旨，鼓励研究数据的发布、发现、再利用和再生产，促进研究数据引用的实践和计量，并探索数据长期保存，培育和实现跨学科的协同创新。

（2）平台数据

北京大学开放研究数据平台现有100多个数据集，数据被Web of Science数据引用索引数据库收录。如下给出了一些典型的研究数据集：

中国家庭追踪调查，http://opendata.pku.edu.cn/dataverse/CFPS

中国健康与养老追踪调查，http://opendata.pku.edu.cn/dataverse/CHARLS

中国老年人健康长寿影响因素调查，http://opendata.pku.edu.cn/dataverse/CHADS

中国历代人物传记资料库，http://opendata.pku.edu.cn/dataverse/crach

北京社会经济发展年度调查，http://opendata.pku.edu.cn/dataverse/BAS

国家信息中心大数据发展部提供的数据，

http://opendata.pku.edu.cn/dataverse/contest_official

4. 组织单位

主办单位：北京大学图书馆、北京大学信息管理系、南海大数据应用研究院

协办单位：北京大学中国社会科学调查中心、北京大学计算语言学研究所

支持单位：海南省陵水黎族自治县人民政府

行业指导单位：国家信息中心大数据发展部、北京市信息资源管理中心

赞助单位：圣智学习集团Gale公司

数据支持单位：北京国信宏数科技有限责任公司

北京清博大数据科技有限公司

北京麒麟心通网络技术有限公司

大连瀚闻资讯有限公司

中国电信股份有限公司云计算分公司

百职科技(北京)有限公司

广东和诚信息技术有限公司

5. 联系方式

大赛最终解释权归主办方所有。如果您对大赛有任何问题，可以通过邮箱、电话与我们联系。非常感谢您对大赛的关注与支持！

邮箱: data-research@lib.pku.edu.cn

电话: 010-62751062-22

附录1 培训计划

（1）第一次培训

时间：2017年11月30日下午3:00~4:30

现场培训地点：北京大学图书馆304教室

网络直播地址：http://162.105.138.115/index.php?m=live&c=index&a=lists

表 1 第一次培训内容

主持人	主要内容	培训老师
刘雅琼（北京大学图书馆）	大赛基本情况介绍（30分钟）：介绍大赛的基本情况，包括大赛要求、赛制赛程、注册和成果提交流程、北京大学开放数据平台等。	罗鹏程馆员（北京大学图书馆）北京大学图书馆信息化与数据中心馆员，负责北京大学开放研究数据平台的建设工作，曾参与国家自然科学基金委基础研究知识库、北京大学科研管理系统等平台的建设。参与负责本次大赛的相关组织工作。
	数据挖掘方法介绍（30分钟）：简要介绍数据挖掘的基本流程和方法。	王继民教授（北京大学信息管理系）教授，博士生导师，北京大学信息管理系副主任。研究领域包括：搜索引擎、Web数据挖掘、科学评价学、信息可视化等。近几年主持国家社科基金、国家“核高基”重大科技专项子课题、以及国家发改委、教育部、北京市科委等科研课题30余项。发表学术研究论文50余篇；出版专著或合著《搜索引擎原理技术与系统》、《Web用户查询日志挖掘与应用》、《中国人文社科类一级学科数据分析报告》、《“一带一路”沿线国家五通指数报告》、《国民海洋意识发展指数研究报告（2016）》等6部。获得发明专利2项；获得省部级科研奖励2项。
	现场答疑（30分钟）

（2）第二次培训

时间：2017年12月01日下午3:30~5:00

现场培训地点：北京大学图书馆304教室

网络直播地址：http://162.105.138.115/index.php?m=live&c=index&a=lists

表 2 第二次培训内容

主持人	主要内容	培训老师
赵飞（北京大学图书馆）	中国家庭追踪调查及分析方法（30分钟）：对中国家庭追踪调查数据（CFPS）进行介绍，并简要介绍相关的分析方法。	吴琼副研究员（北京大学社会科学调查中心）美国宾州州立大学教育与心理测量学博士、统计学硕士。现任北京大学中国社会科学调查中心副研究员，“中国家庭追踪调查”（CFPS）项目办公室主管，主要负责CFPS数据管理、数据服务、与问卷设计和执行相关的数据支持工作。加入调查中心之前，她就职于哈佛大学人口与发展研究中心，作为该中心的量化分析师，她的主要职能之一是分析大型调查数据。主要研究领域包括测量学方法、认知功能的影响因素、少儿发展等，已发表SSCI、SCI论文20余篇。
	中国健康与养老追踪调查及分析方法（30分钟）：对中国健康与养老追踪调查数据（CHARLS）进行介绍，并简要介绍相关的分析方法。	陈欣欣副研究员（北京大学社会科学调查中心）浙江大学管理学博士，现任北京大学中国社会科学调查中心副研究员，中国健康与养老追踪调查（CHARLS）项目主管，曾在斯坦福大学师从Scott Rozelle教授从事博士后研究。2008年以来参与了CHARLS的实地执行工作，并组织实施了中国中老年人生命历程调查、CHARLS第三轮追踪调查和共和国初期基层经济史调查。研究兴趣集中在微观发展经济学和老年经济学。
	国家信息中心大数据发展部数据介绍（30分钟）：介绍国家信息中心大数据发展部的开放数据。	廖尚围项目经理（国信宏数公司）国信宏数公司数据采集项目经理。曾任蓬天公司CTO，负责陕西省、江西省地税征管系统技术架构，具有丰富的J2EE项目开发实施经验。目前主要负责国信宏数公司数据采集工作，通过设计分布式采集平台，实施互联网结构化、非结构化数据的采集、清洗、存储。