EN
沃顿教授做客北大汇丰:数据科学的应用与前景,与你我息息相关

2017-07-05 15:56:45


  当下,数据科学已经成为了发展最为迅速的跨领域的交叉学科之一。 这门学科将计算机科学、统计学和领域知识结合在一个特定的应用领域中,使我们能够从这些数据中提取有用的并可供操作的信息。为了加快数据科学提供就业机会的速度,美国马萨诸塞州政府近日宣布由公私联营提供针对Big Data工程的专款,为麻省理工大学的技术研究和Big Data实习程序模型提供研究基金。那么,数据科学的实际运用情况如何呢?它又有怎样的前景?

 

数据科学讲座现场

 

  不久前,来自宾夕法尼亚大学沃顿商学院的统计学教授赵宏女士(Linda Zhao)做客北京大学汇丰商学院,通过研讨会的方式给我们分享了她对数据科学的一些思考和研究经验,并与在座的师生进行了深入的交流。

 

  赵宏教授分享数据科学案例

 

  赵宏教授毕业于康奈尔大学数学与统计学系,获得了博士学位。她最近的研究兴趣集中在大数据的信息恢复,目前她工作的重心主要在数据可视化和从大数据中进行机器学习,具体的项目包括正在进行的预测美国和中国市场的房价,以及中国工业管理有效性的评估。在学术之余,她还是一名出色的舞者,酷爱周游世界。

 

  在当日的研讨会上,她通过几个案例给我们分析了她在数据科学领域的一些研究和思考。赵宏教授分享的第一个案例是关于呼叫中心(Call Center)的,这个研究项目旨在提高呼叫中心的效率,为客户提供更加优化的服务。她通过收集波士顿地区的一个大型的呼叫中心的相关数据,对每一条呼叫的详细信息进行分析,而这些数据包括呼叫时间、等候时间和对话时间。

 

关于呼叫中心数据的分析

 

  通过对收集起来的呼叫中心数据进行分析发现,平均呼叫时间为185秒,而7%的呼叫只持续了10秒钟,接线员在呼叫中容易快速挂断电话。 这些异常短暂的通话时长,意味着接线员几乎是刚接上就挂了电话,没有可能与客户进行良好的沟通。据此,该团队发现,由于呼叫中心按电话接通次数来评定客服的绩效,这使得某些客服有产生道德风险的可能。通过挖掘数据背后的真相,他们找出了不合格的员工,并对呼叫中心的管理策略提出了改进办法。

 

  第二个案例是关于广播听众的预测与评估,在这个案例中,赵宏教授首先介绍了一个叫Sirius XM的卫星广播,然后又介绍了一个由沃顿商学院于2014年1月推出的一个商业广播,最后还提到了亚马逊土耳其机器人(Amazon Mechanical Turk)。通过对Sirius XM的1362名听众和70名沃顿商学院商业广播的听众的年龄、性别、收入和教育水平几个方面的资料进行分析,赵宏教授与她的研究团队也有了一些有趣的发现。

 

  关于Lending Club的研究结论

 

  紧接着,赵宏教授给我们详细分享了第三个案例,这个案例涉及一个发展迅速的P2P网络借贷平台Lending Club。作为个人对个人的借贷公司,Lending Club于2006在旧金山成立。他们是第一家注册为按照美国证券交易委员会SEC(Securities and Exchange Commission)的安全标准向个人提供个人贷款的借贷公司。

 

  与传统借贷机构最大的不同是,Lending Club通过网络将个人投资者和个人借贷者直接连接起来,大大简化了借贷的过程。Club的贷款的主要对象是有着良好信用记录的人群,而借贷者也可以获得远比那些信用卡公司所要求低得多的贷款利率。投资者在这里可以按照信用积分和风险指数来分类浏览各种贷款者和贷款项,而贷款分为三年跟五年两种,利率有所差别。Lending Club的营业利润主要来自对贷款人收取的手续费和对投资者收取的管理费,前者会因为贷款者个人条件的不同而有所波动,一般为贷款总额的1.1-5%;后者则是统一对投资者收取一样的1%的管理费。

 

  赵宏教授与她的研究团队收集了Lending Club从2008-2014年的全部数据,只有9%的申请借贷者被平台成功受理。基于这些被受理的借贷数据,团队从处理缺失值,处理数据格式和处理变量的异常值等方面对数据进行了清洗,并通过架设模型对该平台借贷客户的风险因素进行分析。研究发现,Lending Club的主要优势在于该平台能有效地为客户提供不同等级、风险分散的贷款选择,并保证较好的回报率。

 

北大汇丰David Ong教授提出问题

 

  基于对这些借贷数据的研究,她的团队尝试提高投资者投资组合的绩效表现,并寻找优化投资回报的空间。在场的许多老师针对她的研究交流了自己的意见,对网贷平台的融资方式、数据收集、风险管控等方面展开了深入的讨论,并比较了中国P2P平台与海外P2P平台的在监管与风控方面的差异。

 

  在大数据时代,数据将继续发挥着重要的作用,数据科学与每个人都息息相关,因此我们要更好地利用好数据,通过数据讲述事实,服务于人类。在最后,赵宏教授还简短分享了肺癌微阵列核磁共振成像、谷歌流感数据和在线CPI数据的研究。或许,在未来的十几年中,数据会进一步影响着人类社会发展的进程,渗透到我们生活的方方面面。

 

  这次数据科学的讲座由北大深圳研究生院、北大汇丰商学院和北大信息工程学院联合举办。

 

(撰稿:叶霄麒;编辑:金颖琦;摄影:蓝星宇)