爱吧机器人网 » 技术 > 大数据 > 正文

一个优秀数据科学家的主要构成特点

根据三位作者的咨询和研究经验,以及与许多 大数据 和分析主题的公司合作,了解一个良好的数据科学家具有哪些主要特征。

大数据 分析已经满天都是,IBM项目,每天产生2.5兆字节的数据。这意味着90%的数据在过去的两年里被创造出来。Gartner projects预测,到2015年,85%的500强的企业将无法利用 大数据 的竞争优势,并且大约有440万个工作岗位将围绕 大数据 创建起来。

虽然这些预测不能够在绝对意义上进行解释,但是他们代表无所不在的 大数据 ,以及需要分析的能力和资源的强有力的指示。因为随着数据堆积,管理和分析这些数据资源的最佳方式,已经成为创造竞争优势和战略杠杆的关键成功因素。为了应对这些挑战,公司正在招聘数据科学家,然而在业内,对于什么是优秀的数据科学家却存在着很大的误解和分歧。以下是一个优秀的数据科学家的主要构成特点:

数据科学家应该是一个优秀的程序员

根据定义,数据科学家与数据打交道。这涉及到大量的活动,如采样和处理的数据,模型估计和后期处理(如敏感性分析,模型部署,回归测试,模型验证)。虽然在当今的市场上,很多用户易于掌握的软件工具是自动化的,但是每一个分析都需要用量身定制的步骤来解决特殊的业务问题。为了成功执行这些步骤,就需要编程来解决了。

一个数据科学家应该有扎实的定量技能

一个数据科学家应该有统计, 机器学习 以及 数据挖掘 的背景。不同学科之间的区别越来越模糊,但是实际上并不是相关的。他们都提供了一套定量的技术来分析数据,并且在特定的背景下(如风险管理,欺诈检测,营销分析……),找到业务相关的模式。数据科学家应该知道哪些技术可以怎样利用并知道应该何时应用。他/她不应该把焦点放在基础数学(例如优化)的细节上,而是对分析问题的解决方法有一个很好的理解,以及如何解释它的结果。这里,培训一个计算机科学及商业/工业工程的工程师,目标应该是一个综合的,多科学观点,随着最近这两种技术的使用梯度形成的,以及能够根据必要的商业触觉带来新的努力成果。

在这样的背景下,同样重要的是,花足够多的时间来验证分析结果,从而避免经常被提及到的数据信息及数据曲解,这些数据是(有意的)歪曲并且过于集中精力讨论虚假的相关性,当选择最佳的定量技术时,数据科学家应该考虑到业务问题的特殊性。

典型的分析模型的要求是:

行动能力(多大程度解决分析模型的业务问题?)

性能(分析模型的统计性能是什么?)

解释能力(是否可以很容易地为决策者解决分析模型?)

运作效率(需要多少努力来建立,评估和监测分析模型?)

法规遵从(是否符合规定的模型)以及经济成本(简历,运行和维护的成本是什么?)。

根据这些要求的组合,数据科学家应该能够选择最佳的分析技术来解决业务问题。

一个数据科学家应该善于沟通与可视化的技能

不管你喜欢不喜欢,分析是一种技术性的锻炼。在这个时候,分析模型和商业用户之间有一个巨大的差距。为了弥补这个差距,沟通和定量技能的可视化设施是关键!

因此,数据科学家应该知道如何提出分析模型和他们的附随统计以及易于用户使用方式的报告。例如,交通灯的方法,联机分析处理设施,”如果-然后”业务规则,……他/她应该能够在不迷失复杂的细节(如统计)的情况下传达适当的信息量,这些细节将会阻碍一个成功模型的部署。这样做,企业用户将会更好地了解他们的特点和在他们行为下的 大数据 ,这将提高他们的态度并接受分析模型的结果。

教育机构必须学会平衡,因为它已经有很多的学术学位,以及因为过度分析或过度练习实践知识的学生而知名了。

一个数据科学家应该有一个坚实的商业认识

了解业务是必须的。我们见证了许多数据科学项目失败了,因为各自的分析师不理解手上的业务问题。通过”业务”,我们指的是,例如如果各自的数据被分析,那么在一个真实的商业,或天文学,或医学的环境下进行客户流失预测或信用评分。

数据科学家应该是具有创造性的

一个具有创意的科学家至少需要两个层次的创造力。首先,在技术层面上,在特征选择,数据转换和清洗数据方面具有创造性是非常重要的。标准知识发现过程的步骤必须适用于每一个特定的应用程序,通常”正确的猜测”可能会产生很大的差异。其次, 大数据 分析是一个快速发展的领域!新的问题,新的技术和相应的挑战都出现在正在进行的基础上。一个数据科学家需要不断创新以适应这些新技术是非常重要的,并有足够的创造力去了解他们如何创造新的商机。

结论:

我们提供了一个简短的特点概述去寻找一个优秀的科学家。总之,由于 大数据 分析的多学科性质,数据科学家应该拥有一个混合的技能:编程,定量建模,沟通和可视化,业务理解能力以及创造力!下图显示了如何表达这些的文件。

图:数据科学家简介

上一页12下一页

上一篇:大数据与人工智能结合将实现更大商业价值
下一篇:餐饮行业怎么才能玩转大数据?
精选推荐
MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

新型轻便机器人套装重5kg,辅助跑步和步行
新型轻便机器人套装重5kg,辅助跑步和步行

[2019-10-23]  虽然步行对大多数人来说似乎不是负担,但对有些人来说,这项简单的运动往往会让人感到筋疲力尽。比如手术或中风后恢复的患者、帕金森氏症患 ...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...