现代企业都希望大数据可以为自己的企业服务,都希望可以用大数据的各项优势,来为企业做进一步的提升。但是对于一个数据科学项目,其所需的各种技能都是非常罕见和独特的。因此我们需要确保团队中的每个成员都能专注于他们自己最擅长的事情。今天我们就来说一下如何建立一个高效的数据科学团队:
数据科学项目的角色分配、以及每个角色所需的技能如下表所示:
角色分配
角色分配
虽然每个角色分配都是明确的,但每个团队成员都必须具备T形技能——这意味着他们不仅需要深入自己的角色,而且还要粗略理解相邻角色。
产品所有者
产品所有者是所负责产品的主题专家,他们对特定的业务部门及其相应关心的问题有深入的了解。在一些情况下,产品所有者将主要负责业务方面,他们也定期与数据科学团队合作以解决特定的数据科学等一系列问题,然后再回到更宏观的主题专家角色上去。
事实上,回到原始角色是数据科学团队的一个好处。这意味着产品所有者作为模型的最终用户,可以提供具体的反馈和请求。这也意味着产品所有者可以从业务部门本身提倡数据科学。
产品所有者主要负责:
定义业务问题并与数据科学家合作来定义工作假设
根据需要帮助查找以及管理数据
代理和解决数据质量问题
数据工程师
数据工程师是将所有数据移动到重心并通过服务和消息队列连接数据的向导。他们还通过构建API以使数据可用于企业,他们负责将数据设计到最适合团队需求的平台上。作为一位数据工程师,需要具备下面三大技能:
熟练掌握以下至少三种语言:Python,Scala,Java,Ruby,SQL
熟练使用和构建REST API
能熟练的将预测和规范模型整合到应用程序和流程中
数据科学家
数据科学家往往指的是两个不同的角色之一:机器学习工程师和决策优化工程师。由于市场条件导致“数据科学家”成为相当热门的角色,所以做出这种区分可以帮助消除理解上的困惑。
机器学习工程师
机器学习工程师需要建立机器学习模型,也即识别每个模型中使用的重要数据元素及其特征。他们确定要使用哪种类型的模型,并测试这些模型的准确性和精度;他们还负责模型的长期监测和维护。他们需要这三大技能:
应用概率和统计的培训和经验
具有数据建模和评估经验,对有监督和无监督机器学习有深入的理解
能在以下至少两种语言中进行编程:Python,R,Scala,Julia或Java,其中偏好Python专业知识
决策优化工程师
决策优化工程的技能和经验与机器学习工程师重叠,但也有一些重要的差异。决策优化工程师需要这三大技能:
具备通过应用数学建模和/或约束规划的经验解决一系列行业问题的能力
熟练的Python编程技巧,具备将预测模型应用于决策优化问题的能力
具有建立蒙特卡罗模拟/优化进行假设情景分析的经验
数据记者
接下来是数据记者,他们在推动数据的背景下呈现模型输出,并且可以清楚地表达业务问题。成为一名数据记者,我们寻找这三大技能:
具备Python、Java或Scala编码技能
具备在业务问题的背景下整合数据、预测模型和预定性模型输出的相关经验
熟练掌握数据解析、抓取和纠错
如果你可以吧一个有用这些基本技能的团队组件在一起,而且可以保证他们相互之间能够相互合作,保持对彼此的清楚认知,那么你的这个团队将会变成高效的数据科学团队。而你拥有的洞察力和理解力,最终可以胜任任何组织的领导力。
或许您还想了解:沈丹阳讲师助理整理发布