申请回电

支持

数据科学团队工作
知多少

假如数据科学家的同事都清楚宝贵的洞见是如何产生的,他们如何充当更具价值的协作者,那么数据科学家的工作流程是不是就能够得到改进呢?惠普 Z 系列团队开展的一项研究表明,近 40% 的数据科学家认为,向非技术领域的相关人员解释数据科学工作非常困难。1 以下是数据科学家们时常思考,但少有机会传达给其他部门人员的事情。

数据在先,科学家在后

老话说得好,“种瓜得瓜,种豆得豆”,初始投入不足,结果也不会好。数据科学领域也是如此。如果不先投资底层数据基础设施,便无法构建良好的模型,更遑论产生切实可行的建议。 

 

公司需要先投资构建数据基础设施,再组建数据科学家团队。要想让数据科学家工作发挥出色水平,以下几个先决条件缺一不可:创建数据捕获系统、数据工程系统和管道。如果没有这些系统,数据科学家便无法完成他们的工作。

利益相关方无需成为专家,但应该了解基本常识

卓有成效的伙伴关系是双向的。作为数据科学家,我们要保障了解工作的业务背景,因此,只有管理层和其他利益相关方也尽可能了解我们的工作,才能够实现理想中的双向理解。幸运的是,如惠普 Z 系列大使2 兼 Getir 数据科学与分析主管 Firat Gonen 所说,如今的高管要学习基础知识非常容易。

 

Gonen 讲道:“如今,我们可以找到的学习材料都很不错,而且基本上免费。我们无需支付昂贵的教育或证书费用,就能了解数据科学对某一行业有何帮助,无论是酒店业、电子商务还是其他行业。”

Firat Gonen

作为土耳其先锋初创公司 Getir 的数据科学和分析主管,Firat 负责着数据科学和数据分析团队研究前沿的机器学习项目。

给数据科学家恰当的定位

所有数据科学家们都很关心一个非常关键的话题就是如何与管理层的沟通。邀请管理层团队提供有关业务问题的详细信息可以帮助数据科学家确定工作范围和优先级,也有助于了解模型的数据需求。一项调查表明,40% 的数据科学家表示,他们经常在还没彻底了解业务目标前便开始着手项目了。1 而与非技术工作伙伴开诚布公地交流则往往会使数据科学家获益:这个模型是否会投入生产?是否需要模型自主有效地做决策,同时是需要有少量人工监督还是无需监督?了解业务全貌和风险承受能力是充分利用数据科学项目的关键。

数据科学研究的是概率,而不是预测

尽管数据科学能够做出令人难以置信的准确预测,但要记住,没有哪个模型是灵丹妙药,这一点至关重要。利益相关方必须明白,数据科学研究的是概率问题,100% 准确是不可能的,因为不存在零瑕疵的模型。数据科学的理念是训练和调整模型,使其能够随着时间的推移而逐渐改进,但再出色的数据科学工作也不可能做到完美无瑕。

 

惠普 Z 系列大使2、Kaggle 竞赛赢家兼新加坡数据科学家 Heng Cher Keng 所言不错:“我们不是魔术师。”

Heng Cher Keng

作为 Kaggle 竞赛优胜者,他赢得过 4 块金牌,目前位列 Discussion Grandmaster 第三。

每次实验都是有价值的,失败是成功之母

数据科学的本质是实验和迭代。如果管理层了解这一点,也懂得为数据科学团队“留余地”(尤其是项目开始时),便可能在之后收获更好的成果。 

 

通常,项目需要不断地推翻重来、尝试不同的方法。这意味着,成功的道路上可能会遇到许多错误和失误。事实上,有时候我们不得不放弃某个项目,因为可用的数据和建模方法根本无法产生理想的结果。

“通常,项目需要不断地推翻重来、尝试不同的方法。”

“我认为很多时候,数据科学家或项目经理并不真正知道需要多长时间才能得到结果。”Scouts Consulting Group 数据科学主管 Ken Jee 表示,“数据科学工作的本质就是变化万千。就像我们可能会走到岔路口才发现。‘天呐,这条路不通。’”利益相关方和同仁们应该意识到,发生这种情况可能有很多原因。数据可能不如初始预期的那样干净,又或者由于差距太大,以致于开始的几次尝试无法得到理想的结果。

Ken Jee

作为 Scouts Consulting Group 数据科学负责人,Ken 每天都在分析收集到的运动员和团队的数据,全心致力于提高他们的运动表现。

数据科学不是软件工程

尽管软件工程和数据科学常常被混为一谈,但两者的相似之处不过寥寥:编程、创建渠道以及将数据从一个地方传输到另一个地方。不过,其相似性也仅此而已。其他学科的项目通常会有一个明确的结束节点,但数据科学家的工作则是设计模型、不断对其进行重新训练,使其在有新数据输入时依旧保持相关性。Jee 说得很好:“这种情况在纯粹的软件工程领域很少会看到。”同时,这也是一种“很难向同事和管理层解释或概念化的东西”。

数据科学需要专门的设备

超过三分之一的数据科学家认为他们没有合适的技术来高效完成工作。1 缺乏合适的工具让数据科学团队的工作效率和灵活性大打折扣。

 

因此,关键在于为他们提供专为数据科学家打造的工作站。以惠普 Z 系列为例,这是一款理想的数据科学解决方案。惠普 Z 系列工作站预先配置了热门的数据科学工具,可以帮您节省时间,而且还搭载了经过 NVIDIA 和英特尔等合作伙伴认证的企业级组件。

 

这些功能“与我使用过的其他产品相比,帮我节省了很多时间”,惠普 Z 系列大使 Jee 表示。2 尽管许多细节可能对非技术工作伙伴而言很难理解,但节省时间是大家共同的目标。

结语

只有管理层和同仁们都能对数据科学家的工作有基本的了解,才能为大家创造一个更高效、更有利于实现成果的工作氛围。从促进关于业务目标的开放式交流到真正理解数据科学流程,这种理念和做法对各种人员和企业而言都是切实可行的。这样一来,数据科学家才能带来更有价值的业务洞见,并帮助团队实现业务目标。

为数据科学家和分析师量身打造的惠普 Z 系列工作站

使用惠普 Z 系列数据科学移动工作站和台式工作站,从要求严苛的数据集快速获得结果,妥善训练数据模型并实现数据可视化。

了解详情

强劲性能来自
英特尔® 至强®
和英特尔® 酷睿™ i9 处理器。

上一页 

下一页

了解产品

惠普 Z 系列移动工作站

了解详情

惠普 Z 系列台式工作站

了解详情

惠普 Z 系列显示器及配件

了解详情

VR

了解详情

有疑问?
联系销售支持。 

不知道该怎么选
Z 系列工作站?

申请回电

 需要 Z 系列工作站方面的支持?

前往支持页面

免责声明

    1. 惠普专项研究:《了解数据科学家》(Understanding Data Scientists),2021 年 11 月。
    2. 免责声明:Firat Gonen、Heng Cher Keng 和 Ken Jee 都是惠普 Z 系列数据科学大使计划的成员,其所用产品由惠普提供。

     

    产品的Logo及位置可能与图片有所差异,不影响产品性能和功能,请以实物为准。

     

    产品图片仅供参考,因不同国家可能存在稍许差异,实际产品以销售为准。

     

    本文所载信息如有变更,恕不另行通知。惠普产品与服务的完整保修条款见此类产品和服务附带的正式保修声明。本文中的任何信息均不构成额外的保修条款。惠普对本文包含的技术或编辑方面的错误或遗漏概不负责。

     

    英特尔、英特尔标志、酷睿和至强是英特尔公司或其子公司在美国和其他国家(地区)的商标或注册商标。Microsoft 和 Windows 是 Microsoft Corporation 在美国和/或其他国家(地区)的注册商标或商标。NVIDIA 和 Quadro 是 NVIDIA Corporation 在美国和其他国家(地区)的商标和/或注册商标。Linux® 是 Linus Torvalds 在美国和其他国家(地区)的注册商标。AMD 是 Advanced Micro Devices, Inc. 的商标。