兼享数据科学工作站与云计算的双重优势
既然能使用云服务,为什么还需要一台数据科学工作站?
如何切实优化你的工作流程
当今最为迫切的需求,就是帮助数据科学家尽快摆脱标准电脑的限制,从传统的笔记本电脑和台式电脑转换至云解决方案似乎已成必然之选。然而,尽管云解决方案可以按需提供巨大容量和强劲算力,但在开发数据科学模型时,它在速度、便捷性、安全性和成本效益上的表现并不尽如人意。
因此,相较于只使用云解决方案,将其与专为数据科学家设计的本地工作站结合使用是一种更为合理的做法。
如果只是在云计算与传统的办公笔记本电脑甚至是台式电脑之间进行选择,云解决方案毫无疑问是更具优势的一方,但实际情况要复杂得多。标准的办公电脑并不是合适的本地设备。数据科学家真正需要的是一台专为满足其特殊需求而打造的工作站。虽然数据科学工作站乍一看可能和传统的笔记本电脑或台式电脑相差无几,但其平凡的外观下却隐藏着足以颠覆现有工作模式的强大技术。
“既然能使用云计算服务,为什么还需要一台数据科学工作站?”
对于数据科学家、机器学习工程师和 IT 决策者来说,“本地还是云端”并不是一个简单的非此即彼的问题,因为仅凭云解决方案满足不了一应所需。
虽然云解决方案能够提供巨大容量和强劲算力,但本地数据科学工作站可以更高效、更安全地运行许多数据科学应用,而且无需担心成本意外升高,特别是在开发和测试模型时。
数据科学工作站和云计算都是不可或缺的工具,它们凭借各自的特有优势,在各种工作流程中扮演着重要的角色。如果把数据科学工作站比作一辆卡车,那么云计算就是一列火车。两者都可以大负荷运转。不同之处在于,卡车具有出色的灵活性,可以将货物运往任意地点。而火车在运载能力和效率方面更胜一筹,但是只有在满载时才能发挥出这些优势。在使用工作站时(与卡车类似),您可以随心掌控并可以预测成本,同时使用方式和地点均不受限制。而在使用云计算时(与火车类似),您可以通过即用即付的模式获取所需空间,但需要谨慎地安排时间并规划预算。正如卡车和火车一样,选择工作站还是云计算并不是一个非此即彼的问题。我们应该根据实际情况灵活地使用这两种工具,使它们恰到好处地发挥各自的优势。
数据科学工作站的适用场景
在日常工作中,您可能需要处理各种各样的任务,包括对计算能力要求较低的建模和分析任务,以及要求严苛的机器学习项目。如果您习惯于将大部分数据科学工作负载都送上云端,那么您选择任何本地电脑都无关紧要。但是,假设您可以将大部分工作负载转移到数据科学工作站。那么您不仅能够保持对工作流程的有效控制,还可以将庞大的数据集保存在本地并进行多种尝试。
而在时间紧迫时,一台低延迟的高性能工作站远远优于云计算。一个有趣的例子是使用数据科学工作站赢得赛车比赛。虽然在比赛之外,车队可能会利用云计算的力量挖掘巨大的数据集,借此获得竞争优势,但在比赛过程中,云端的连接问题和大约 40 秒的延迟会让夺取比赛胜利变成一种奢望。这也是为什么一些经验丰富的车队开始重视起现场工作站的使用。在工作站的协助下,他们可以在比赛现场收集实时数据和建模,从而能够针对下一次进站、轮胎更换、加油等比赛环节制定更明智的策略。当胜利和失败的差距差之毫厘时,性能强劲的工作站或许将成为决定奖杯归属的胜负手。
云计算的适用场景
根据您本地工作站的容量和项目的规模,您可能需要远超本地能力的资源协助。您的数据集可能过于庞大,或者您正在使用不适合在本地计算设备行运行的流数据进行训练。有时可能需要几天或几周的训练才能达到预期的模型精度阈值,其远超本地能够实现的能力。在这些情况下,改为使用云解决方案不失为一种良策。而在时间紧迫时,一台低延迟的高性能工作站远远优于云计算。
哪款工具最能满足您的需求?
要想使数据科学工作流程发挥理想的效果,除了速度和容量之外,还有很多因素需要纳入考量。下面我们来看看一台优质的数据科学工作站应该具备哪些优点,以及如何将这些优点与云解决方案进行结合。
内存
云解决方案理论上可以提供无限大的内存,但有时可能无法满足用户对单节点内存的需求。“我们是否能够在本地运行工作负载只取决于一个因素,那就是‘我们是否拥有足够多的单节点内存?’”英特尔首席数据科学和 AI 解决方案工程师 David Liu 表示,“当我们理解数据科学工作负载的运行原理,知道如何充分发挥其作用时,我们会发现,我们真正需要的是一个单节点系统。这是因为某些用于数据帧操作或类似任务的工具,甚至是一些用于统计的基本机器学习算法,可能并不支持跨多个节点运行。如果我们想证明模型是有效的,那么单节点内存将至关重要。”
数据科学工作站必须能够处理海量的数据,并保证工作负载达到理想的运行速度。
使用本地计算时,这不成问题。但使用云解决方案时,我们必须努力保证所用的内存来自单个节点。另外,如果是在本地工作,那么必须确保工作站具有足够的内存容量。数据科学工作站必须能够处理海量的数据,并保证工作负载达到理想的运行速度。随着时间的推移,数据科学项目的需求正在逐渐增长。过去,8 到 15 GB 的内存足以满足各类项目所需;而现在,数据科学项目的平均内存需求量高达 32 到 128 GB。在云解决方案不适用或对速度要求较高的应用场景中(比如需要快速处理 PB 级别的数据),对大容量内存的需求可能会更加迫切。随着数据科学的不断进步,这一天终将会到来。
一台内存充足的工作站可助您摆脱容量瓶颈,随心所欲地对数据进行编译并高效完成数据分析,而无需担心受到容量干扰。
存储
凭借云计算提供的无限容量,您可以轻松地存储海量数据,但在云端访问所存储的数据时,无法始终确保高效。
本地存储空间越大,扩展试验规模并利用数亿甚至数十亿个数据点进行建模的难度就越小。
也许您可以通过互联网连接处理 1 TB 或 2 TB 的数据集,但如果能够从本地加载数据,则工作效率将得到大幅提升。拥有 TB 级别的本地存储空间,也意味着您不用再担心与数据传输相关的安全风险。每次在安全设备和远程电脑之间传输敏感数据时,您都要承担一定的风险,但若能拥有足够的本地存储空间,这些风险将不再成为您的困扰。
GPU
图形处理单元 (GPU) 在数据科学、人工智能 (AI) 和机器学习等领域扮演着越来越重要的角色。如果您的工作流程涉及并行处理大型数据块,并对这些数据块重复进行相同的运算,那么 GPU 将是您不可或缺的得力助手。在典型的数据科学工作流程中,这种类型的处理通常发生在模型训练期间。此外,在数据科学工作流程的末尾阶段,GPU 也能够帮助您将经过训练的模型部署到生产环境中进行推断。
“GPU 加速的完整 AI 堆栈不可或缺,而且要想高效处理 AI 算法所需的大型数据集,充足的 GPU 内存也必不可少,因为性能通常与 GPU 内存能否容纳整个数据集息息相关。”
Andre Franklin
NVIDIA(惠普联盟合作伙伴)高级产品营销经理
正如 CPU 需要借助特定任务软件来充分发挥性能,则只有在专用软件的加持下,GPU 才能满足数据科学和 AI 工作负载的严苛要求。“GPU 加速的完整 AI 堆栈不可或缺,而且要想高效处理 AI 算法所需的 GPU 大型数据集,充足的 GPU 内存也必不可少,”NVIDIA(惠普联盟合作伙伴)高级产品营销经理 Andre Franklin 写道,“GPU 加速平台提供了丰富的软件支持,允许开发者使用预构建的软件渠道来完成特定任务,如计算机视觉、自然语言处理和推荐系统。”
无论是通过云计算还是本地工作站运行数据科学工作负载,GPU 都是不可或缺的一部分。摆在您面前的选择有很多,包括专为深度机器学习所创建的云资源,以及搭载 GPU 的移动工作站(比如 HP ZBook Studio),它们具备出色的便携性,可助您随时随地通过 NVIDIA RTX™ 显卡释放 GPU 的强大潜能。
软件堆栈
对于非常依赖 GPU 的数据科学应用来说,还要搭配使用适当的软件工具,包括 PyTorch、TensorFlow、Keras 和 RAPIDS。
特定的云解决方案和某些数据科学工作站(比如经过专门设计的惠普 Z 系列数据科学工作站)已经预装了这类软件。虽然这看起来似乎无足轻重,但却可以大幅减轻数据科学家的负担,使他们能够专注于自己的研究领域——收集数据并将其转化为有价值的洞见——而不是被繁琐的软件版本和更新搞得焦头烂额。
严肃的数据科学需要 Linux 环境,而像电子邮件和网络会议这样的日常功能则更适合在 Windows。借助 WSL 2,Windows 和 Linux 可以在同一个工作站上使用,不仅能够强化预装软件堆栈在工作流程方面的优势,同时还可以节省时间和桌面空间。
安全性和移动性
如今,安全性在每个计算领域都至关重要,在数据科学领域尤其如此。大数据作为一个高价值目标,通常包含敏感信息和宝贵的知识产权。云计算需要通过互联网发送敏感信息,因此系统的安全性和薄弱环节的安全性息息相关。其可能是端点设备、云连接、Wi-Fi 路由器或其他潜在的风险暴露点。相较于公有云甚至是私有云,将数据保留在本地的工作站无疑更加安全。
借助 HP ZBook Studio 等便携式数据科学工作站,数据科学家能够随时随地安全工作,无需担心受到网络威胁的侵扰。除此之外,惠普工作站中内置的远程桌面系统可保证仅通过网络发送像素信息,这意味着敏感的知识产权将一直保存在安全环境中,即使数据科学家正在远程查看和操作数据也不会有丝毫影响。
“就我个人而言,”来自英特尔的 Liu 说道,“从数据科学的角度来看,理想的方法是将工作站的硬件配置原封不动地映射到虚拟空间中。这样我就可以随时随地访问系统。”
同样重要的是,虚拟映像必须运行完整的桌面操作系统(不管是 Linux 还是 windows),而不仅仅是一个命令行。也许工程师、开发人员和高性能计算科学家可以利用命令行正常开展工作,但大多数数据科学家来自不同的背景,他们需要完整的用户界面来运行工具。现在已经有了一种方法,可以随时随地完成数据科学工作:将本地化配置和版本上传云端,以访问虚拟化工作站软件。
成本控制
数据科学的确蕴藏着巨大的潜在回报,但这并不意味着组织会给数据科学家和 IT 部门一张空白支票,任其随意填写数字。
工作站的成本是固定的,而公有云则遵循按使用付费的模式。IT 部门可以依据工作站的硬件生命周期预估出成本,而云的使用在不同的项目中会有很大的差异,因此很难进行准确的预算估计。
试验成本
数据科学试验可以很好地诠释预算问题。和其他开发流程一样,数据科学也是在不断的试错中得出成果。这意味着您可以随心所欲地进行尝试,而不用担心犯错。您对外部资源的依赖程度越低,错误造成的时间和成本损失就越少。
这种现象在云计算环境中尤其明显。租用云资源看上去似乎比购买计算硬件更为划算,但要知道,云资源并不是免费的,聚沙成塔,集腋成裘。
当每次错误都要付出代价时,您是否还敢大胆尝试?如果您是在本地开展工作,则尽可大胆而行。
“假设你正在利用云计算技术处理各项数据科学工作,”惠普数据科学和 AI 业务发展经理 Lenny Isler 说道,“倘若你的时间成本是每小时 12 美元。当每次错误都要付出代价时,您是否还敢大胆尝试?如果您是在本地开展工作,则尽可大胆而行。本地计算机的成本是固定的,这意味着本地计算错误只会耗费时间,而不会增加成本。即使进行新的尝试,也无需为每次错误买单。”
如果您清楚错误只需多耗费一些时间,而不会增加成本,那么您可能会更愿意冒险尝试新的想法和创新理念。对于数据科学家来说,这是一个巨大的优势,因为试验是推动研究不断前行的原动力。
找到良好的平衡状态
您是否能够通过合理地搭配使用本地计算资源(比如公司发放的笔记本电脑或高性能数据科学工作站)以及公有云或私有云计算资源来高效地完成手中的工作?在决定哪些任务该在本地执行,而哪些任务该由云端来处理时,您所依据的原则是什么?
正所谓“工欲善其事,必先利其器”,数据科学也不例外。
充分了解高效数据科学工作站或优质云工具的优势后,您可以获得最理想的结果,并规避安全风险、成本超支和长时间等待等诸多挑战。
如果能合理地划分任务,充分发挥工作站和云计算各自的优势,而不是将单个选项作为一体通用的解决方案,则您的工作效率将得到全方位的提升。
名副其实的数据科学工作站
并非每一款工作站级计算机都能够胜任数据科学工作。作为惠普旗下的高阶计算系列,惠普 Z 系列在打造优质工作站方面先人一步,推出了从灵活的移动工作站到高性能台式工作站的产品组合,专为数据科学家的需求量身定制。
了解惠普 Z 系列产品如何帮助您在本地计算和云计算之间流畅地切换,从轻盈纤薄的 ZBook Studio 到移动性和性能皆为出色的 ZBook Fury,再到机架式工作站 Z4 R 和性能傲视群雄的 Z8 台式工作站,总有一款符合您的需求。惠普 Z 系列数据科学工作站可实现开箱即用,具备出色的性能、内存和存储空间,搭配 NVIDIA RTX 显卡时还可提供出色的 GPU 并行处理能力。这些工作站将数据科学硬件功能与惠普 Z 系列预装数据科学软件堆栈相结合,而且搭载了 WSL 2,可同时运行 Ubuntu 和 Windows。1 预配置软件堆栈包括 TensorFlow、Keras、PyTorch、Git、Visual Studio Code、PyCharm 和 RAPIDS。这些经过特殊配置的惠普 Z 系列工作站专为满足数据科学家的需求而打造,可帮助开发和测试模型,提供实现企业级灵活性所需的工具,同时还具备超强的性能,可带来巨大的竞争优势。
为数据科学家和分析师量身打造的惠普 Z 系列工作站
使用惠普 Z 系列数据科学移动工作站和台式工作站,从要求严苛的数据集快速获得结果,妥善训练数据模型并实现数据可视化。