omniture

才云@KubeCon 中国首秀:勾画云原生“未来式”

2018-11-16 23:29 8268
2018年11月13日,代表 Kubernetes 技术领域较高峰会的 KubeCon + CloudNativeCon China 2018 在上海拉开帷幕,这是才云 Caicloud 第五次深度参与 KubeCon。

杭州2018年11月16日电 /美通社/ -- 2018年11月13日,代表 Kubernetes 技术领域较高峰会的 KubeCon + CloudNativeCon China 2018 在上海拉开帷幕,参与人数逾 2500 人。这是 KubeCon 盛会首次登陆中国,也是才云 Caicloud 第五次深度参与 KubeCon。

大会头图
大会头图

 

Keynote:《如何基于 Kubeflow 让国家电网变得更加智能》

在11月15日 Keynote 演讲中,才云 COO 韩佳瑶博士和才云 CEO 张鑫博士带来了《如何基于 Kubeflow 让国家电网变得更加智能》演讲,分享了才云对于新一代 AI 类型业务在国家电网众多生产环节场景落地中存在的挑战和解决办法。演讲中提到在现今中国激烈的数字化转型市场竞争环境下,企业在 AI 类应用和服务落地实践中正面临巨大挑战。

传统的方式即依托于第三方算法公司进行黑盒算法模型开发,无论对企业维持自身竞争壁垒提高转型效率,还是打破算法科学家 VS 软件尤其是底层与平台工程之间(model developers vs. system admins)的屏障上而言都将变得越来越不可持续。演讲提到,我们对于 CPU 资源分配、调度、管理和 Java 类应用的管理早已进入云原生时代,但对于新型 GPU、AI 类业务和软件的资源调配和管理方式还停留在“史前时代”。

演讲继续介绍了才云 Caicloud 容器智能云平台(Caicloud Compass + Caicloud Clever)整体架构和工程设计方案是如何为国网电力实现从底层到 PaaS 一系列资源环境和工具模块的协同从而为最终上层多样 AI 模型和业务 Pipeline 进行服务。

 

Session talk:《从终端用户角度剖析 Kubeflow 现状之利弊》

15 日下午在 Room 1 ML 专场的 Session talk 中,才云 CEO 张鑫博士和才云 CTO 邓德源联袂带来《从终端用户角度剖析 Kubeflow 现状之利弊》。以谷歌 AI 负责人 Andrew Moore 的观点 “AI 并不是企业的华丽魔法,AI 落地任重道远”为开场,张鑫介绍了 Kubeflow 项目的使命,是作为搭载在 Kubernetes 之上的可移植、可扩展、可组建的机器学习栈。对 AI、机器学习应用能真正在生产上落地这一目标而言,仅有 ML 层面的模型和算法尚不足以满足这个需求。

尽管外界对 Kubeflow 充满极大期待和兴趣,但目前的 Kubeflow 还远不是银弹。通过和数十个企业客户的调研,张鑫提到目前 Kubeflow 存在如下问题:

  • Kubeflow 缺少服务多模型训练被按次序来触发调度同一块 GPU 的机制;
  • 缺少任务的资源限制和资源分配的机制;监督式学习训练缺少数据处理(包括打标、数据清洗等)机制;
  • 缺少对训练过程中数据录入、训练、测试、通过、再训练这整个流程的持续集成、持续发布机制从而使得模型本身无法保持最新状态;
  • 缺乏“模型仓库”来做不同模型之间的跟踪、比对、切换;以及 Kubeflow 缺乏一些内置可部署的业已经典的但可调试参数的模型;
  • 缺乏多个模型并行训练的机制;
  • 缺乏对单个模型调参的机制等。

在张鑫和邓德源看来,所有目前 Kubeflow 所缺乏之种种都是阻碍企业和开发者真正将 AI 模型、应用、软件能迅速进行开发并上线生产的原因所在。他们继续介绍了才云机器学习平台 Caicloud Clever 是如何从数据管理、打标系统、批处理作业和可视化代码编辑等环节来补齐 Kubeflow 现有尚存缺失的功能环节。他们表示,在不久的将来,才云将把这些功能尽力推向 Kubeflow 开源版本。

 

展示剧场(Demo Theatre):Caicloud Clever + Compass 

在11月14日下午的展示剧场活动中,才云 Caicloud 研发副总裁肖勤从中国当今企业需求出发,以多年实战经验阐述才云 Caicloud 产品为企业带来的便利。Caicloud Compass 深度整合 Kubernetes,为用户提供以多集群、多租户为核心的资源管理能力;降低企业运维成本、时间成本,助力企业搭建功能完备、界面易用、性能卓越的容器平台。

从企业角度来看,容器化改造对于关键的业务交付效率、基础设施资源利用率普遍会带来很好的收益,尤其是对交付效率和资源成本更为关注的轻资产型业务,这也是为何容器技术得到广泛关注与应用的主要原因。而相对而言,容器化改造所带来的问题则可以通过引入一些工具与服务进行解决,比如在 Caicloud Clever 产品中,开源出来的云原生 CI/CD 引擎,可更好地优化企业场景,支持 AI 工作流。

 

Session talk:《对 Kubeflow 上的机器学习工作负载做基准测试》

机器学习、模型训练处于人工智能革命的前沿,我们相信机器学习将带领我们进入通用 AI 时代。当 Kubernetes 与机器学习相遇,又会擦出什么样的火花呢?我们知道在机器学习中,可预测性最为关键,只有更为精准的预测性才能让 Kubernetes+AI 操作丝毫不差。

此次,才云 Caicloud 工程师高策与 Cisco 高级工程师黄昕元联手,以《对 Kubeflow 上的机器学习工作负载做基准测试》为题,通过 TF CNN 基准测试工具为我们实际介绍了在机器学习中引入 Kubernetes  对于训练速度的影响以及在 Kubernetes 上的 ML 工作量的性能特征。

演讲人高策提到“证明在 Kubernetes 上运行机器学习或者深度学习的工作负载,由虚拟化引入的在模型训练速度 overhead 可以接受”进一步证明了 Kubeflow 在生产环境使用的可能性。

 

才云 Caicloud 乘风破浪,倍道而进

在本次大会中,才云对云计算和智能云平台落地方案多次发声。在一份 2017 年来自美国各行各业共 201 家企业 IT 决策者的容器部署调研报告中,90% 的受访者表示,与虚拟机相比,Kubernetes 具有可扩展性优势,近 75% 的公司正在使用 Kubernetes。如今在中国,利用 Kubernetes 编排也已成大趋势作为国内较早期 Kubernetes + ML 的实践者,才云 Caicloud 将为推动中国云原生、智能应用云原生化继续砥砺前行。

消息来源:杭州才云科技有限公司
China-PRNewsire-300-300.png
全球TMT
微信公众号“全球TMT”发布全球互联网、科技、媒体、通讯企业的经营动态、财报信息、企业并购消息。扫描二维码,立即订阅!
collection