2022
·
September
面向数据共享的模型训练服务系统
作者简介
论文简介
《面向数据共享的模型训练服务系统》一文发表于《》期刊2022年第2期。
数据驱动的人工智能应用需要大数据支持,然而现实中因隐私保护等原因,数据往往互不流通,而以孤岛形式存在。如何实现数据安全可用是当前亟待解决的问题。设计和实现了面向数据共享的模型训练服务系统,通过向用户提供数据功能服务接口而非数据本身,实现数据可用不可见。重点针对资源受限的数据共享平台,设计了高效的资源分配和作业调度方法,特别是通过自动资源缩放来应对多变的工作负载,达到优化用户体验和提高资源利用的目的。实验表明,相较于常规的作业调度方法,本系统在各种工作负载下都具有响应服务请求快、作业完成时间短的优点。
2022 · September
主要内容
一、相关工作
二、实验设置
测试平台是由3台服务器组成的小型集群,服务器之间通过万兆以太网连接。一台服务器同时承担主控节点、工作节点和存储服务器的功能,配置IntelXeon Gold 6230处理器,运行Ubuntu 16.04操作系统,配有4块NVIDIA RTX2080Ti GPU卡。另外两台服务器作为工作节点,配置Intel Xeon E5-2699 v4处理器,运行CentOS 7操作系统,每台服务器配有4块NVIDIA Tesla P100 GPU卡。所有服务器部署Docker引擎,版本为1.15.3。
选取深度学习中常见的5种图像分类模型作为要训练的模型,深度学习框架为TensorFlow,数据集为TensorFlow Datasets中的dogs_and_cats和tf_flowers。预先测得这些模型在一块GPU上完成一轮(epoch)训练的用时在1~2 min。为模拟一轮训练用时较长(10 min以上)的作业,在AlexNet模型的基础上增加了数量不等的卷积层。
三、结论
本文设计与实现了基于数据共享平台的模型训练服务系统,通过在自有数据集上为用户提供模型训练服务实现数据可用不可见。系统的核心是以最小化请求响应时间和最大化资源效用为目标的一组资源分配和资源缩放策略,兼顾了用户体验和平台收益两方面因素。通过利用不同负载特性和不同作业到达密度的作业集在小型集群上进行的实验表明,与常规作业调度方法相比,本系统在服务请求时间和作业完成时间方面都有上佳的表现。可以预见,数据共享平台及模型训练服务系统的广泛应用,将极大地促进数据的安全流通和使用。
2022 ·September
Powered by 小羊羔外链网 8.3.12
©2015 - 2024 小羊羔外链网
您的IP:3.19.31.73,2024-04-26 13:18:24,Processed in 0.05465 second(s).