北京2023年8月31日 /美通社/ -- 进入2023年,ChatGPT推动世界步入一个全新时代——大模型时代,它不仅引发了AI产业的整体升级换代,同时也让各种大模型层出不穷,背后的关键原因在于,大模型能普遍提升生产力,而业内众多公司也都在积极寻找应用大模型和生成式AI的机会,希望在产业端有所作为。
确实如此,ChatGPT之所以被称为AI的"iPhone时刻",源于ChatGPT为代表的生成式AI能够让每个人命令计算机解决问题成为了可能,其可对生产工具、对话引擎、个人助理等各类应用,起到协助人、服务人甚至超越人的角色,而凭借这项革命性的技术突破,ChatGPT在搜索引擎与各类工具软件中率先掀起应用热潮,并引起了行业用户对ChatGPT相关技术的关注与学习。同时,海量下游应用也因此捕捉到新的技术与产业机会,希望通过各类大模型与工程化能力,将类ChatGPT产品能力输送到原有的应用中,更好的赋能企业的数智化转型。
但也要看到,要让大模型从"已有"走向"可用"并不是"一蹴而就"的过程,更多的企业通常会面临数据资源有限、算力投资难度大、模型泛化能力差、高水平人才稀缺的发展瓶颈。也正因此,对更多的企业来说,未来更加"务实"的做法,就是选择适合自己的大模型服务商,"站在巨人的肩膀上",更好地"用好"大模型。
正是洞察到这种迫切的市场需求,作为数字化转型的实践者和赋能者,软通动力近年来始终坚持以全栈式数字技术为行业客户创造价值,特别是在大模型领域,软通动力也在积极地探索与实践,希望凭借自身在AI基础设施、AI专业人才,AI生态以及在通用领域和专用服务领域沉淀的丰富应用实践,为行业客户提供大模型落地的专业服务,打通大模型落地"最后一公里",更好地加速千行百业拥抱大模型的新时代。
大模型落地的四重挑战
毫无疑问,几乎没人会怀疑大模型对未来的颠覆性影响。但现实是,国内对大模型的探索仍处于早期阶段,无论在研发、迭代还是使用阶段,大模型都是一个消耗资源巨大、使用成本也不低的"奢侈品"。除了成本居高不下之外,企业想要在实际业务场景中部署使用大模型,还面临着数据、参数调优、人才等诸多的落地难题。
对此,软通动力数字化创新服务线副总裁霍宇表示,今年以来软通动力积极在大模型领域探索与实践,发现大模型要落地到行业和企业之中所面临的挑战非常之多,可以从几个维度来做观察:
一是,从算力的维度看,训练大型模型需要大量的计算资源和资金投入,这对于众多的企业是巨大的挑战。"公司今年在大模型基础算力方面的投入预计将会近亿元,未来还会持续。在这个领域,如果需要形成有竞争力的产品或者方案,上千万的资金投入只能算是起步门槛,可以说大模型的算力和训练成本极高,这也包括现在经常提到的行业大模型,垂直领域大模型,所以说算力方面就是一个躲不过去的高门槛。"霍宇表示。
二是,从数据的维度看,以生成式AI来说,训练的语言模型就需要具有更高的丰富度和复杂性,才能更好地理解和生成各种语言表达形式。例如,不同的语言有不同的句法结构、词汇使用规律、语义关系等特点,因此训练模型需要包括更多的语言知识和规则,以适应这些差异。同时,不同的语言还可能包含一些特殊的表达方式、文化背景等,训练模型还需要考虑这些因素,以更好地模拟和生成各种语言表达形式。不仅如此,为了提高模型的丰富度和能力,还需要使用更加大规模、多样化、真实的语言数据集,以提高模型的泛化能力和丰富性,使其能够更好地适应各种语言场景和应用需求。
在霍宇看来,大模型训练的语料问题本质上就是企业的数据治理的问题,一方面要求企业必须要获取大量可用和可信的数据;另一方面,数据还需要经过治理,形成结构化和标准化的数据,从而更好的训练出所需要的大模型服务。
三是,从算法的维度看,AI模型的发展从AlexNet发布开始,随后的研究多数是围绕着模型的深度和广度探索,发展至今已有BERT、 GPT等典型模型出现,也掀起了预训练模型的热潮,目前国内的大模型参数也已经攀升至千亿、万亿级别,其准确度也在不断的刷新 SOTA。
但与此同时,对于企业而言,如何选择合适自身的预训练模型,如何在具体场景和任务下,基于成熟的大模型进行微调能够快速地产生准确结果,以及究竟是选择商用还是开源的大模型服务,如何平衡成本和训练效果,同样也是非常让人"头疼"的问题。
四是,从人才维度看,随着越来越多的企业开始广泛应用大模型,相关的人才需求也成为了新的挑战。以在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的AI训练师为例,相关数据显示,这类人才目前就出现了大量的"缺口"亟待满足。
不难看出,虽然我们已经见证了大模型开始与场景、行业进行深度融合并取得了不错的成绩,验证了大模型已不仅在科技企业中应用,也迈出了走向千行百业的步伐,但大模型的落地并不是一件简单的事情,仍需要解决好算力、数据、算法、人才等方面带来的全新挑战。
以服务入局大模型赛道
基于此,从今年年初开始,软通动力就积极布局大模型赛道,不仅投资建设AI算力基础设施,同时也站在服务和落地的视角,希望能够凭借自身在AI人才资源,AI平台工具,AI合作生态以及"躬身实践"中沉淀的经验和方法论,和行业客户共创能够落地的大模型服务,更好地帮助企业迎接大模型时代的到来,具体来说:
首先,在AI人才资源方面,这是软通动力在大模型赛道中独具特色的优势。公司凭借十余年的技术积累和行业经验沉淀,通过将自身的服务能力横向拉通、整合之后,目前不仅能够为行业客户提供"全栈化"的数字技术服务,同时更积累了一大批高质量的数字化人才。
"我们的第一个切入点就是AI人才方向,投入专门的算力平台作为培养工程师上手并熟悉大模型的工程实践环境,能够让相关开发语言的工程师和架构师更快更熟练玩转大模型,希望通过对算力及人才的投资,让他们能够把大模型从产品到落地应用之间的链条打通,成为大模型领域的专家。而在未来,这批专家资源的能力不仅可以传递给更多的员工;另一方面,对企业来说,也可以直接获得专家资源的帮助,直接进行企业所需要的大模型开发或者提供参数调优等相关的服务。"霍宇说。
其次,在AI平台工具方面,软通动力也打造了软通天璇2.0 MaaS 平台。据介绍,基于产业服务需求,软通天璇2.0 MaaS平台在整合软通行业模型管理平台(iSS Model Ops Platform)、软通应用开发平台(iSS Model Dev Tools)、软通场景Plugin应用服务平台(iSS Model Plugin Store)等产品的基础上,能够为客户提供大模型的数据处理、大模型一站式运营服务、继续训练、调优、部署、推理和数字资产管理、数据安全等服务。值得一提的是,软通动力全新升级的训推一体化平台,基于昇腾硬件底座,采用软通G420K训练平台和软通G210K推理平台,整合欧拉操作系统等组件,搭载自有AI中台,能够为用户提供多种交互式AI模型,深度适配不同AI应用场景,在央国企、教育科研、金融等多行业多领域都可以应用。
第三,在AI合作方面,软通动力与行业内头部和主流大模型厂商都建立了生态向的合作。不仅率先接入了微软Azure云 GPT4,并且也是百度文心一言、华为云盘古大模型、阿里通义千问、元乘象ChatImg2.0的生态合作伙伴,同时也在积极深研诸如ChatGLM、DeepSpeed Chat、OpenAssistant、Alpaca、LLaMA等开源大模型。
霍宇认为,软通动力在AI合作生态方面全方位的"布局",最大的价值在于团队通过使用这些第三方的商用大模型服务,以及开源大模型,沉淀了不少的经验和方法论,而这些实践和经验,对行业客户落地大模型也是具有极高的参考价值和借鉴意义的,可以避免企业在大模型落地过程中少走"弯路",这也是一种较为"稳妥"的落地方式。
最后,是大模型落地实践方面,软通动力也正在和行业客户通过"共创"的形式,更好地推动企业拥抱大模型时代。
"现在不少行业客户都找到软通,他们认为目前如果企业自己要搞一套大模型是有困难的,这些行业客户的优势在于他们有不少的行业数据,但是并不知道如何让这些数据更好地实现语料化,或者如何让大模型在节省算力的基础上,更快地实现训练或者推理等等。除此之外,搭建行业大模型,前期的规划以及选型,也是一道门槛,而这些正是软通动力擅长的工作,因此双方可以通过共创的形式,共同推进大模型的落地,目前公司已经和不少的银行和保险行业的客户展开相关的合作。"霍宇说。
正如IDC最新发布的《AI大模型技术能力评估报告,2023》中提到的:"对于行业用户来说,在关注厂商大模型技术栈完备性的同时,应着重考察厂商的产业应用经验积累,主要发力点应集中在应用层,将技术应用到实际业务场景中,提前布局,积累行业、场景经验和数据,由此才能‘站在巨人的肩膀上'打造差异化竞争优势。"从这个角度来说,软通动力在大模型服务领域积累的四大优势,无疑可以更好地帮助企业拥抱大模型,加速企业的数智化转型。
打通落地"最后一公里"
事实上,软通动力以服务模式"卡位"大模型赛道,本身也是深思熟虑和审慎考量的结果。
霍宇告诉我:"当大模型浪潮袭来之时,我们首先否决掉的就是自己下场做通用大模型平台,更多还是考虑从行业大模型的赛道入手,但深入研究之后又发现,要做行业大模型,垂直行业中的数据和语料也至关重要。因此,作为一家服务型的公司,软通动力以服务的模式切入这个市场是最为合适的,我们可以通过专家资源、平台工具,以及经验和方法论,加上行业客户手中的数据资源,双方以共创的形式合作,是能够以较快方式实现大模型落地的。"
同样,以"服务"模式入局大模型赛道,也让软通动力能够以更加"全局"的视角来观察和看待整个大模型市场,并从中沉淀和总结出了不少大模型落地中值得重视的关键事项。
第一,是关于开源和商用大模型的选型问题。对此,霍宇认为,基于业务的需求情况,中国企业也会像选择公有云和私有云部署那样,既会选择直接接入商用大模型,也会选择基于开源大模型部署本地化的服务。
"抛开算力资源问题不说,如果单看模型参数大小,开源大模型在相对小的规模上能力已经接近商用模型,渐渐有了赶超的势头。另外,相对追求大而全的通用商用大模型,在垂直领域的模型训练上,开源模型的数量已经超过商用模型,因此企业不用太担心开源大模型会落后于主流的商用大模型平台。而在行业大模型领域,应该说整个市场都还不太成熟,还处在探索与实践的阶段,这就需要整个产业链通过共创的方式,推动行业大模型的慢慢成熟,最终打通落地的最后一公里。"霍宇说。
第二,除了算力和模型参数之外,企业应该把重心放在数据以及语料的沉淀上。在霍宇看来,目前语料确实是一个稀缺资源,但很多企业没有意识到这一点,未来企业如果要做大模型,数据和语料就是绕不开的问题。也正因此,数据和语料的质量问题就变得尤为重要,同样底层数据的清洗、标注、治理等一系列的工作也变得更加地迫在眉睫。
"我们目前也正在帮助一些行业客户做数据治理的工作,我们判断做数据和语料的工作还会长久持续,只不过很多工作如数据标注、数据收集的工作会变成‘工具+人工'的方式,同时这些数据和语料也会更加关注行业属性。不仅如此,在具体的实践过程中,我们也总结和沉淀了如何把语料或数据形成标准化的方法论,多大的参数量需要‘喂'它多少的语料能够达到比较合适的性价比,这都是软通动力正在做的事情。在此基础上,业务规则的设定,数学建模以及参数调优,以及后续长期的优化等工作,我们也都是可以为行业客户提供相关服务的。"他说。
第三,向量数据库也是软通动力关注的重要方向。向量数据库主要用在AI和机器学习领域。在这些领域,数据通常以向量的形式呈现,可以有效解决文本、图片、音频、视频等非结构化数据存储和查询的难题;而在大模型时代,目前对非结构化数据进行管理和处理的主流方法是,利用RNN或 Transformer 等嵌入模型(Embedding Model),将非结构化数据的语义内容转化为多维向量,并直接对这些向量进行存储、处理,由此可以为大模型的训练、学习等提供更好的数据支撑。
霍宇认为,向量数据库在大模型中将会起到三个方面的作用和价值,包括它目前已成为推动大模型迭代和进化的核心技术,同时它对企业的定制化需求也会有质的影响;更为关键的是,向量数据库对以后的数据型项目的交付也会产生比较大的变革。
"我的理解是,向量数据库是对数据科学的再一次‘数字化',可以简单地对比原来以表结构横纵为主的数据库,是用二维或者多维结构来表现,那么向量数据库就是用一维结构来表现世界。因此随着向量数据库和算力以及AGI技术的发展,未来的数据交付模式就会改变,由此也会产生全新的商业模式,我们对此也是高度关注。"霍宇表示。
回头来看,软通动力这种"行胜于言"的务实风格,让它在大模型服务赛道中构建了属于自己独特的竞争优势。在AI算力资源上真金白银的投入,对一家服务型企业而言,背后是决心的彰显和对市场大势的把握。这使得软通动力一方面可以提供充足的算力资源供工程师和开发人员上手,积累和沉淀实操经验;另一方面,也可提供现场Demo环境供企业客户使用,让客户能切实感受到大模型带来的全新价值。"
未来,我们还会继续储备更多的专家资源,持续在平台和工具上做投入,并根据客户的业务应用场景强化数据和语料的质量,最终提升交付的效率,以更好的创新服务模式打通大模型落地的最后一公里。"霍宇如是说。
在"躬身实践"和"作壁上观"之间,软通动力选择了前者,这也让其对大模型市场有了更加深刻的认知和洞察,同时其过去一段时间的大胆实践,也让其在人才、工具、生态乃至方法论方面有了更多的积累和沉淀,而这也是软通动力有能力,更有信心让更多行业客户加速拥抱大模型时代的底气所在。