首页 业界动态 数据是AIGC时代的“命门” 亚马逊云科技全面布局企业数据服务

数据是AIGC时代的“命门” 亚马逊云科技全面布局企业数据服务

基础模型搭建了之后,企业对生成式AI的建设关键来到数据层面。 近日,在亚马逊云科技 ” 无数据不模型——生成…

基础模型搭建了之后,企业对生成式AI的建设关键来到数据层面。

近日,在亚马逊云科技 ” 无数据不模型——生成式AI时代的数据基座 ” 媒体沟通会上,亚马逊云科技大中华区产品部总经理陈晓建强调了数据在生成式AI时代的关键作用。他表示,数据在生成式AI时代处于核心地位,企业要想在生成式AI时代取得成功,必须从数据做起,利用自身的数据构建具有商业价值的AI应用。

陈晓建认为,企业需要构建以下3个方面的数据能力:模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力、有效处理新数据以助推生成式AI应用持续快速发展的能力,在被问及AIGC时代,亚马逊云科技在人工智能推理成本和训练成本上是否不像在原本的商业模式上有优势时,亚马逊云科技方面表示,还是看重客户最终要的是什么。言下之意,亚马逊云科技希望无论AIGC时代的服务成本怎么变动,自身的商业模式仍是以提供云基础设施、模型层、应用层的工具与服务为主。

数据处理为何重要

大量的、高质量的数据对生成式AI的重要性已经不言而喻。

亚马逊云科技方面此次表示,如果每个公司都能访问相同的基础模型,那么各个公司处于同一起跑线;而能够利用自身的数据构建具有真正商业价值的生成式AI应用的公司,就赢在了起跑线上。

可以说,生成式AI基础模型的局限性之一,在于无法及时拥有企业的专有数据。如果想让模型服务于企业发展,那么通过技术手段加速数据与模型的结合,就成了企业数据基座的关键之一。

陈晓建进一步表示,成功的企业需要懂业务、懂用户的生成式AI应用,而这些应用的构建需要从数据做起。他举了位于美国的人工智能初创公司Perplexity的例子,其通过将传统搜索、客户数据与大型语言模型相结合,实现了快速增长。

也是因此,这家公司是人工智能领域的 ” 红人 “。据悉,Perplexity正进行至少2.5亿美元的新一轮融资,估值可能达到25亿至30亿美元。而这家公司在过去四个月中刚刚进行了两笔大额融资,并且估值实现了飞跃:今年1月,Perplexity 以5.4亿美元的估值筹集了近7400万美元;3月初,Perplexity以10亿美元的估值融资约6300万美元。

目前来说,用企业自身的数据去差异化生成式 AI 应用、通过数据定制基础模型的方式主要分为三大类:检索增强生成(RAG)、微调、持续预训练。这三种方式在不同应用场景中的适用性和对数据的要求不同。

亚马逊云科技的对策

亚马逊云科技强调了自身在数据基座构建方面的三大核心能力:模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力。

在数据存储方面,亚马逊云科技提供的Amazon S3服务可以满足用户在微调和预训练基础模型时对数据存储的严格要求。同时,文件存储服务的亚毫秒级延迟和高吞吐性能,将进一步加快模型优化速度。

数据清洗和治理方面,亚马逊云科技通过Amazon EMR Serverless和Amazon Glue等服务,帮助企业高效完成数据清理、去重和分词等操作,使企业能够专注于AI业务创新。

此外,亚马逊云科技还着重强调了其在向量搜索和无服务器架构方面的创新。其中,检索增强生成(RAG)技术被普遍认为是实现数据与模型结合的主要途径之一。RAG通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。

向量搜索与数据存储的结合可以带来多方面的好处,包括更高效和更精确的检索能力、处理和索引大规模的数据等。目前来说,结合向量搜索和数据存储的优势,可以构建出强大的信息检索系统,满足现代应用对于速度、准确性、可靠性和智能化的需求。

但这同时也带来一部分成本问题,比如需要更多的存储空间。对此,陈晓建告诉《每日经济新闻》记者,存储上确实会让成本有所增加,但能够在整个数据内容检索时取得更好的效果。

亚马逊云科技同时表示,自身已在8种数据存储中添加了向量搜索功能。客户还可以通过Amazon Memory DB内存数据库,降低生成式AI应用的模型调用成本和响应延迟。从亚马逊云科技对生成式AI时代数据基座的看重,可以看到数据处理的重要性以及企业在这一领域面临的挑战与机遇。对于亚马逊云科技来说,为AIGC时代的企业提供更全面的服务也是机遇与挑战并存。

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: 云采编

云导航智能化采编助手,如您有疑问请参阅 https://www.idcnav.com/aboutus

为您推荐

阿里通义千问宣布启用新域名“tongyi.ai”,网页版聊天新增深度搜索功能

阿里通义千问宣布启用新域名“tongyi.ai”,网页版聊天新增深度搜索功能

据IT之家8月19日消息,阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。 IT之...
互联网名称与数字地址分配机构保留.internal顶级域名,用于内部网络访问

互联网名称与数字地址分配机构保留.internal顶级域名,用于内部网络访问

8月8日消息,科技媒体theregister今天(8月8日)报道,互联网名称与数字地址分配机构(ICANN)已同意保留....
济南市历下区与华为合作正式签约 济南人工智能计算中心上线运行

济南市历下区与华为合作正式签约 济南人工智能计算中心上线运行

齐鲁网·闪电新闻8月6日讯 8月6日,济南市政府新闻办召开“庆祝新中国成立75周年 推进高质量发展”主题系列新闻发布会的...

.com域名批发价9月1日起涨至10.26美元,年涨幅7%

据IT之家8月6日消息,Verisign公司本月发布公告,宣布将于9月1日上调.com 域名的批发价格,从9.59美元(...
初创公司180万美元购买域名friend.com

初创公司180万美元购买域名friend.com

近日,一枚单词域名friend.com以180万美元的高价易主,据悉,买家为一家人工智能穿戴设备品牌。 值得一提的是,这...
返回顶部