从数据到芯片,开发AI越来越昂贵,只有科技巨头能“玩得起”?

来源: 慧聪网
2024-06-02 20:11:11

  更多的训练数据、更大的模型、更多的芯片和数据中心,这些推动人工智能(AI)进步的“基础设施”,正推高科技公司的成本。

  5月,OpenAI与美国新闻集团(News Corp)签订了一项五年内金额超过2.5亿美元的内容授权协议,允许前者使用后者的新闻出版物内容来回答用户查询并训练AI。此前,图片提供商Shutterstock与苹果、Meta、谷歌、亚马逊等大型科技公司签订了2500万至5000万美元的交易,提供其庞大的图片和视频库用于AI训练。

  全球经济分析公司BCA Research美国股票首席策略师唐克尔(Irene Tunkel)对第一财经记者表示,科技公司在AI领域开展了大量工作,但除非销售的是AI相关的“工具和设备”或云存储,否则科技公司更多仍做的是AI资本支出,而不是靠AI挣钱。

  然而,大量的资本开支需求无疑会将无力承担相应成本的公司甩在后面,有能力在这场游戏中竞争的玩家仍将是我们熟知的科技巨头。

  基础设施很贵,资本支出很高

  唐克尔介绍,在生成式AI的生态系统中,提供芯片和计算机硬件、云平台和服务、数据库、网络和分析等产品和服务的属于生成式AI的“基础设施公司”,帮助模型的顺利开发和部署。例如,OpenAI的研究员贝特克(James Betker)曾表示,训练模型的数据是越来越复杂、强大的AI系统的关键。

  但数据该从哪来?据报道,生成式AI模型主要通过从公共网页中获取的图像、文本、音频、视频和其他数据(其中一些是有版权的)进行训练。例如,OpenAI在未经某视频社交网站或创作者许可的情况下,转录了超过一百万小时的相关视频,以供其旗舰模型GPT-4使用。元公司(Meta)也一直在使用旗下公司照片墙(Instagram)上的图片和视频来训练其模型,并只允许欧盟公民退出这一机制。

  随着法律诉讼的增多,AI公司开始选择付费。例如,线上社区Reddit称,该公司已通过向谷歌和OpenAI等组织 许可数据赚取了数亿美元。据报道,AI训练数据市场预计将在十年内从现在的约25亿美元增长到接近300亿美元。

  模型训练也并不便宜。OpenAI首席执行官奥尔特曼(Sam Altman)表示,训练GPT-4的成本超过1亿美元。AI初创公司Anthropic首席执行官阿莫代(Dario Amodei)也称,目前市场上的人工智能模型的训练成本约为1亿美元。他说:“现在正在训练的模型,以及将在今年晚些时候或明年年初推出的模型,成本接近10亿美元。我认为在2025年和2026年,我们的成本将接近50亿美元或100亿美元。”

  芯片支出更是一个大项目。据报道,英伟达的H100图形芯片售价约为30000美元。元公司首席执行官扎克伯格(Mark Zuckerberg)此前曾表示,公司计划在今年年底前购买35万块H100芯片,以支持其人工智能研究工作。此外,亚马逊公司的云计算部门以每小时约6美元的价格向客户租用英特尔公司制造的大型主力处理器集群。

  在云服务中心方面,每一座数据中心的成本都以亿来计算。例如,微软公司与阿联酋AI公司G42宣布,双方将合作投资10亿美元在肯尼亚建设一个数据中心,投资40亿欧元在法国建设AI数据中心和云基础设施。过去两年里,亚马逊也已承诺斥资1480亿美元在全球建设和运营数据中心,以应对AI应用和其他数字服务需求的激增。

  总的来看,微软在4月表示,最近一个季度的资本支出为140亿美元,比去年同期增长了79%,由于AI基础设施投资,这些成本“大幅增加”。谷歌母公司Alphabet也表示,上一季度支出为120亿美元,比去年同期增长91%,并预计今年下半年的支出将“达到或超过”这一水平。与此同时,Meta也上调了对今年投资的预期,目前认为资本支出将达到350亿至400亿美元,在这一区间的上限将增长42%。

  反垄断部门怎么看

  美国艾伦人工智能研究所(AI2)高级应用研究科学家凯尔·洛(Kyle Lo)认为,高额的训练成本将把小公司排除在“开发或研究AI模型”之外。

  凯尔·洛表示,对大规模、高质量训练数据集的日益重视,将把AI开发集中在少数拥有数十亿美元预算、能负担得起获取这些数据集的公司。合成数据或基础架构方面的重大创新可能会打破现状,但在近些年似乎都不会出现。

  “总的来说,管理对AI开发潜在有用内容的实体有动力锁定他们的材料。”凯尔·洛说,“随着数据访问的关闭,我们基本上在为一些早期数据获取者开绿灯,并且撤掉梯子,其他人无法获得数据以赶上来。”

  目前,欧美英的反垄断机构也已经盯上了科技巨头在AI领域的地位。

  例如,英国竞争与市场管理局(CMA)在今年4月发布的报告中称AI基础模型市场中主要参与者的合作关系可能通过其价值链加剧垄断。5月,美国司法部(DOJ)也宣布加强对AI领域竞争情况的关注。近日,美国司法部反垄断部门主管坎特(Jonathan Kanter)表示,过去40年的反垄断政策未能有效保护公众利益,导致了少数公司对市场和信息流的控制。他强调,内容创作者和开发者在当前市场环境中面临的高额费用,在大公司增加对内容创作和分发的控制时尤其如此。

  当涉及大科技公司收购AI初创公司时,富而德律师事务所中国反垄断业务部主管杜宁(Ninette Dodoo)对第一财经记者表示:“欧盟和美国的监管机构正越来越具有干预倾向,同时他们具备的执法工具也有能力对所有并购案件发起法律挑战。”

  金杜律师事务所合伙人吴涵律师告诉第一财经,中、美、欧在AI数字治理领域的监管在一定程度上均具有共性,比如都重点关注AI系统的透明度披露、训练数据治理、知识产权保护、内容安全与伦理等。

  (本文来自第一财经)

责任编辑:欧阳名军

  北青报记者注意到,除了精彩的表演,主会场多项传统文化内容也让参与其中的居民大呼过瘾。一进入位于流水巷38号的主会场内,身着兔子玩偶的志愿者们为每位前来的居民送上小年传统小吃——糖瓜儿,并送上新春祝福。

  “糖瓜粘性很大,过去也叫‘胶牙饧’,在北方习俗中比较常见。”在王娟的记忆中,对许多年长的人来说,过去物质很匮乏,小时候吃的糖瓜,是一种带点奢侈性质的食物。

  丹江口库区的燧石制品及相关遗存是近年在配合南水北调中线工程水源地考古调查和发掘中的新发现。2011年7月至2012年12月,在河南省文物局南水北调文物保护办公室支持下,我们对丹江口库区周围35处遗址和地点进行了调查和试掘,其中25个遗址或地点出土了燧石制品,共计3000余件。燧石原料多分布于丹江口水库周围的豫鄂交界处,质量普遍较好。石制品类型包括石核、石片、石叶、细石叶等,工具包括刮削器、凹缺器、锯齿刃器、锥钻、石镞、砍砸器等。这批石制品至少存在石片石器技术、石叶石器技术和砾石石器技术三种技术风格。石叶遗存的发现为进一步认识中国石叶技术的特点与源流提供了重要材料。其中博山汉墓群地点发现的燧石制品最有代表性,调查采集的燧石制品主要特点为:燧石原料优质,临近原料产地,推测是就地取材;石器类型较为丰富,常见刮削器、锯齿刃器、凹缺器、锥钻、石镞等器形,尤以刮削器和锯齿刃器居多;石叶及石叶工具数量丰富,大部分石叶采用直接硬锤法剥片,表现出一定的本土技术特点和技术多样性;燧石遗存在该区域延续的时间从旧石器时代晚期一直到新石器时代的早中期。

  “山西应瞄准科技前沿项目塑造发展新动能。”山西省政协委员、运城市政协主席张润喜表示,可以瞄准科技前沿项目引人才、定政策、高投入、优环境,从无中生有抓孵化,到由小到大抓培育,持续加力,久久为功。

  齐越峰介绍说,北京市曾在2014年到2016年出台一系列政策,鼓励社会资本进入医院停车场。但从实际情况来看,在北京市内的医院建设地下立体停车库,每个车位成本高达30万元左右,投资方积极性不高。

  没有考上大学,是罗健心里的一个结,但他从没有放弃对知识的追求。罗健喜欢读书。那时候洋浦没有一个像样的书店,罗健就在节假日坐车到省会海口,进了书店一待就是一天。没有多余的钱买书,他就“蹭”书,一本一本看,看到重要的章节就抄下来。罗健最爱看的是无线电技术方面的书,他有一个业余爱好,就是摆弄些电器。同事邻居,这家的电视机不亮了,他去摆弄摆弄就能看了,那家的煮水壶不热了,他去捣鼓两下又能用了。罗健没有想到,他喜欢且擅长的这门手艺,给他带来了一个机遇:2006年6月,公司特招罗健为港口设备修理工。

杜品杰

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有