微软、谷歌和Meta押注合成数据构建AI模型

来源: 山西新闻网
2024-05-12 08:32:02

  然而,这个计划存在一个大问题:网络上能够提供的高质量数据是有限的。为了得到这些数据,人工智能公司通常的做法是,要么向出版商支付数百万美元以获得内容许可,要么从网站上下载数据,使自己面临版权纠纷的风险。越来越多的顶流人工智能公司正在探索另一种在业内引发分歧的办法:使用合成数据,从本质上来说就是假数据。

  这种办法的工作原理是这样的:科技公司可以利用自己的人工智能系统来产生文字和其他媒体。然后,可以用这些数据训练同一个系统的未来版本,Anthropic的行政总裁达里奥·阿莫代伊(Dario Amodei)称之为潜在的”无限数据产生引擎”。这样一来,人工智能公司就可以避免引发许多法律、道德和隐私方面的问题。

  在计算中合成数据的想法并不新鲜——这项技术已经被使用了几十年,涉及到从个人信息的去匿名化到自动驾驶技术路况模拟的各个领域。但是,产生式人工智能的兴起使人们可以更容易大规模建立质量更高的合成数据,而且也使这种做法有了新的紧迫性。

  Anthropic表示,它使用合成数据来构建为其聊天机械人Claude提供支持的最新模型。Meta和Google已经使用这种数据来开发他们最近的开源模型。GoogleDeepMind最近表示,它依靠这种方法来帮助训练一个可以解决奥林匹克竞赛级别几何问题的模型。很多人猜测,OpenAI是否正在使用此类数据来训练其文字到影片影像产生器Sora。(OpenAI透露它正在探索使用合成数据,但不愿证实进一步的细节。)

  在微软,产生式人工智能研究团队在最近的一个项目中使用了合成数 据。他们希望构建一个规模较小、资源密集程度较低的人工智能模型,但仍具有有效的语言和推理能力。为了做到这一点,他们试图模仿孩子透过阅读故事来学习语言的方式。

  该团队并没有向这个人工智能模型提供大量儿童读物,而是列出了四岁孩子能够理解的3000个词汇。然后,他们要求这个人工智能模型使用词汇表中的一个名词、一个动词和一个形容词来创造一个儿童故事。研究人员在几天的时间内重复了数百万次这个提示,产生了数百万个短篇故事,最终帮助开发出了另一个更强大的语言模型。微软已经将这个新的”小型”语言模型系列Phi-3开源并向公众开放。

  微软产生式人工智能副总裁布贝克(Sébastien Bubeck)说:”突然之间,你拥有了远多于过去的控制权。你可以在更精细的层面上决定你希望自己的模型学习哪些东西。”

  布贝克说,利用合成数据,你还可以透过为数据新增更多解释来更好地指导人工智能系统完成学习过程,不然的话,机器在处理过程中可能会感到困惑。

  但是,一些人工智能专家对这种技术存在的风险感到担忧。牛津、剑桥和其他几所知名大学的一组研究人员去年发表了一篇论文,解释了使用ChatGPT产生的合成数据来构建新的人工智能模型为何会导致他们诉说的”模型崩溃”。

  在他们的实验中,基于ChatGPT的输出内容建立的人工智能模型开始出现”不可逆转的缺陷”,而且似乎失去了对最初训练内容的记忆。举例来说,研究人员用有关英国历史建筑的文字提示一种大型语言人工智能模型。当他们使用合成数据多次重新训练这个模型后,这个模型开始产生有关长耳大野兔的毫无意义的胡言乱语。

  研究人员还担心,合成数据可能会放大数据集当中的偏见和毒性。合成数据的一些支持者则表示,透过采取适当的措施,用这种方式开发的模型可以和基于真实数据构建的模型一样准确甚至更好。

  剑桥大学(University of Cambridge)博士舒梅洛夫(Zakhar Shumaylov)在一封电子邮件中说道:”如果处理得当,合成数据会很有用。然而,对于如何才能处理得当,目前还没有明确的答案;有些偏见对于人类来说可能很难察觉。”舒梅洛夫是上述关于模型崩溃论文的合著者之一。

  还有一个更具哲学性的争论:如果大型语言模型陷入根据自身内容进行训练的无休止循环中,那么人工智能最终是否会变得不再是模仿人类智慧的机器,而更多的是模仿其他机器语言的机器?

  斯坦福大学(Stanford University)计算机科学教授Percy Liang表示,为了产生有用的合成数据,公司仍然需要真正的人类智慧结晶,比如书籍、文章和程序代码。梁在一封电子邮件中说道:”合成数据不是真实的数据,就像你做梦登上了珠穆朗玛峰并不是真正登顶了一样。”

  合成数据和人工智能领域的先驱们一致认为,你不能将人类排除在这个过程之外。我们仍然需要真人来建立和完善人工数据集。

  布贝克说:”合成数据并不是简单地按下一个按钮然后对它说,“嘿,帮我产生一些数据。”这是一个非常复杂的过程。在大规模建立合成数据的过程中需要投入大量的人力。”

责任编辑:杨淳端

  今年郭云种植的玉米有一部分受了灾,面积大概90亩,按照受灾程度,每亩大概能赔付200多元,把成本补了回来。“保费也有补贴,自己只需要拿每亩8块钱,就能获得近千元的保险保障。即使遇上灾害,种粮成本也能通过保险补回来。”

  德国总理朔尔茨11月4日抵达北京,对中国进行正式访问。当天上午,中国国家主席习近平在人民大会堂会见了他,并在金色大厅举行宴会。下午,中国国务院总理李克强与朔尔茨举行会谈。朔尔茨的整个访华行程紧凑高效,宾主交流氛围友好、坦诚、务实。这次访问虽然时间不算长,但意义重大。

  31个省(自治区、直辖市)和新疆生产建设兵团报告新增无症状感染者6989例,其中境外输入107例,<font cms-style="strong-Bold">本土6882例</font>(广东2611例,内蒙古938例,河南888例,新疆664例,黑龙江403例,重庆333例,湖南151例,甘肃136例,山西113例,湖北103例,青海96例,河北66例,山东64例,四川60例,北京48例,福建42例,云南39例,天津26例,辽宁18例,陕西16例,安徽10例,贵州10例,江苏8例,江西8例,广西7例,西藏7例,宁夏6例,浙江5例,上海4例,吉林2例)。

  “冲日期间,天王星的亮度虽然已达极值,但也很难用肉眼看到,必须借助小型天文望远镜,即使这样,在望远镜的视场里,天王星也仅仅是一个蓝绿色的小亮点。不过今年的这次冲日有些不寻常,冲日的前一天刚好发生‘月全食遮掩天王星’现象。其中在全食阶段,月球亮度会大大降低,彼时背景夜空的星星会格外清晰,天王星就在月球东侧,很容易找到,在望远镜的视场内,天王星也会看得更加清楚。”杨婧说。

  2012年3月,韩江龙跨省调整,调任宁夏回族自治区银川市委副秘书长、市委政策研究室主任,2015年9月任银川市发展与改革委员会(物价局)党组书记、主任。

  (四)深化“放管服”改革。强化事前事中事后全链条全领域监管,全面开展市场准入效能评估,优化完善市场准入负面清单,健全重点案例督查督办机制,持续破除市场准入壁垒,创造公平市场准入环境。持续规范和完善以市场主体和公众满意度为导向的中国营商环境评价机制,不断优化市场化法治化国际化营商环境。支持各地区聚焦制造业、科技创新和服务业等民间投资重点领域,研究出台有针对性的具体支持措施,与符合政策鼓励方向的民间投资项目建立常态化沟通机制,密切跟进、主动服务,协调解决关键问题,营造有利于民间投资发展的政策环境。充分发挥全国投资项目在线审批监管平台作用,实现项目网上申报、并联审批、信息公开、协同监管,不断提高民间投资项目办理效率和服务质量。(国家发展改革委、科技部、工业和信息化部等国务院相关部门及各地区按职责分工负责)

陈伟义

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有