大动作不停,Google加入开源战局!低配版“Gemini ”Gemma来了!相当于OpenAI把GPT-3开源了

来源: 看看新闻网网
2024-06-11 03:25:35

  来源:硅星GenAI

  几家巨头之间的大模型竞争,越来越像打牌了。你出完炸弹我出炸弹。

  这不,又一个深夜炸弹。

  2月21日,在与闭源的OpenAI打得火热的同时,Google突然加入了开源的战局。北京时间夜间Google突然宣布,开源了一个新的模型系列Gemma,这个模型使用了与它最强的Gemini同源的技术,并且在一系列的标准测试上秒杀了几款今天最热门的开源模型。

  怎么理解这个动作的重要性呢?你可以粗暴的理解为:

  这有点像现在正在训练更强大的GPT-5的OpenAI,把GPT3的低参数版给开源了。(前几天Sam Altman被问过这个问题,你们是否会在未来把GPT3开源,他没有直接回答。现在看来Google针对性很强啊。)

  (X上一张有意思的图)

  根据Google官方对Gemma的介绍,它的基本信息如下:

  Gemma模型有两个主要版本,分别是Gemma 7B70亿参数)和Gemma 2B20亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了6万亿tokens

  Gemma模型的特点包括:

架构细节Gemma模型具有不同的参数规模,Gemma-2B18层,d_model2048,而Gemma-7B28层,d_model3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数,以及词汇量。

新技术Gemma采用了一些新技术,如Multi-Query AttentionRoPE EmbeddingsGeGLU激活函数以及Normalizer Location,这些技术有助于提高模型的性能。

评测结果:谷歌官方宣称Gemma模型在70亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。

开源情况Gemma模型遵循一个自定义的开源协议,允许商业使用。

  发布完,Jeff Dean就对这个系列模型划了重点:

Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中,性能超过了广泛使用的Llama-2 7B13B模型。它在数学/科学和编程相关任务上,通常也超过了Mistral 7B模型的性能。

Gemma-2B ITGemma-7B IT这两个经过指令调整的模型版本,在基于人类偏好的安全评估中,都优于Mistral-7B v0.2指令模型。特别是Gemma-7B IT模型在遵循指令方面也表现更佳。

我们也发布了一个负责任的生成性人工智能工具包(Responsible Generative AI Toolkit),它为负责任地使用像Gemma模型这样的开放模型提供了资源,包括:

关于设定安全政策、安全调整、安全分类器和模型评估的指导。

学习可解释性工具(Learning Interpretability Tool,简称LIT),用于调查Gemma的行为并解决潜在问题。

一种构建具有最小样本量的强大安全分类器 的方法论。

我们发布了两个版本的模型权重:Gemma 2BGemma 7B。每个版本都提供了预训练和指令调整的变体。

我们为所有主要框架提供了推理和监督式微调(SFT)的工具链:通过原生Keras 3.0支持的JAXPyTorchTensorFlow

提供了即用型的ColabKaggle笔记本,以及与流行的工具如Hugging FaceMaxTextNVIDIA NeMoTensorRT-LLM的集成,使得开始使用Gemma变得简单。

预训练和指令调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并且可以轻松部署在Vertex AIGoogle Kubernetes EngineGKE)上。

在多个AI硬件平台上的优化确保了行业领先的性能,包括NVIDIA GPUGoogle Cloud TPUs

使用条款允许所有规模的组织负责任地进行商业使用和分发。

  可以看到Jeff DeanGoogle这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病Close AI且被外界质疑安全性保障的OpenAI

  现在,憋坏了的Google正式四面开战了。未来它将用Gemma对抗Llama,用Gemini对抗GPT

  无论是开源还是闭源,竞争越来越焦灼了。

责任编辑:欧阳名军

  上海市商务委介绍,从2022年12月23日起持续至2023年1月28日,“2022跨年迎新购物季”覆盖跨年、元旦、春节等重要节日时点,围绕折扣促销、新春潮品、主题美陈、剧目展览等板块推出百余场重点活动。

  “尽管他新冠检测不是阳性,按照学校的要求,高烧必须要在退烧24小时后,无其他症状才可以返回学校。”Eli的母亲Amy告诉第一财经记者,“不知道学校这样做的意义是什么,他们班上同学其实都在感冒。”在10月份,认为自己感染了流感的Eli两周后终于开始好转。

  为了结交新朋友,张乐从2018年开始随身携带一个飞盘,每到一个新城市,就在当地社交网站上发帖,组织飞盘活动。他还报过语言、烹饪、艺术类课程,参加过旅行团。有的国家的人不会说英语,他很难交到本地朋友。

  江苏南京市一位纪检干部告诉《中国新闻周刊》,针对部分公职人员的离职腐败问题,确实监管起来存在一定的难度,特别是一些人离职或退休后,进入家族式企业包括同学、战友、老乡等开办的企业,监管的难度更大。针对这类问题,相关部门要建立起领导干部全周期管理档案,特别是对其离职或退休后的“管理”,跟踪监督评估。

  这里还常常举办文化艺术类活动,画廊、酒吧、餐厅随处可见。他们所在的房车营地有大院子、草坪和树林。营地成员们种菜、养鸡,坐在一起烤火、看剧、聊天,生活气息浓厚。

  同时,民警通过分析比对发现,居住在嘉陵区王府花园的36岁吸毒男子皮某活动轨迹与污水检测溯源轨迹高度吻合。民警进一步工作发现,皮某在2022年10月初氯胺酮检测结果呈阳性,且多次深夜频繁出现在顺庆区潆溪街道某村附近。

蔡哲玮

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有