隆重推出 Gemini：我们最大、最强大的 AI 模型

2023年12月12日下午8:25 • 最新资讯

谷歌和 Alphabet 首席执行官桑达尔·皮查伊（Sundar Pichai）的笔记：

每一次技术变革都是推进科学发现、加速人类进步和改善生活的机会。我相信，我们现在看到的人工智能转型将是我们有生之年最深刻的，远远大于之前向移动或网络的转变。人工智能有可能为世界各地的人们创造机会——从日常到非凡。它将带来新的创新和经济进步浪潮，并以前所未有的规模推动知识、学习、创造力和生产力。

这就是让我兴奋的地方：有机会让人工智能对世界各地的每个人有所帮助。

作为一家以人工智能为先的公司，近八年来，我们的进步步伐只会加快：数百万人现在正在我们的产品中使用生成式人工智能来完成他们一年前甚至无法完成的事情，从寻找更复杂问题的答案到使用新工具进行协作和创造。与此同时，开发人员正在使用我们的模型和基础设施来构建新的生成式 AI 应用程序，世界各地的初创公司和企业都在使用我们的 AI 工具发展壮大。

这是不可思议的势头，然而，我们才刚刚开始触及可能性的表面。

我们正在大胆而负责任地开展这项工作。这意味着我们的研究要雄心勃勃，追求能够为人类和社会带来巨大利益的能力，同时建立保障措施，并与政府和专家合作，以应对人工智能变得更强大的风险。我们将继续投资于最好的工具、基础模型和基础设施，并在我们的 AI 原则的指导下将它们带到我们的产品和其他产品中。

现在，我们正在与Gemini一起迈出下一步，这是我们迄今为止最强大和最通用的模型，在许多领先的基准测试中具有最先进的性能。我们的第一个版本Gemini 1.0针对不同的尺寸进行了优化：Ultra、Pro 和 Nano。这些是双子座时代的第一批模型，也是我们今年早些时候成立 Google DeepMind 时愿景的首次实现。这个新的模型时代代表了我们作为一家公司所承担的最大科学和工程努力之一。我对未来的发展感到非常兴奋，也对Gemini将为世界各地的人们带来的机会感到兴奋。

– 桑达尔

双子座简介

作者：Google DeepMind首席执行官兼联合创始人Demis Hassabis，代表Gemini团队

人工智能一直是我一生工作的重点，就像我的许多研究同事一样。自从十几岁时为电脑游戏编写人工智能以来，在我作为神经科学研究人员试图了解大脑运作的这些年里，我一直相信，如果我们能够制造出更智能的机器，我们就可以利用它们以令人难以置信的方式造福人类。

这一由人工智能赋予世界负责任的承诺继续推动着我们在 Google DeepMind 的工作。很长一段时间以来，我们一直希望构建新一代的人工智能模型，其灵感来自人们理解世界和与世界互动的方式。人工智能感觉不像是一个智能软件，而更像是有用和直观的东西——一个专家助手或助手。

今天，我们离这个愿景又近了一步，因为我们推出了 Gemini，这是我们有史以来最强大、最通用的模型。

Gemini 是 Google 各团队（包括我们在 Google 研究院的同事）大规模协作的结果。它是从头开始构建的多模态，这意味着它可以概括和无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

06_Foundation_01.width-1000.format-webp.webp

隆重推出 Gemini：我们最大、最强大的 AI 模型

Gemini 也是我们迄今为止最灵活的型号——能够在从数据中心到移动设备的所有设备上高效运行。其最先进的功能将显著增强开发人员和企业客户使用 AI 构建和扩展的方式。

我们针对三种不同的尺寸优化了第一个版本 Gemini 1.0：

Gemini Ultra — 我们最大、最强大的型号，适用于高度复杂的任务。
Gemini Pro — 我们用于扩展各种任务的最佳型号。
Gemini Nano — 我们最高效的设备端任务模型。

最先进的性能

我们一直在严格测试我们的双子座模型，并评估它们在各种任务中的表现。从自然图像、音频和视频理解到数学推理，Gemini Ultra 在大型语言模型（LLM）研发中使用的 30 个广泛使用的学术基准中的 32 个方面，其性能超过了当前最先进的结果。

Gemini Ultra 的得分为 90.0%，是第一个在 MMLU（大规模多任务语言理解）方面优于人类专家的模型，MMLU 使用数学、物理、历史、法律、医学和伦理学等 57 个科目的组合来测试世界知识和解决问题的能力。

我们对 MMLU 的新基准方法使 Gemini 能够在回答困难问题之前使用其推理能力进行更仔细的思考，从而比仅使用其第一印象有显着改进。

gemini_final_text_table_bigger_font_amendment_lines

Gemini surpasses state-of-the-art performance on a range of benchmarks including text and coding.

Gemini Ultra also achieves a state-of-the-art score of 59.4% on the new MMMU benchmark, which consists of multimodal tasks spanning different domains requiring deliberate reasoning.

With the image benchmarks we tested, Gemini Ultra outperformed previous state-of-the-art models, without assistance from optical character recognition (OCR) systems that extract text from images for further processing. These benchmarks highlight Gemini’s native multimodality and indicate early signs of Gemini’s more complex reasoning abilities.

See more details in our Gemini technical report.

gemini_final_multimodal_table_bigger_font_amendment_lines

Gemini 在一系列多模式基准测试中超越了最先进的性能。

下一代功能

到目前为止，创建多模态模型的标准方法包括为不同的模态训练单独的组件，然后将它们拼接在一起以粗略地模仿其中的一些功能。这些模型有时可以很好地执行某些任务，例如描述图像，但在更概念化和复杂的推理方面会遇到困难。

我们将 Gemini 设计为原生多模态，从一开始就对不同的模态进行预训练。然后，我们用额外的多模态数据对其进行了微调，以进一步完善其有效性。这有助于 Gemini 从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型——而且它的功能在几乎每个领域都是最先进的。

详细了解 Gemini 的功能并了解其工作原理。

复杂的推理

Gemini 1.0 复杂的多模态推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现在大量数据中难以辨别的知识方面具有独特的技能。

它通过阅读、过滤和理解信息从数十万份文件中提取见解的卓越能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。

Ariel_ScienceDemo_TaylorSebastia.width-1000.format-webp.webp

双子座解锁新的科学见解

了解文本、图像、音频等

Gemini 1.0 经过训练，可以同时识别和理解文本、图像、音频等，因此它可以更好地理解细微的信息，并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。

Ariel_PhysicsHomework_Sam.width-1000.format-webp.webp

双子座解释数学和物理中的推理

高级编码

我们的第一个 Gemini 版本可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。它能够跨语言工作并推理复杂信息，使其成为世界上领先的编码基础模型之一。

Gemini Ultra 在多个编码基准测试中表现出色，包括 HumanEval（用于评估编码任务性能的重要行业标准）和 Natural2Code（我们的内部保留数据集），它使用作者生成的来源而不是基于 Web 的信息。

Gemini 也可以用作更高级编码系统的引擎。两年前，我们推出了 AlphaCode，这是第一个在编程竞赛中达到竞技性能水平的 AI 代码生成系统。

使用Gemini的专用版本，我们创建了一个更高级的代码生成系统AlphaCode 2，它擅长解决竞争性编程问题，这些问题超越了编码，涉及复杂的数学和理论计算机科学。

Ariel_ACDemo_RemiGabi_v001.width-1000.format-webp.webp

Gemini 擅长编码和竞争性编程

在与原始 AlphaCode 相同的平台上进行评估时，AlphaCode 2 显示出巨大的改进，解决了近两倍的问题，我们估计它的表现优于 85% 的比赛参与者——高于 AlphaCode 的近 50%。当程序员通过定义代码示例要遵循的某些属性来与 AlphaCode 2 协作时，它的性能会更好。

我们很高兴程序员能够越来越多地使用功能强大的 AI 模型作为协作工具，帮助他们推理问题、提出代码设计并协助实施，这样他们就可以更快地发布应用程序并设计更好的服务。

如需了解更多详情，请参阅我们的 AlphaCode 2 技术报告。

更可靠、更可扩展、更高效

我们使用 Google 内部设计的张量处理单元（TPU） v1 和 v0e 在 AI 优化的基础架构上大规模训练了 Gemini 4.5。我们将其设计为我们最可靠、最可扩展的训练模型，也是我们最高效的服务模型。

在 TPU 上，Gemini 的运行速度明显快于早期、更小、功能更差的型号。这些定制设计的 AI 加速器一直是 Google 人工智能产品的核心，这些产品为搜索、YouTube、Gmail、Google 地图、Google Play 和 Android 等数十亿用户提供服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。

今天，我们宣布推出迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统 Cloud TPU v5p，专为训练尖端 AI 模型而设计。下一代 TPU 将加速 Gemini 的发展，帮助开发人员和企业客户更快地训练大规模生成式 AI 模型，从而使新产品和功能更快地到达客户手中。

final_keyword_tpu.width-1000.format-webp.webp-2

Google 数据中心的一排 Cloud TPU v5p AI 加速器超级计算机。

以责任和安全为核心

在 Google，我们致力于在我们所做的每一件事中推进大胆而负责任的 AI。根据 Google 的 AI 原则和我们产品中强大的安全政策，我们将添加新的保护措施，以应对 Gemini 的多模式功能。在开发的每个阶段，我们都在考虑潜在风险，并努力测试和减轻这些风险。

Gemini 拥有迄今为止所有 Google AI 模型中最全面的安全性评估，包括偏见和毒性。我们对网络攻击、说服力和自主性等潜在风险领域进行了新颖的研究，并应用了 Google Research 一流的对抗性测试技术，帮助在部署 Gemini 之前识别关键安全问题。

为了识别内部评估方法中的盲点，我们正在与多元化的外部专家和合作伙伴合作，针对一系列问题对我们的模型进行压力测试。

为了在 Gemini 的训练阶段诊断内容安全问题并确保其输出符合我们的政策，我们使用了 Real Toxicity Prompts 等基准测试，这是一组 100,000 个不同程度的毒性提示，由艾伦人工智能研究所的专家开发。有关这项工作的更多细节即将公布。

例如，为了限制伤害，我们建立了专门的安全分类器来识别、标记和分类涉及暴力或负面刻板印象的内容。结合强大的过滤器，这种分层方法旨在使 Gemini 更安全、更包容每个人。此外，我们将继续解决模型的已知挑战，例如事实性、基础、归因和确证。

责任和安全始终是我们模型开发和部署的核心。这是一项需要协作构建的长期承诺，因此我们正在与行业和更广泛的生态系统合作，通过 MLCommons、前沿模型论坛及其 AI 安全基金以及我们的安全 AI 框架（SAIF）等组织定义最佳实践并设定安全和安保基准，旨在帮助减轻公共和私营部门人工智能系统特有的安全风险。在开发Gemini的过程中，我们将继续与世界各地的研究人员、政府和民间社会团体合作。

让 Gemini 向世界开放

Gemini 1.0 现已在一系列产品和平台上推出：

Google 产品中的 Gemini Pro

我们将通过 Google 产品将 Gemini 带给数十亿人。

从今天开始，Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。它将在 170 多个国家和地区提供英语版本，我们计划在不久的将来扩展到不同的模式并支持新的语言和地点。

我们还将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款搭载 Gemini Nano 的智能手机，它支持“录音机”应用中的“总结”等新功能，并在 Gboard 的智能回复中推出，从 WhatsApp 开始，明年将推出更多消息应用。

在接下来的几个月里，Gemini 将出现在我们的更多产品和服务中，如搜索、广告、Chrome 和 Duet AI。

我们已经开始在搜索中试用 Gemini，它使我们的搜索生成体验（SGE）对用户来说更快，在美国，英语延迟减少了 40%，同时质量也得到了提高。

与双子座一起构建

从 13 月 <> 日开始，开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。

Google AI Studio 是一款基于 Web 的免费开发者工具，可通过 API 密钥快速制作应用原型和启动应用。当需要完全托管的 AI 平台时，Vertex AI 允许通过完全的数据控制来定制 Gemini，并受益于额外的 Google Cloud 功能，以实现企业安全性、安全性、隐私以及数据治理和合规性。

Android 开发者还可以通过 AI 进行构建，这是我们在设备上执行任务的最高效模型 AICore，这是 Android 14 中提供的一项新系统功能，从 Pixel 8 Pro 设备开始。注册获取 AICore 的早期预览版。

Gemini Ultra 即将推出

对于 Gemini Ultra，我们目前正在完成广泛的信任和安全检查，包括由受信任的外部方进行红队，并在广泛使用之前使用来自人类反馈的微调和强化学习（RLHF）进一步完善模型。

作为这一过程的一部分，我们将向选定的客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra，以便在明年初将其推广给开发人员和企业客户之前进行早期实验和反馈。

明年年初，我们还将推出 Bard Advanced，这是一种全新的尖端 AI 体验，可让您访问我们最好的模型和功能，从 Gemini Ultra 开始。

双子座时代：赋能创新未来

这是人工智能发展的一个重要里程碑，也是我们谷歌新时代的开始，我们将继续快速创新并负责任地提升我们的模型功能。

到目前为止，我们在 Gemini 上取得了长足的进步，我们正在努力为未来的版本进一步扩展其功能，包括规划和内存方面的进步，以及增加处理更多信息的上下文窗口以提供更好的响应。

我们对一个由人工智能负责任地赋能的世界的惊人可能性感到兴奋——一个创新的未来，它将增强创造力、扩展知识、推动科学发展并改变全球数十亿人的生活和工作方式。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun270660.html

Gemini 人工智能模型

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

AMD Instinct Mi 300X 高性能加速器，用于生成式 AI

上一篇 2023年12月10日下午10:37

奥迪RS e-tron GT Ice Race Edition亮相

下一篇 2023年12月13日上午9:07

一亿上下文长度的 LLM：LTM-2-Mini

一亿上下文长度的 LLM：LTM-2-Mini Magic 发布了一个具有 1 亿 Token 上下文的模型 LTM-2-mini。1 亿 Token相当于大约 1000 万行代码…

工具软件 2024年9月20日
Open AI 新的推理模型已经训练完成

Open AI 新的推理模型已经训练完成高质量合成数据的重要性再一次被证明。 Open AI 的逻辑是使用一个足够庞大且非常不经济的推理模型（Strawberry）生产优质合成数…

工具软件 2024年9月20日
工具软件

xAI 发布 Grok-2 系列模型

xAI 发布 Grok-2 系列模型老马的 XAI 发布 Grok-2 Beta 版本。在LMSYS的成绩超过了Claude 3.5 Sonnet 和 GPT-4-Turbo。 …

2024年8月31日
工具软件

谷歌发布Pixel 手机以及 AI 功能

谷歌发布Pixel 手机以及 AI 功能谷歌上周集中发布了他们的 24 年硬件内容包括新的 Pixel 9 手机，Pixel 9 Pro Fold，Pixel Watch 3和P…

2024年8月31日
工具软件

Jamba 1.5系列模型：非 Transformer 模型首次追上先进模型

Jamba 1.5系列模型：非 Transformer 模型首次追上先进模型 AI21 推出了新的 Jamba 1.5 模型家族，包括 Jamba 1.5 Mini 和 Jamba…

2024年8月31日
工具软件

Ideogram 发布了 2.0 图像生成模型

Ideogram 发布了 2.0 图像生成模型图像生成质量大幅提高，产品易用性改善，最强的文字生成能力。尝试了一下发现真的很离谱，不只是文字生成这么简单，可以实现复杂排版搭配色彩…

2024年8月31日
这就是为什么大多数人还没有进入人工智能的原因

人工智能是一个加载的术语。对一些人来说，它象征着未来的道路;对其他人来说，这是一种颠覆性的技术，可以让他们摆脱工作。尽管仍处于早期阶段，但大型科技公司正在对聊天机器人和虚拟助手等支…

工具软件 2024年6月16日
AI 将在 Nothing Phone 3 中无处不在！

在最近的一段视频帖子中，Nothing 首席执行官 Carl Pei 在 X（前身为 Twitter）上谈论了该公司为我们准备的一些重大新闻和发展。在智能手机业务中，Nothin…

工具软件 2024年6月16日
Google Gemini 登陆 Opera，以下是使用方法

像Microsoft和谷歌这样的大型科技公司正在全力以赴地整合各自的人工智能模型。根据最近的发展，Opera 的 Aria AI 现在可以访问 Google Cloud 的 Gem…

谷歌Google 2024年5月30日
谷歌Google

谷歌正在测试人工智能概述中的广告

在最近的一篇博客中，谷歌证实，它正在测试在人工智能生成的查询结果中投放广告的方式。 “在早期测试中，我们听说人们发现广告在人工智能生成的概述上方和下方消失很有帮助。很快，我们将开始…

2024年5月29日
工具软件

Google I/O 发布会的内容

Google I/O 发布会的内容 Google 紧随 Open AI 开了今年的 I/O 发布会，一个字概括就是全。模型层面所有的指标都在卷，同时也发布了所有现在主流的模型类型。…

2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

DeepSeek 发布 DeepSeek-V2 模型

DeepSeek 发布 DeepSeek-V2 模型 DeepSeeK 上周发布了DeepSeek-V2模型，将现在优秀 LLM 的价格战又抬上了一个新的高度，百万 Token 输…

2024年5月20日
Indigo关于发布会预测的整理

Indigo关于发布会预测的整理 GPT-4 的新版应该会按照参数规模不同分化成多个版本，这个和 Claude 还有 Gemini 多版本的逻辑一样；前两周出现在 llmsys …

工具软件 2024年5月20日
Simulon：混合现实 3D 模型软件

Simulon：混合现实 3D 模型软件只需要下载app扫描周围环境，然后选择对应的模型。之后等几分钟就会渲染好跟现实环境融合的MR视频。没有官网只有申请测试的表单。 &nbsp…

工具软件 2024年5月10日
Synthesia：EXPRESS-1 模型驱动的数字人

Synthesia：EXPRESS-1 模型驱动的数字人 EXPRESS-1 模型驱动，以实现逼真的头像表现。通过训练模型理解我们说什么以及我们如何说的微妙关系，表达力化头像现在可…

工具软件 2024年5月10日
工具软件

生数科技发布Vidu 视频生成模型

生数科技发布Vidu 视频生成模型生数科技不声不响整了个大活。发布 Vidu 视频生成模型，支持长达 16 秒 1080P 视频直接生成。从演示视频来看一致性、运动幅度都达到了…

2024年5月10日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

微软发布 phi-3-mini 微型模型

微软发布 phi-3-mini 微型模型微软发布 phi-3-mini 模型，4 位量化之后可以部署在 iPhone 14 上，只占用 1.8G 内存，每秒输出 12 个 Tok…

2024年5月10日
Bestever：创意人工智能广告工具

Bestever：创意人工智能广告工具 Bestever 是一个专门为品牌定制图像和视频广告的平台。它提供多种工具，让用户能轻松地将品牌的标志、颜色和字体整合到广告创意中。这些创意…

工具软件 2024年5月10日
工具软件

Mixtral8X22B 模型开源

Mixtral8X22B 模型开源 Mixtral8X22B在只公布了一个磁力链接之后，又正式发布了模型的技术报告： Mixtral 8x22B是一个稀疏混合专家（SMoE）模型，…

2024年5月10日
Meta 正式发布 Llama3 8B 、 70B 模型

Meta 正式发布 Llama3 8B 、 70B 模型 Meta 在上周终于发布了 Llama3，目前先发布的是 8B 以及 70B 两个模型，还有多模态以及一个 400B 规模…

工具软件 2024年5月10日
Perplexity-Inspired LLM Answer Engine：开源的 AI 搜索应用

Perplexity-Inspired LLM Answer Engine：开源的 AI 搜索应用一个开源的类似 Perplexity 的 AI 搜索应用，含构建复杂答案引擎所需…

工具软件 2024年5月10日
工具软件

AI画图应用Ideogram发布模型更新

AI画图应用Ideogram发布模型更新 Ideogram 发布了一大波更新，模型能力再次增强，平时做海报和普通图片挺好用的。主要升级内容有：增强的文字渲染和照片写实效果：减少…

2024年5月10日
工具软件

谷歌发布了一堆AI能力和升级

谷歌发布了一堆AI能力和升级 Google Next 2024上周放出了不少狠货，这次 Open AI 没能够压下去热度。首先是 Gemini Pro 1.5 进行了一大波升级，…

2024年5月10日