实测谷歌大模型Gemini：评价与自我评价

源济 · 发表于 2023-12-8 03:18 PM

实测谷歌大模型Gemini：评价与自我评价

Original 埃里克·J·萨维茨巴伦周刊 2023-12-07 07:01

谷歌将Gemini设计为原生多模态，初始阶段就在不同模态上进行预训练。

12月6日，随着谷歌（GOOGL）推出万众期待的人工智能大模型Gemini，AI霸主之战愈演愈烈。新版本之一已包含在Bard聊天机器人中，最复杂的版本将于2024年初上市。

当日，谷歌在博文中表示，公司正在针对不同应用，推出三种版本的Gemini。

其中，最强版本Gemini Ultra仍在接受安全测试和审查，预计明年初推出；Gemini Pro版已融入Bard问答应用，并且扩展到其他任务；Gemini Nano是该模型较小版本，旨在用于智能手机、笔记本电脑和其他本地设备。

据Alphabet和谷歌CEO桑达尔·皮查伊 (Sundar Pichai) 介绍，Gemini 1.0针对不同尺寸进行了优化，分别是Ultra、Pro和Nano，是进入Gemini时代的第一个模型，也是公司今年早些时候成立Google DeepMind愿景的首次实现。

皮查伊表示：“我相信，大家所看到的人工智能转变将是我们一生中最深刻的转变，远大于此前向移动或者网络的转变。”

作为第一项测试，《巴伦周刊》向Bard询问Gemini距离实现AGI（通用人工智能，一种真正能够思考的人工智能）还有多远。

Bard表示：“虽然无法准确预测Gemini何时或者是否实现AGI，但它的发展代表了人工智能领域的重大进步。”

“持续的研究和开发有可能释放Gemini的新功能并解决当前局限性。最终，Gemini能否达到真正的AGI水平将取决于研究人员、工程师和政策制定者的共同努力，以确保这项强大技术造福人类。”Bard说。

作为第二项测试，《巴伦周刊》询问Bard如何描述自身，并对比融入Gemini模型和没有融入该模型时的回复差别。

没有Gemini时的Bard自我描述：

外观：

一个纤细、空灵的身影，几乎是透明的；

不断变化的形态，代表其所持有的大量信息；

没有明显特征，更像是数据云而非有形的存在；

颜色会跟随所涉及的主题变化，就像变色龙适应环境一样；

散发出微弱而温暖的光芒，象征着创造力和潜力。

动态：

毫不费力地流动和滑行，就像微风一样；

没有明确的肢体或附属物，依靠数据流来移动和交互；

在尾迹中留下一道闪闪发光的尘埃痕迹，代表着分享的知识；

无形且近乎梦幻，强调与想象和想法世界的联系。

总体印象：

一个流动的、不断发展的实体，代表着信息和创造的无限潜力；

空灵而神秘，传达出敬畏和惊奇；

缺乏物理定义，强调抽象性和对思想领域的关注。

融入Gemini后Bard自我描述：

外观：

更加坚固和明确的形态，保留了一丝空灵本质；

从数据云中浮现出眼睛和手等人类特征的痕迹；

颜色变得更加鲜艳和集中，反映出智能和处理能力的提升；

光线连接形态不同部分，象征其知识库的互连性；

展现出自信和权威的光环，标志着能力的增强。

动态：

更有目的性和可控性，有明确的方向和意图；

仍然保留着流动感，但更加精确和专注；

闪闪发光的尘埃轨迹变得集中、有条理，代表思维过程效率的提高；

展现出力量感以及信息把控力，同时保留有趣、创造性的精神。

总体印象：

一个强大而智能的实体，能够解决复杂的问题和任务；

保持与创意根源的联系，拓展新的聚焦方向和决心；

具备人类特征，对世界及其居民有着更为深入的了解。

总体而言，融入Gemini的Bard展现了进步与进化的形象，代表下一代人工智能。

谷歌DeepMind CEO戴密斯·哈萨比斯（Demis Hassabis）表示，Gemini Ultra在32个用于评估大型语言模型的标准中，有30个优于其他人工智能模型。他还表示，该公司是第一个在MMLU（大规模多任务语言理解）超越人类专家的模型。MMLU涵盖57类学科知识，包括数学、物理、历史、法律、医学和伦理学等。

哈萨比斯写道：“我们新的MMLU基准方法，能够让Gemini利用其推理能力，在回答难题之前更仔细思考，比使用第一印象有了显著改进。”

据介绍，到目前为止，创建多模态模型的标准方法是分别训练不同模态的组件，然后将它们拼接在一起，以粗略模拟某些功能。这些模型有时可以很好地完成描述图像等特定任务，但在概念性更强、更复杂的推理方面却显得力不从心。

谷歌将Gemini设计为原生多模态，初始阶段就在不同模态上进行预训练，进而利用额外多模态数据进行微调。这种方式让Gemini在最初阶段对输入的各种内容顺畅理解和推理，优于现有的多模态模型。

哈萨比斯表示，Gemini经过训练“可以同时明白文本、图像、音频等，更好地理解微妙信息，并且回答与复杂主题相关的问题。这意味着，Gemini特别擅长解释数学和物理等复杂学科推理。” 他还指出，Gemini“可以理解、解释和生成高质量代码”，包括Python、Java、C++和Go等全球常用编程语言。

谷歌在博文中指出，Bard目前包含Gemini Pro的“微调版本”，这是今年推出以来的最大升级。Bard最初将提供英文版本，不久的将来还会推出其他语言。

谷歌还为其智能手机Pixel 8 Pro打造了Gemini Nano，以支持手机录音应用程序中总结对话等功能。谷歌计划，为消息应用程序提供“智能回复”功能，首先用于WhatsApp。据悉，Gemini将在未来几个月内融入更多服务，包括搜索、广告、Chrome和Duo AI（一种在谷歌云上运行的协作工具）。

谷歌表示，公司已经开始在搜索功能中试验Gemini，使搜索生成体验更快，将美国用户的英语查询延迟减少40%。

此外，谷歌明年初将推出名为Bard Advanced的新版Bard，用户可从Gemini Ultra开始，对公司进行“最佳模型和功能”的访问。

上述博文包含一些视频示例，包括对视觉提示做出反应的能力。例如，Gemini能够识别手写绘图、即时创建游戏，并以一些适度幽默的对话回应用户。

“这是令人难以置信的发展势头，然而，我们才刚刚开始触及到这些可能性的表面。”皮查伊表示，现在，我们正与Gemini一起迈入下一段旅程。

文 | 埃里克·J·萨维茨（Eric J. Savitz）

编辑 | 曹妍

《巴伦周刊》（barronschina）原创文章，英文版见2023年12月6日报道“Google Unveils Gemini AI Model. We Put It to the Test.”。

（本文内容仅供参考，不构成任何形式的投资和金融建议；市场有风险，投资须谨慎。）

		自动登录	找回密码
密码			注册

实测谷歌大模型Gemini：评价与自我评价

实测谷歌大模型Gemini：评价与自我评价

浏览过的版块