持平GPT-4o，毒舌属性拉满，Gork-2是吃了一个马斯克吧-虎嗅网

本文来自微信公众号：硅星GenAI （ID：gh_e06235300f0d），作者：丸丸柚贝，题图来自：AI生成

今天，马斯克突然一次发布了两款模型Grok-2和Grok-2 mini。相较于上一个版本Grok-1.5，Grok-2在对话、编码和推理等方面的能力取得很大进步。另外其实早在LMSYS大模型竞技中，Grok-2就穿着马甲“sus-column-r”悄悄上线了PK了，并且Grok-2的实力已经超过了Claude 3.5 Sonnet和GPT-4-Turbo，与GPT-4o不相上下。

目前，Grok-2和Grok-2 mini两种模型的测试版现在都在X平台上发布，X Premium和Premium+用户已经可以体验两种模型了。

马斯克带领的团队确实像坐上了“火箭”一样，x AI的这个开发速度堪称极速版Open AI，另外更有网友表示“马斯克在6个月内完成了其他公司需要5年的工作。”

话不多说，作为尊贵的Premium+用户，咱先一手测评一下Grok-2的实力到底如何！

一、融合爆火的Flux，实力碾压DALL·E3

值得一说的是，本次Grok-2融合了前段时间火爆全网的Flux AI，强强联合了属于是，现在更是网友们直接玩坏了，我申请加入战场。

有一说一，别太真实了吧，背景和人物与现实都很接近，Grok-2你敢生成我都有点不敢看了，我甚至都有点怀疑是不是有真的照片投喂给Grok-2了。当同样的提示词给了DALL·E3，结果直接跟我说对不起，拜拜了。

那再让马斯克和山姆·奥特曼来个世纪大和解：

马斯克我知道，但是另外一个大哥你谁啊？一定是因为我的提示词不够准确，没输入山姆·奥特曼的全名？

突然生成了，这画面太美，我不敢看。两个人的面部表情都太自然了，我都有点磕你俩了。Grok-2就这个生图水平，简直就是把DALL·E3吊起来暴打呀。

二、Grok-2，是马斯克的嘴替吧

新闻天天有，今天特别多！今天不光是x AI宣布Grok-2正式发布，还有谷歌的Gemini Live发布以及OpenAI宣布ChatGPT-4o的最新版本上线。但今天大家讨论的都是突然发布的Grok-2，对此，我们采访不到马斯克，但是可以采访一下Grok-2本人具体是个什么看法呢。

不管是英文版还是中文版，Grok-2回答的每个点的小标题看着都很正常，但每点具体回答句句都真实到了我！终于看到一个不那么官方的回答了我废话的AI了！Grok-2这简直是把马斯克的心里话给说出来了呀！Grok-2这直言不讳的毒舌功力堪比最近爆火的Twitter Personality。这流量密码算是被你拿捏住了Grok-2。

另外Grok-2的回答会搜索X的用户发布的内容。

PS：想要体验直言不讳版本的朋友们，记得选择趣味模式！

三、Grok-2智斗“弱智吧”

再借用一下网友的快乐源泉“弱智吧”中的经典问题，看一下Grok-2如何机智应答。

三个问题Grok-2都没有被带坑里，并且回答的逻辑清晰，另外Grok-2在每个回答结尾还都主动地给一些建议和看法，还挺有意思的。

最后再测一下经典的9.11和9.9比大小的问题，当我用英文版prompt提问时，输出的结果竟然是正确的，还非常抽象地把9.11比作一头鼻子稍大的大象，9.9比作一头吃了太多香蕉的大象。最后得出结论：9.9是更大的数字。几乎触及10，而9.11仍然徘徊在9出头。

而当我再用中文提问时Grok-2突然开始胡说八道，还举了三个没用的例子来证实它的谬论，看来Grok-2对于中文的理解能力还是欠缺一点。

总的来说，Grok-2虽然推出的还是测试版本，但综合的实力确实很强，而且开发速度很快，这点跟期货OpenAI相比确实强了不知道多少倍。接下来，就要看各大AI模型该如何应对马斯克的挑战了，但也没关系，毕竟Grok开源嘛。

本文来自微信公众号：硅星GenAI （ID：gh_e06235300f0d），作者：丸丸柚贝