持平GPT-4o,毒舌属性拉满,Gork-2是吃了一个马斯克吧
2024-08-14 21:52

持平GPT-4o,毒舌属性拉满,Gork-2是吃了一个马斯克吧

本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:丸丸柚贝,题图来自:AI生成


今天,马斯克突然一次发布了两款模型Grok-2和Grok-2 mini。相较于上一个版本Grok-1.5,Grok-2在对话、编码和推理等方面的能力取得很大进步。另外其实早在LMSYS大模型竞技中,Grok-2就穿着马甲“sus-column-r”悄悄上线了PK了,并且Grok-2的实力已经超过了Claude 3.5 Sonnet和GPT-4-Turbo,与GPT-4o不相上下。



目前,Grok-2和Grok-2 mini两种模型的测试版现在都在X平台上发布,X Premium和Premium+用户已经可以体验两种模型了。


马斯克带领的团队确实像坐上了“火箭”一样,x AI的这个开发速度堪称极速版Open AI,另外更有网友表示“马斯克在6个月内完成了其他公司需要5年的工作。”



话不多说,作为尊贵的Premium+用户,咱先一手测评一下Grok-2的实力到底如何!


一、融合爆火的Flux,实力碾压DALL·E3


值得一说的是,本次Grok-2融合了前段时间火爆全网的Flux AI,强强联合了属于是,现在更是网友们直接玩坏了,我申请加入战场。



有一说一,别太真实了吧,背景和人物与现实都很接近,Grok-2你敢生成我都有点不敢看了,我甚至都有点怀疑是不是有真的照片投喂给Grok-2了。当同样的提示词给了DALL·E3,结果直接跟我说对不起,拜拜了。


那再让马斯克和山姆·奥特曼来个世纪大和解:



马斯克我知道,但是另外一个大哥你谁啊?一定是因为我的提示词不够准确,没输入山姆·奥特曼的全名?



突然生成了,这画面太美,我不敢看。两个人的面部表情都太自然了,我都有点磕你俩了。Grok-2就这个生图水平,简直就是把DALL·E3吊起来暴打呀。


二、Grok-2,是马斯克的嘴替吧


新闻天天有,今天特别多!今天不光是x AI宣布Grok-2正式发布,还有谷歌的Gemini Live发布以及OpenAI宣布ChatGPT-4o的最新版本上线。但今天大家讨论的都是突然发布的Grok-2,对此,我们采访不到马斯克,但是可以采访一下Grok-2本人具体是个什么看法呢。




不管是英文版还是中文版,Grok-2回答的每个点的小标题看着都很正常,但每点具体回答句句都真实到了我!终于看到一个不那么官方的回答了我废话的AI了!Grok-2这简直是把马斯克的心里话给说出来了呀!Grok-2这直言不讳的毒舌功力堪比最近爆火的Twitter Personality。这流量密码算是被你拿捏住了Grok-2。


另外Grok-2的回答会搜索X的用户发布的内容。


PS:想要体验直言不讳版本的朋友们,记得选择趣味模式!



三、Grok-2智斗“弱智吧”


再借用一下网友的快乐源泉“弱智吧”中的经典问题,看一下Grok-2如何机智应答。





三个问题Grok-2都没有被带坑里,并且回答的逻辑清晰,另外Grok-2在每个回答结尾还都主动地给一些建议和看法,还挺有意思的。


最后再测一下经典的9.11和9.9比大小的问题,当我用英文版prompt提问时,输出的结果竟然是正确的,还非常抽象地把9.11比作一头鼻子稍大的大象,9.9比作一头吃了太多香蕉的大象。最后得出结论:9.9是更大的数字。几乎触及10,而9.11仍然徘徊在9出头。



而当我再用中文提问时Grok-2突然开始胡说八道,还举了三个没用的例子来证实它的谬论,看来Grok-2对于中文的理解能力还是欠缺一点。



总的来说,Grok-2虽然推出的还是测试版本,但综合的实力确实很强,而且开发速度很快,这点跟期货OpenAI相比确实强了不知道多少倍。接下来,就要看各大AI模型该如何应对马斯克的挑战了,但也没关系,毕竟Grok开源嘛。


本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:丸丸柚贝

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定