
马斯克是否有效配置帐篷并起床开发它?如此高的分数尚未发布。目前,怀疑对Grok 4和Grok 4的参考结果进行了过滤。XBlogger_api代码(上一次人文学科考试),Grok 4标准分数为35%,使用推理技术后增加到45%。 GPQA为87-88%。同时,Grok 4代码在SWE上获得了72-75%。这个比赛得分是什么意思?一些互联网用户将其与Operai O3和Claude Opus等竞争性模型进行了比较。Grok4在HLE中赢得了大约35%的HLE。使用推理技术后,这增加到了45%,是最好的公共OpenAI O3(比GPT-4O高4-5倍)。您应该知道,HLE是一个免费的响应测试,只有大约5%的随机谜语精度。因此,提高每个百分比是极难的。在GPQA(研究生级的物理和天文学问题)中,Grok 4获得了87-88%Openai O3的性能,超过Claude 4 Opus,约为75%。 Grok 4在AIME 25(2025美国数学奥林匹克运动会)中获得了95%,在Claude 4 Opus中远高于34%,OpenAI远高于O3的80-90%(取决于您对此的看法)。此外,Grok 4代码的SWEBENCH得分与Claude Opus 4的72.5%相当,略高于OpenAI O3的71.7%。在终端银行中,Opus de Claude 4的得分为43%,XAI尚未发布Grok-4数据。其中,互联网用户中讨论的最多的是,Grok 4的HLE达到了45%,几乎是Gemini 2.5 Pro的两倍。如果泄漏测试的结果为真,则Grok 4是Aimeso参考点最强的,这意味着您已经通过了一个级别。一些互联网用户认为,这是公共模型的ISA参考点,并建议注意“标准”得分,推理得分可能包括实验结构。但是,一些互联网用户表示怀疑,认为Grok 4的HLE不太可能很高,因此这里必须有一个问题。互联网用户给出的原因是XAI报告了其最新尝试使用其他模型的结果,但使用了不同的报告方法作为自己的模型。 @legit_api回答说数字是真实的,但我不知道构图。一些互联网用户得出的结论是,除了HLE外,Grok 4过滤的所有参考点的结果似乎是“理性的”。但是我应该如何获得如此高的分数?毕竟,此参考点包含许多黑暗信息搜索。在答案出现之前,您可能需要等待所有模型的正式发布。实际上,安达(Anda)在7月1日,外国媒体测试目录发表了一篇文章,该文章与XAI开发中心控制台网站上过滤的Grok 4系列模型相关。屏幕截图显示Grok 4仅接受文本模式,表明图像的产生,图像D其他功能将很快开始。 GROK4承认了一个大约130,000个令牌的上下文窗口,比大多数竞争Avant -Garde模型小。这可能表明XAI是在实时优化推理速度和可用性,而不是寻求长篇小说的最高绩效。从功能的角度来看,Grok 4包括呼叫功能,结构化输出和推理功能。一些互联网用户还加深了XAI开发中心控制台的源代码。这些代码是通才的模型,以自然语言,数学和推理具有“具有能力无限的ITADES”,并在6月29日完成了培训,即当地时间,这表明口号“感觉更大且聪明”。它表明屏幕屏幕表明该屏幕局部还表明,GROK 4代码是为编程设计的模型,并且用户对代码进行了编码,并直接对代码进行了编码或编码的编码或编码。上周,马斯克在一条推文中说:“发展4整夜“”,并且模型的发展取得了良好的进步,但要求“最终和大规模培训”,尤其是在特殊代码模型方面。为此,马斯克(Musk)自上个月年底以来一直带领他在办公室里睡觉,并专注于他的工作。 X工程师已经提高了问题来解决问题。不仅激发了互联网用户的小思维,而且还激发了许多AI技术公司。天。