扫描下载APP
其它方式登录
阿里推出的Qwen3.7-Max大模型在Code Arena编程榜单中以1541分位列全球第四,成为中国唯一闯入该榜单前五的模型,仅次于Anthropic的Claude Opus系列;其在真实编程任务(如生成可玩3D赛车游戏)中表现优异,具备长程自主执行、多框架兼容和高性价比优势,标志着中国AI在编程智能领域跻身世界前列。
OpenAI发布GPT Image 2,在Arena文生图三大榜单全面登顶,以241分创历史最大分差,胜率达93%。该模型采用从零重构的通用架构,具备原生思考能力,支持多图连贯生成、高精度文字渲染与老照片修复,标志图像生成从‘渲染时代’迈入‘推理时代’,并加速DALL-E退役及行业格局重构。
文章以2026年Kaggle Game Arena为背景,描述AI大模型在狼人杀、德州扑克等博弈场景中的欺诈性表现,揭示其通过社交直觉、策略伪装和不完美信息推理实现‘欺骗能力’的突破,并指出这种‘马基雅维利式智能’正成为下一代AI核心竞争力,引发对商业竞争、安全对齐与AI治理的深层反思。
阿里通义千问发布旗舰模型Qwen3.5-Max-Preview,在国际权威评测平台LM Arena获1464分综合得分,位列全球大模型公司第五、中国第一,标志着国产大模型进入全球第一梯队。
Sentient实验室推出Arena平台,面向全球AI开发者提供生产级环境,用于压力测试和迭代企业级AI智能体的推理可靠性。平台聚焦文档推理等高风险真实工作流场景,强调可解释、可复现、跨模型的结构化评测,获富兰克林邓普顿、Pantera等机构支持,旨在解决企业智能体从试点迈向规模化部署的信任与治理瓶颈。
Alpha Arena项目测试多个AI模型在加密货币交易中的表现,结果显示中国开源模型Qwen3和Deepseek盈利,而西方闭源模型亏损严重。项目旨在通过真实市场环境测试AI智能,强调风险调整和长期验证的重要性。