Bench - 搜索 News

3 天

NVIDIA GTC上登顶的DeepResearch Bench，到底在评什么？

在首批评估中，团队测试了多个深度研究产品和搜索增强型 LLM。Gemini Deep Research 和 OpenAI Deep Research 展现出明显的领先优势，但各有侧重：前者在全面性和有效信息量上遥遥领先（平均每个任务 111 ...

4 天

近日，加州大学圣地亚哥分校的研究团队开发了 AIBuildAI 智能体，可以全自动构建 AI 模型（包括模型设计，代码实现，模型训练，调参，性能评估，迭代优化）。团队成员包括博士生 Ruiyi Zhang，Peijia Qin，Qi Cao，Li ...

11 天

UCSD团队推出AIBuildAI智能体，无需编程，仅用自然语言描述任务，即可自动设计、编码、训练、调参并优化AI模型，分工协作，端到端完成AI开发。在OpenAI ...

多模态大语言模型（MLLMs）已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的 OST-Bench, 则是从智能体探索场景的动态在线视角出发，为大模型的能力提出了新的挑战。

2026年2月7日消息，千问Qwen团队联合阿里巴巴AIData团队、晓天衡宇评测社区，正式发布PLaw bench。据了解，PLaw Bench基于大模型面对的法律实务咨询场景的现实，模拟真实的咨询场景，并通过三大任务模块和特定的判分标准，来测评大模型的实际法律能力。同时 ...

普林斯顿大学发布CORE-Bench评测AI复现科研。普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21% 大模型的能力越来越强，用户在 ...

一些您可能无法访问的结果已被隐去。