在首批评估中,团队测试了多个深度研究产品和搜索增强型 LLM。Gemini Deep Research 和 OpenAI Deep Research 展现出明显的领先优势,但各有侧重:前者在全面性和有效信息量上遥遥领先(平均每个任务 111 ...
近日,加州大学圣地亚哥分校的研究团队开发了 AIBuildAI 智能体,可以全自动构建 AI 模型(包括模型设计,代码实现,模型训练,调参,性能评估,迭代优化)。团队成员包括博士生 Ruiyi Zhang,Peijia Qin,Qi Cao,Li ...
UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI ...
多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。
2026年2月7日消息,千问Qwen团队联合阿里巴巴AIData团队、晓天衡宇评测社区,正式发布PLaw bench。 据了解,PLaw Bench基于大模型面对的法律实务咨询场景的现实,模拟真实的咨询场景,并通过三大任务模块和特定的判分标准,来测评大模型的实际法律能力。同时 ...
普林斯顿大学发布CORE-Bench评测AI复现科研。 普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21% 大模型的能力越来越强,用户在 ...