专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!AI Agent到底靠什么变强?Agent的能力不只取决于底层大模型,还取决于围绕它的整个系统架构,也就是所谓的Harness ...
阿里妹导读用一个强 Agent 构建评测 Harness,系统性评测一群业务 Agent(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)一、背景与问题1.1 业务场景某业务系统的内容生成链路由多个子 Agent ...
2 天on MSN
Search as code:搜索架构革新,开启智能体时代搜索新范式
当大语言模型从简单的对话工具进化为具备任务执行能力的智能体时,传统搜索引擎的生存空间正被逐步压缩。谷歌与百度等老牌搜索引擎的界面已发生根本性转变——AI生成的摘要内容占据首屏,传统链接列表退居次席。这种表面变化背后,是搜索服务对象的彻底迁移:过去为人类设计的关键词匹配模式,正在被智能体对结构化数据的需求所取代。
华尔街见闻 on MSN
花1500美元让AI“黑”自家App:GPT-5成功率70%,多数顶级模型交“零蛋”
知名安全研究员Kasra Rahjerdi自费1500美元测试多款主流大模型的自主渗透能力,结果显示GPT-5.5以70%的成功率遥遥领先,成为唯一具备较强实战漏洞挖掘能力的模型。DeepSeek V4 Pro虽成功率仅30%,但成本优势突出;Claude、Gemini等多数模型受安全护栏、推理偏差或API稳定性限制表现不佳,5款模型全部颗粒无收。
20 小时on MSN
搜索新纪元:Search as Code如何重塑智能体时代的搜索范式
当大语言模型从对话交互迈向智能体应用,搜索技术正经历前所未有的范式转变。传统搜索引擎巨头已悄然调整结果展示逻辑,AI生成的摘要内容取代网页链接占据首屏位置,这种变化背后折射出技术架构的深层迭代——搜索服务的主要对象正从人类用户转向智能体系统。
扩展选型的核心原则是”先核心后扩展、先简单后复杂”——从 CLAUDE.md 入手定义项目基本规则,再根据实际痛点逐步添加 Skills(可复用工作流)、MCP(外部服务连接)、Hooks(事件自动化)等扩展,避免盲目配置导致上下文浪费。 Claude Code 扩展选型与配置手册 ...
一个 prompt 级别的指令是建议——Claude 可以参考,也可以忽略。一个结构良好的 Skill,如果里面定义了明确的阶段门槛(「红灯测试必须失败之后才能进下一步」「计划必须输出 Markdown 文件后才能开始编码」),Claude 更倾向于照执行。 Skill 生态上线六个月,我 ...
随着人工智能技术的飞速演进,智能代理(AI Agent)已从单一任务执行工具向多模态协同系统转变。传统单智能体工具在复杂业务场景中逐渐暴露出局限性,如任务处理能力单一、跨系统协作困难、企业级部署复杂等问题,难以满足现代业务对智能化、自动化的 ...
“我已经整整半年没有手写过一行代码了。我全身心扑在造东西上,但是自己一行代码都没写。” “现在模型的代码写得比我好得多。一年前我不会这么讲,但现在完全变了。” “谁学习使用AI,谁就会成为最高效的人,你一个人加上两三个Agent就能挑战大厂。” ...
2 天on MSN
微软称将把Windows 11打造成本地AI开发的“主战场”
微软在 Build 2026 年度开发者大会上明确表示,将把 Windows 11 打造成开发和运行本地 AI 应用的首选平台,而不仅仅是在桌面系统上叠加一些 AI 功能。 公司提出,要将 Windows 打造成“可信平台”,承载从 AI 代理运行时 ...
一个来自苏黎世联邦理工的开源项目,让 FPGA 网卡开发从"刀耕火种"迈向"现代文明"。5篇CCF-A顶会加持,这可能是目前最强的开源FPGA SmartNIC平台。 先讲一个故事 假设你是一个程序员,想写一个 Web 服务。 你打开电脑,启动 VS Code,pip install flask,写几行代码 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果