中国团队Univer:68.86% SOTA革新电子表格Agent
时间:2025-11-20 18:45:52
标签:
9
0
在最新公布的 SpreadsheetBench 基准测试结果中,UniverAgent 以 68.86% 的通过率荣登榜首,成为首个在该榜单中登顶的中国团队。这一成绩不仅超越了 ChatGPT Agent 与 Excel Copilot 等主流方案,更标志着电子表格自动化技术路径的一次重要转向。
SpreadsheetBench 作为当前电子表格智能领域最具公信力的公开评测基准,其任务设计源于真实业务场景,涵盖数据清洗、复杂运算与格式调整等全流程需求。微软与 OpenAI 均曾引用其数据作为技术能力的佐证,体现出该基准在行业内的权威地位。
与多数仍依赖 Excel 原生环境的方案不同,UniverAgent 基于自研的 Univer SDK 实现了完全脱离 Excel 的表格计算与推理能力。这一突破并非依赖于更强的基座模型,而是通过重构电子表格智能体的核心架构——从传统的“脚本生成工具”演进为“具备混合执行能力的在线自主智能体”。
本文将从技术实现角度,解析 UniverAgent 在理解能力、结果准确性与定位精度三个维度的创新设计。
一、基准测试的真实性挑战
SpreadsheetBench 包含 912 个真实场景任务,其评测体系聚焦三个相互制约的维度:
1. 理解能力:准确解析自然语言指令的业务意图,正确识别关联数据区域;
2. 结果准确性:保证数值计算精确、公式逻辑严谨、数据类型规范;
3. 定位精度:确保输出结果精准写入目标单元格,且不破坏原有表格结构。
这三个维度共同构成了电子表格自动化的核心挑战。传统技术路径往往难以兼顾——Python 脚本擅长数值计算却弱于格式处理,Excel 公式精于定位却受限逻辑推理。UniverAgent 通过系统级设计实现了三者的平衡。
二、技术架构的系统性突破
UniverAgent 的核心创新在于将电子表格视为结构化、可交互的在线对象,而非静态文件。其架构建立在三大支柱之上:
1. 智能上下文管理:通过分层抽象构建高信噪比的表格感知体系;
2. 多轮执行策略:采用 CodeAct 框架实现动态规划与自我修正;
3. 在线混合执行:融合 Python 与 JavaScript 的双引擎协作机制。
三、上下文工程的智能压缩
面对电子表格中可能出现的数千行数据,UniverAgent 通过两级抽象解决上下文爆炸问题:
SpreadsheetOverview 作为全局“地图”,采用结构识别、层次化视图与公式组聚合技术。例如对包含多个数据表的文档,系统会自动识别表格边界,将功能相同的公式合并描述,使得 7000 行工作簿的上下文体积压缩至 0.5KB 以内。
GetRangeData 则充当“放大镜”,返回包含数值、公式组与样式定义的结构化数据对象。这种设计既保障了数据分析所需的信息密度,又保留了格式操作所需的视觉线索。
四、执行策略的适应性演进
UniverAgent 摒弃了脆弱的“一次性脚本”模式,采用“思考-编码-观察”的循环执行框架:
在每轮循环中,智能体会根据执行结果动态调整策略——当检测到数据格式异常时自动启动清洗流程,发现定位偏差时立即修正坐标参考。这种小步快跑的机制显著提升了任务鲁棒性。
针对多轮交互导致的上下文膨胀,系统引入自适应消息缓存技术,通过智能断点复用历史信息,在保证执行连贯性的同时控制计算开销。
五、混合架构的协同效应
基于 Univer 在线表格引擎,UniverAgent 实现了 Python 与 JavaScript 的深度协同:
Python 负责数据密集型任务,依托 pandas 等生态完成多表关联、统计建模等复杂计算;JavaScript 则通过 Univer SDK 处理精细的表格操作,包括条件格式设置、图表插入等原生交互功能。
这种分工使系统既能应对大数据量的分析需求,又能保证表格操作的像素级精度。在线环境还带来状态持久化、实时协作与版本控制等衍生优势,为企业级应用奠定基础。
六、技术演进的前景展望
68.86% 的通过率不仅代表性能指标的突破,更揭示了电子表格自动化从演示场景走向实用场景的技术路径。通过上下文压缩、多轮执行与混合架构的系统性创新,UniverAgent 证明了 AI 智能体在处理复杂表格任务时的工程可行性。
随着模型能力与工具链的持续进化,这种融合理解、计算与操作的全栈能力,将推动电子表格自动化向更广泛的业务场景渗透,最终实现数据智能处理的普惠化发展。
- 上一篇:A股尾盘多股上演天地板巨震
配查查作为开放的资讯分享平台,本内容由DeepSeek润色后改写,与配查查平台立场无关,且不构成任何投资理财建议。如若转载请标注文章来源:配查查。
热门专题
-
昨天2025年11月20日智能自控为什么涨停?002877智能自控3连板涨停原因分析
-
昨天2025年11月20日贵广网络为什么涨停?600996贵广网络首板涨停原因分析
-
昨天2025年11月20日新宏泽为什么涨停?002836新宏泽首板涨停原因分析
-
昨天2025年11月20日古麒绒材为什么涨停?001390古麒绒材2连板涨停原因分析
-
昨天2025年11月20日中富电路为什么涨停?300814中富电路首板涨停原因分析
-
昨天2025年11月20日瑞斯康达为什么涨停?603803瑞斯康达首板涨停原因分析
-
昨天2025年11月20日好莱客为什么涨停?603898好莱客首板涨停原因分析
-
昨天2025年11月20日财信发展为什么涨停?000838财信发展首板涨停原因分析
-
昨天2025年11月20日永安林业为什么涨停?000663永安林业2连板涨停原因分析
-
昨天2025年11月20日实达集团为什么涨停?600734实达集团首板涨停原因分析
-
昨天2025年11月20日合富中国为什么涨停?603122合富中国首板涨停原因分析
-
昨天2025年11月20日海南海药为什么涨停?000566海南海药首板涨停原因分析
最近更新
热点关注
金木集团遭投诉,消费者要求退货、停止侵权并核责。
2024-08-14
2023年6月5日易倍策略平台实盘验证记录
2023-06-05
2023年6月12日易倍策略平台实盘验证记录
2023-06-12
2023年5月22日易倍策略平台实盘验证记录
2023-05-22
2022年12月26日嘉多网实盘验证记录
2023-01-01
2022年12月26日广升网实盘验证记录
2023-01-01
2022年7月22日正景网实盘验证记录
2023-01-01
2022年12月15日众和网实盘验证记录
2023-01-01

点赞







