以解析识别为入口,以理解推理为核心,区分科学表格数据与办公表格数据,连接实验发现、时序观测、电子表格操作与可信决策。

Table Parsing Table Reasoning Scientific Tables Office Spreadsheets Spreadsheet Agents TabClaw

研究方向

USTC-AGI 研究组在 Table Mining 方向重点关注复杂表格的解析与识别、表格语义理解与多步推理,以及表格数据中的知识发现,并面向科学表格数据与办公表格数据两类场景沉淀可复用能力。

表格解析与识别

面向论文 PDF、扫描文档、网页和报告中的复杂表格,研究从视觉版面、OCR 文本、单元格结构到逻辑表头的端到端解析与识别,让模型能够把非结构化或半结构化表格恢复为可计算、可追踪、可推理的数据对象。

版面与表格检测

识别文档中的表格区域、标题、注释、跨页延续和图表邻接关系,建立表格在原始文档中的证据位置。

结构恢复

恢复行列边界、合并单元格、层级表头、嵌套表格和多级索引,得到可用于计算的规范表结构。

文本与数值识别

结合 OCR、语言模型和数值校验识别单元格内容,处理单位、上下标、科学计数法和公式表达。

多模态证据对齐

将表格与正文、图、公式、实验条件和参考文献对齐,为后续理解与推理保留可验证上下文。

表格理解与推理

表格理解不仅是读取单元格,还需要理解层级表头、单位、实体、约束、上下文和隐含计算关系。该方向研究模型如何围绕表格开展问答、比较、归纳、计算、证据定位和跨表推理。

表格问答 · 事实核验 · 多步计算 · 单元格证据定位
Schema 理解 · 层级表头推理 · 单位换算 · 条件过滤与聚合
跨表关联 · 图表文本联合推理 · 可解释推理链

表格数据中知识发现

面向科学表格、办公表格和多源表格集合,研究如何从表格结构、数值分布、单位约束、跨表关联和时序变化中发现可复用知识,支持规律归纳、候选假设生成、异常线索识别和可验证证据组织。

结构与语义归纳 · 实体关系抽取 · 单位和条件约束发现
跨表对齐 · 模式复用 · 候选假设生成 · 反例线索挖掘
数值趋势 · 时序变化 · 异常发现 · 可追踪证据链组织

应用研究

围绕科学表格数据和办公表格数据两类核心场景,分别沉淀从表格解析、理解推理到智能体操作的端到端能力。

科学表格数据挖掘

面向论文、实验记录、观测台站和仿真平台中的表格数据,研究从表格解析、单位与实验条件识别、跨论文字段对齐到时序观测建模的科学知识发现方法,支持材料、药物、基因、气象、能源和物理实验等场景。

文献与实验表格抽取

从论文 PDF、报告和实验附件中抽取科学对象、实验条件、单位、样本批次和测量结果。

时序科学表格建模

处理时间列、阶段列、观测窗口、不规则采样和纵向随访,连接表格挖掘与趋势分析、预测和异常发现。

TabClaw:表格数据分析智能体

TabClaw 是我们研发的本地对话式表格分析 AI Agent。用户上传 CSV 或 Excel 后,可用自然语言描述分析目标;系统展示执行计划,派遣专属 Agent 并行处理多张表,并结合跨会话记忆与技能蒸馏,把复杂表格分析转化为可追踪、可复用的交互流程。

CSV / Excel 上传 · 自然语言分析 · 无需 SQL 或编程
执行计划展示 · 多表并行 Agent · 工具调用与结果自检
跨会话记忆 · 偏好沉淀 · 交互过程自动蒸馏为可复用技能

Spreadsheet Manipulation

面向 Excel、Google Sheets、CSV 工作簿和企业报表等办公表格数据,研究能够理解用户意图、操作电子表格、生成公式、清洗数据、构造图表并验证结果的表格智能体。

Spreadsheet Manipulation · 公式生成 · 单元格编辑 · 多工作表联动
自动清洗 · 透视表 · 图表生成 · 数据校验 · 报告生成
任务规划 · 工具调用 · 执行反馈 · 人机协同修正