USTC-Table-Mining 首页

研究方向

USTC-AGI 研究组在 Table Mining 方向重点关注复杂表格的解析与识别、表格语义理解与多步推理，以及表格数据中的知识发现，并面向科学表格数据与办公表格数据两类场景沉淀可复用能力。

表格解析与识别

面向论文 PDF、扫描文档、网页和报告中的复杂表格，研究从视觉版面、OCR 文本、单元格结构到逻辑表头的端到端解析与识别，让模型能够把非结构化或半结构化表格恢复为可计算、可追踪、可推理的数据对象。

版面与表格检测

▦

识别文档中的表格区域、标题、注释、跨页延续和图表邻接关系，建立表格在原始文档中的证据位置。

结构恢复

↔

恢复行列边界、合并单元格、层级表头、嵌套表格和多级索引，得到可用于计算的规范表结构。

文本与数值识别

✦

结合 OCR、语言模型和数值校验识别单元格内容，处理单位、上下标、科学计数法和公式表达。

多模态证据对齐

⌁

将表格与正文、图、公式、实验条件和参考文献对齐，为后续理解与推理保留可验证上下文。

查看主页

表格理解与推理

表格理解不仅是读取单元格，还需要理解层级表头、单位、实体、约束、上下文和隐含计算关系。该方向研究模型如何围绕表格开展问答、比较、归纳、计算、证据定位和跨表推理。

▣ 表格问答 · 事实核验 · 多步计算 · 单元格证据定位

◈ Schema 理解 · 层级表头推理 · 单位换算 · 条件过滤与聚合

◎ 跨表关联 · 图表文本联合推理 · 可解释推理链

查看主页 Reasoning Benchmark Coming Soon

表格数据中知识发现

面向科学表格、办公表格和多源表格集合，研究如何从表格结构、数值分布、单位约束、跨表关联和时序变化中发现可复用知识，支持规律归纳、候选假设生成、异常线索识别和可验证证据组织。

⌑ 结构与语义归纳 · 实体关系抽取 · 单位和条件约束发现

≋ 跨表对齐 · 模式复用 · 候选假设生成 · 反例线索挖掘

↯ 数值趋势 · 时序变化 · 异常发现 · 可追踪证据链组织

查看主页 Discovery Benchmark Coming Soon

应用研究

围绕科学表格数据和办公表格数据两类核心场景，分别沉淀从表格解析、理解推理到智能体操作的端到端能力。

科学表格数据挖掘

面向论文、实验记录、观测台站和仿真平台中的表格数据，研究从表格解析、单位与实验条件识别、跨论文字段对齐到时序观测建模的科学知识发现方法，支持材料、药物、基因、气象、能源和物理实验等场景。

文献与实验表格抽取

□

从论文 PDF、报告和实验附件中抽取科学对象、实验条件、单位、样本批次和测量结果。

时序科学表格建模

↯

处理时间列、阶段列、观测窗口、不规则采样和纵向随访，连接表格挖掘与趋势分析、预测和异常发现。

查看主页

TabClaw：表格数据分析智能体

TabClaw 是我们研发的本地对话式表格分析 AI Agent。用户上传 CSV 或 Excel 后，可用自然语言描述分析目标；系统展示执行计划，派遣专属 Agent 并行处理多张表，并结合跨会话记忆与技能蒸馏，把复杂表格分析转化为可追踪、可复用的交互流程。

▤ CSV / Excel 上传 · 自然语言分析 · 无需 SQL 或编程

⌁ 执行计划展示 · 多表并行 Agent · 工具调用与结果自检

✦ 跨会话记忆 · 偏好沉淀 · 交互过程自动蒸馏为可复用技能

GitHub

Spreadsheet Manipulation

面向 Excel、Google Sheets、CSV 工作簿和企业报表等办公表格数据，研究能够理解用户意图、操作电子表格、生成公式、清洗数据、构造图表并验证结果的表格智能体。

⌘ Spreadsheet Manipulation · 公式生成 · 单元格编辑 · 多工作表联动

▧ 自动清洗 · 透视表 · 图表生成 · 数据校验 · 报告生成

◇ 任务规划 · 工具调用 · 执行反馈 · 人机协同修正

查看主页