研究方向
USTC-AGI 研究组在 Table Mining 方向重点关注复杂表格的解析与识别、表格语义理解与多步推理,以及表格数据中的知识发现,并面向科学表格数据与办公表格数据两类场景沉淀可复用能力。
表格解析与识别
面向论文 PDF、扫描文档、网页和报告中的复杂表格,研究从视觉版面、OCR 文本、单元格结构到逻辑表头的端到端解析与识别,让模型能够把非结构化或半结构化表格恢复为可计算、可追踪、可推理的数据对象。
识别文档中的表格区域、标题、注释、跨页延续和图表邻接关系,建立表格在原始文档中的证据位置。
恢复行列边界、合并单元格、层级表头、嵌套表格和多级索引,得到可用于计算的规范表结构。
结合 OCR、语言模型和数值校验识别单元格内容,处理单位、上下标、科学计数法和公式表达。
将表格与正文、图、公式、实验条件和参考文献对齐,为后续理解与推理保留可验证上下文。
表格理解与推理
表格理解不仅是读取单元格,还需要理解层级表头、单位、实体、约束、上下文和隐含计算关系。该方向研究模型如何围绕表格开展问答、比较、归纳、计算、证据定位和跨表推理。
表格数据中知识发现
面向科学表格、办公表格和多源表格集合,研究如何从表格结构、数值分布、单位约束、跨表关联和时序变化中发现可复用知识,支持规律归纳、候选假设生成、异常线索识别和可验证证据组织。
应用研究
围绕科学表格数据和办公表格数据两类核心场景,分别沉淀从表格解析、理解推理到智能体操作的端到端能力。
科学表格数据挖掘
面向论文、实验记录、观测台站和仿真平台中的表格数据,研究从表格解析、单位与实验条件识别、跨论文字段对齐到时序观测建模的科学知识发现方法,支持材料、药物、基因、气象、能源和物理实验等场景。
从论文 PDF、报告和实验附件中抽取科学对象、实验条件、单位、样本批次和测量结果。
处理时间列、阶段列、观测窗口、不规则采样和纵向随访,连接表格挖掘与趋势分析、预测和异常发现。
TabClaw:表格数据分析智能体
TabClaw 是我们研发的本地对话式表格分析 AI Agent。用户上传 CSV 或 Excel 后,可用自然语言描述分析目标;系统展示执行计划,派遣专属 Agent 并行处理多张表,并结合跨会话记忆与技能蒸馏,把复杂表格分析转化为可追踪、可复用的交互流程。
Spreadsheet Manipulation
面向 Excel、Google Sheets、CSV 工作簿和企业报表等办公表格数据,研究能够理解用户意图、操作电子表格、生成公式、清洗数据、构造图表并验证结果的表格智能体。