客户背景
费用发票来自不同平台和供应商,邮件格式不统一:有些附 PDF,有些附 XML/OFD/ZIP,有些只在正文里放下载链接。人工下载、改名、归档、登记台账耗时且容易漏。
邮箱发票PDF 识别云盘归档费用台账
原问题
- 发票邮件分散在收件箱,平台格式差异大。
- PDF、OFD、XML、ZIP 附件需要人工拆包和识别。
- 发票号码、金额、销售方、购买方、税额等字段需要手工录入。
- 发票附件要按季度和费用类型归档,目录容易混乱。
- 重复邮件、转发邮件和报账汇总邮件容易误入库。
自动化流程
| 步骤 | 自动化动作 | 输出 |
|---|---|---|
| 邮件检索 | 按上次运行时间或回溯天数搜索发票关键词 | 候选邮件列表 |
| 发票识别 | 从主题、HTML 正文、附件、下载链接提取字段 | 发票号、金额、日期、购销方 |
| 附件处理 | 解析 XML/OFD/ZIP,PDF 先文本识别,必要时 AI 补全 | 标准化发票数据 |
| 附件归档 | 按开票日期定位季度目录和费用子目录 | 附件状态和归档位置 |
| 台账写入 | 写入多维表格费用发票表 | 可检索、可统计记录 |
交付内容
交付结果包括发票台账、附件归档目录、无法识别队列和重复风险提示。对外案例展示字段类型和流程结构,内部系统则保留完整发票明细、附件引用和复核记录。
上线方式
- 先用最近 7-30 天邮件跑预览,统计可识别比例。
- 把平台邮件模板分组,补齐主题、正文、附件三类解析规则。
- 建立重复判断:发票号、金额、销售方、开票日期组合校验。
- 归档目录采用“季度/费用”或“年度/季度/类型”结构。
- 保留无法识别队列,交给人工补充规则。