发票自动化 / 邮箱采集

邮箱发票自动采集怎么落地？

很多费用发票不是从一个系统出来，而是散落在邮箱、附件、下载链接和平台通知里。自动化要先解决“找得到、读得出、归得好”。

发票邮件为什么难处理？

不同平台的邮件结构差异很大：有的把发票字段写在 HTML 表格里，有的只在主题里写金额，有的把 PDF、OFD、XML 打成 ZIP，有的正文里只有下载链接。单靠一个 OCR 或一个正则都不够。

推荐的识别顺序

先用主题、发件人和关键词筛出候选发票邮件。
从 HTML 表格和正文文本提取发票号码、金额、开票日期、购销方。
解析 XML 和 OFD 内部结构，优先使用结构化字段。
PDF 先做文本提取，关键字段缺失时再用 AI 视觉识别补全。
把附件上传到云盘，并把文件引用写入发票台账。

建议：发票采集不要只追求识别率，还要设计“无法识别队列”。无法自动确认的邮件进入人工复核，复核结果再反哺规则。

如何归档更容易查？

常见结构是按年度、季度、费用类型分目录。比如季度目录下放费用、开票、收票等子目录，台账记录中保存附件引用。这样后续生成季度报账包时，可以直接递归下载整季资料。

如何防止重复入库？

重复判断可以组合发票号码、发票代码、价税合计、销售方和开票日期。对于没有发票号码的异常票据，先进入待确认状态，不直接进入正式台账。

对外案例怎么写更自然？

对外展示可以围绕邮件来源、附件格式、字段识别、归档规则和异常队列来写。具体客户、供应商、金额和附件明细留在内部交付材料里，公开页面只呈现方法和效果。