发票邮件为什么难处理?

不同平台的邮件结构差异很大:有的把发票字段写在 HTML 表格里,有的只在主题里写金额,有的把 PDF、OFD、XML 打成 ZIP,有的正文里只有下载链接。单靠一个 OCR 或一个正则都不够。

推荐的识别顺序

  1. 先用主题、发件人和关键词筛出候选发票邮件。
  2. 从 HTML 表格和正文文本提取发票号码、金额、开票日期、购销方。
  3. 解析 XML 和 OFD 内部结构,优先使用结构化字段。
  4. PDF 先做文本提取,关键字段缺失时再用 AI 视觉识别补全。
  5. 把附件上传到云盘,并把文件引用写入发票台账。
建议:发票采集不要只追求识别率,还要设计“无法识别队列”。无法自动确认的邮件进入人工复核,复核结果再反哺规则。

如何归档更容易查?

常见结构是按年度、季度、费用类型分目录。比如季度目录下放费用、开票、收票等子目录,台账记录中保存附件引用。这样后续生成季度报账包时,可以直接递归下载整季资料。

如何防止重复入库?

重复判断可以组合发票号码、发票代码、价税合计、销售方和开票日期。对于没有发票号码的异常票据,先进入待确认状态,不直接进入正式台账。

对外案例怎么写更自然?

对外展示可以围绕邮件来源、附件格式、字段识别、归档规则和异常队列来写。具体客户、供应商、金额和附件明细留在内部交付材料里,公开页面只呈现方法和效果。