发票邮件为什么难处理?
不同平台的邮件结构差异很大:有的把发票字段写在 HTML 表格里,有的只在主题里写金额,有的把 PDF、OFD、XML 打成 ZIP,有的正文里只有下载链接。单靠一个 OCR 或一个正则都不够。
推荐的识别顺序
- 先用主题、发件人和关键词筛出候选发票邮件。
- 从 HTML 表格和正文文本提取发票号码、金额、开票日期、购销方。
- 解析 XML 和 OFD 内部结构,优先使用结构化字段。
- PDF 先做文本提取,关键字段缺失时再用 AI 视觉识别补全。
- 把附件上传到云盘,并把文件引用写入发票台账。
建议:发票采集不要只追求识别率,还要设计“无法识别队列”。无法自动确认的邮件进入人工复核,复核结果再反哺规则。
如何归档更容易查?
常见结构是按年度、季度、费用类型分目录。比如季度目录下放费用、开票、收票等子目录,台账记录中保存附件引用。这样后续生成季度报账包时,可以直接递归下载整季资料。
如何防止重复入库?
重复判断可以组合发票号码、发票代码、价税合计、销售方和开票日期。对于没有发票号码的异常票据,先进入待确认状态,不直接进入正式台账。
对外案例怎么写更自然?
对外展示可以围绕邮件来源、附件格式、字段识别、归档规则和异常队列来写。具体客户、供应商、金额和附件明细留在内部交付材料里,公开页面只呈现方法和效果。