一、金税时代,财务人必须掌握的风险自查技能
金税系统上线后,税务机关能够实时获取企业全量的进销发票数据、财务报表数据和个税申报数据,数据比对异常很容易引发预警甚至稽查。与其等税务局找上门,不如主动开展风险自查,把问题解决在萌芽状态。
今天我们就教大家用简单的Python脚本,自动完成发票数据和财务数据的比对分析,快速识别税务风险,即使是只会点Excel的财务人员也能轻松上手。
二、风险自查的核心逻辑
我们先搞明白最核心的比对公式,这也是金税系统判断企业数据是否异常的基础逻辑:
差异金额 = 销售收入金额 - 销售成本金额 - 三大费用金额 + 本期折旧总额 + 本期工资总额 - 本期存货增减金额 - 本期新增固定资产金额
这个公式的结果会有三种情况:
- 差异金额>0:可能存在上年发票入账、少计收入或少计成本费用的情况
所有需要的数据企业都可以自行从电子税务局下载,以前手动计算可能要花好几天,用Python脚本几分钟就能搞定,特别适合有多家子公司、分子公司的集团企业。
三、准备工作:先把数据准备好
在运行脚本之前,我们需要先从电子税务局下载三类数据,按照统一的目录结构存放:
数据目录结构示意图数据存放目录结构
税务风险自查/├── 发票数据/│ ├── 进项发票/│ │ ├── 公司A/│ │ ├── 公司B/│ │ └── ...│ └── 销项发票/│ ├── 公司A/│ ├── 公司B/│ └── ...├── 财务报表/│ ├── 资产负债表.xlsx│ ├── 利润表.xlsx│ └── 现金流量表.xlsx└── 个税申报数据/ ├── 2023年个税申报明细.xlsx └── 2024年个税申报明细.xlsx
四、脚本开发思路:一步步教你怎么写
我们不需要写复杂的代码,只要理解每个步骤的逻辑,修改少量配置就可以使用。
1. 环境准备
首先安装必要的Python库,只要运行一行命令:
pip install pandas numpy openpyxl
2. 配置区域:只需要修改这部分
脚本最前面是用户配置区域,财务人员只需要修改这里的路径就可以:
# 多公司发票目录配置invoice_dirs_config = {"进项发票": {"公司A": r"D:\税务数据\公司A\进项发票","公司B": r"D:\税务数据\公司B\进项发票",# 继续添加其他公司 },"销项发票": {"公司A": r"D:\税务数据\公司A\销项发票","公司B": r"D:\税务数据\公司B\销项发票",# 继续添加其他公司 }}# 全局输出目录,所有结果都会存在这里global_output_dir = os.path.join(_script_dir(), "合并输出目录")
关键参数说明:
invoice_dirs_config:按公司配置进项、销项发票的存放路径,有多少家公司就加多少条global_output_dir:脚本运行结果的保存目录,不需要修改,默认和脚本放在同一个文件夹
3. 核心功能1:批量合并发票数据
我们先写一个函数,自动合并指定目录下的所有Excel发票文件:
def consolidate_excel_files(folder_path, output_filename, output_dir):# 查找目录下所有Excel文件 excel_files = glob.glob(os.path.join(folder_path, '*.xlsx')) + glob.glob(os.path.join(folder_path, '*.xls')) all_data = []for f in excel_files:# 读取Excel文件,自动添加年份、月份等字段 df = pd.read_excel(f).assign( 开票年份=lambda d: pd.to_datetime(d.开票日期).dt.year, 开票月份=lambda d: pd.to_datetime(d.开票日期).dt.strftime('%Y-%m'), 价税合计绝对值=lambda d: d.价税合计.abs() ) all_data.append(df)# 合并所有数据并排序 consolidated_df = pd.concat(all_data, ignore_index=True).sort_values( by=["开票年份", "开票月份", "销方名称", "货物或应税劳务名称"] )# 保存合并后的文件 output_path = os.path.join(output_dir, output_filename) consolidated_df.to_excel(output_path, index=False, freeze_panes=(1, 0))return consolidated_df
功能说明:
- 这个函数会自动遍历指定目录下的所有发票Excel文件
4. 核心功能2:数据清洗与规格型号补全
发票清单里很多商品的规格型号是空的,我们可以从备注里自动提取:
def extract_spec_from_remark(row): spec = row.get('规格型号', np.nan) remark = row.get('备注', '')if pd.isna(spec) and pd.notna(remark):# 从备注中匹配"规格型号:XXX"格式的内容 match = re.search(r'规格型号[::]\s*([^\s,,;;]+)', str(remark))if match:return match.group(1)return spec
功能说明:
- 从备注字段中提取规格型号信息,减少手动补全的工作量
5. 核心功能3:进销项发票关联匹配
接下来我们把进项和销项发票关联起来,计算每笔销售对应的成本:
# 进项数据去重,相同商品只保留最新的采购价格df_input_subset_deduplicated = df_input_subset.sort_values( by=key_columns + ['进项_单价'], ascending=[True, True, False]).drop_duplicates(subset=key_columns, keep='first')# 左连接销项和进项数据,计算每笔销售的成本final_df = pd.merge( df_output_all, df_input_subset_deduplicated, on=["货物或应税劳务名称", "规格型号"], how='left').assign( 进项_成本金额=lambda d: pd.to_numeric(d.数量, errors='coerce').fillna(0) * d.进项_单价)
关键逻辑说明:
- 自动计算每笔销售对应的进项成本,为后续的差异分析做准备
税务风险自查整体流程图6. 核心功能4:财务数据与个税数据读取
接下来我们读取财务报表和个税申报数据:
# 读取资产负债表balance_sheet = pd.read_excel("财务报表/资产负债表.xlsx")# 提取折旧、固定资产、存货等数据depreciation = balance_sheet.loc[balance_sheet['项目'] == '累计折旧', '期末余额'].values[0]fixed_asset_add = balance_sheet.loc[balance_sheet['项目'] == '固定资产', '期末余额'].values[0] - balance_sheet.loc[balance_sheet['项目'] == '固定资产', '期初余额'].values[0]inventory_change = balance_sheet.loc[balance_sheet['项目'] == '存货', '期末余额'].values[0] - balance_sheet.loc[balance_sheet['项目'] == '存货', '期初余额'].values[0]# 读取利润表income_statement = pd.read_excel("财务报表/利润表.xlsx")sales_revenue = income_statement.loc[income_statement['项目'] == '营业收入', '本年累计'].values[0]sales_cost = income_statement.loc[income_statement['项目'] == '营业成本', '本年累计'].values[0]expenses = income_statement.loc[income_statement['项目'] == '销售费用', '本年累计'].values[0] + income_statement.loc[income_statement['项目'] == '管理费用', '本年累计'].values[0] + income_statement.loc[income_statement['项目'] == '财务费用', '本年累计'].values[0]# 读取个税申报数据,计算全年工资总额payroll_data = pd.read_excel("个税申报数据/2024年个税申报明细.xlsx")total_salary = payroll_data['本期收入'].sum()
功能说明:
7. 核心功能5:风险差异计算
最后我们用最开始的公式计算差异金额:
# 计算差异金额difference = sales_revenue - sales_cost - expenses + depreciation + total_salary - inventory_change - fixed_asset_add# 风险等级判断if abs(difference) / sales_revenue < 0.02: risk_level = "低风险"elif abs(difference) / sales_revenue < 0.05: risk_level = "中风险"else: risk_level = "高风险"
五、结果解读:一看就懂的风险报告
脚本运行完成后,会在输出目录生成以下文件:
风险分析结果示例图结果分析指南
六、注意事项
- 列名匹配:脚本中用到的列名需要和电子税务局下载的发票文件列名完全一致,如果不一致需要修改配置中的
key_columns参数 - 数据备份:运行脚本前请备份原始数据,避免误操作导致数据丢失
- 异常处理:脚本会自动跳过空文件和读取失败的文件,运行完成后查看控制台输出,确认所有文件都被正确读取
- 正则调整:备注提取规格型号的正则表达式可以根据企业实际发票备注格式调整
七、写在最后
金税系统的核心逻辑就是数据比对,企业自己先做一遍自查,不仅能避免税务风险,还能规范内部财务管理。这套脚本不需要复杂的编程知识,只要会修改文件路径,就能快速完成全集团的税务风险自查。
如果你的企业有多家分子公司,或者每年的发票量很大,这套方法能帮你节省90%的手动计算时间,把精力放在更有价值的财务分析工作上。
本文为原创内容,欢迎转发分享,转载请注明出处