在电力市场中,做电价预测、新能源出力预测时,气象数据几乎是绕不开的基础变量。
温度、湿度、风速、云量、降水、太阳辐射,这些看似“天气预报”里的普通字段,放到电力市场分析里,往往会直接影响负荷、新能源出力、实时价差和日前交易策略。
最近整理了一个完整的 Python 项目:
weather_openmeteo_guangdong
它可以获取广东省 21 个地级市的小时级气象数据,并自动保存为 xlsx 文件。项目不使用网页爬虫、不使用 Selenium、不做浏览器抓取,而是直接调用 Open-Meteo 官方 JSON API,适合后续扩展到自动化任务、数据库入库、预测模型训练和可视化分析。
广东温度行政区分布图这个项目主要解决一个具体问题:
快速、规范、可重复地获取广东 21 个地级市的小时级气象数据,并整理成适合分析建模的 Excel 表格。
它适合用于:
支持哪些数据?
项目明确区分四类气象数据。
| | |
forecast_future | | |
forecast_historical | | |
forecast_previous_run | | |
actual_reanalysis | | |
需要特别说明的是:
actual_reanalysis 来自 Open-Meteo Historical Weather API,本质上是历史再分析/融合气象数据,不是严格意义上的中国气象局地面站原始实测数据。
实际输出
项目实际执行一次数据获取:
python main.py --mode all \ --actual-start-date 2026-05-10 \ --actual-end-date 2026-05-13 \ --forecast-start-date 2026-05-11 \ --forecast-end-date 2026-05-13 \ --cities all
生成文件:
output/weather_guangdong_20260511_174710.xlsx
结果规模如下:
| | |
forecast_future_hourly | | 2026-05-11 至 2026-05-13 的未来预测 |
actual_history_hourly | | |
city_config | | |
run_log | | |
data_dictionary | | |
可用绘图脚本生成可视化:
python plot_weather.py \ --input-xlsx output/weather_guangdong_20260511_174710.xlsx \ --sheet forecast_future_hourly \ --variable shortwave_radiation \ --cities 广州,深圳,阳江,湛江 \ --start-date 2026-05-11 \ --end-date 2026-05-13
短波辐射小时序列图图:广州、深圳、湛江、阳江 4 个城市的短波辐射小时序列。对光伏出力预测来说,这类变量通常比单纯温度更关键。
短波辐射行政区分布图
覆盖哪些城市?
项目内置广东省 21 个地级市中心点坐标:
广州、深圳、珠海、汕头、佛山、韶关、湛江、肇庆、江门、茂名、惠州、梅州、汕尾、河源、阳江、清远、东莞、中山、潮州、揭阳、云浮
城市坐标配置文件位于:
config/cities_guangdong.json
后续如果想扩展到其他省份,只需要增加新的城市坐标配置即可。
获取哪些气象变量?
项目默认获取小时级变量,既包含基础气象字段,也包含光伏和新能源相关字段。
基础气象变量
- •
relative_humidity_2m:2 米相对湿度 - •
apparent_temperature:体感温度 - •
wind_speed_100m:100 米风速 - •
wind_direction_10m:10 米风向 - •
wind_direction_100m:100 米风向
光伏与新能源相关变量
- •
shortwave_radiation:短波辐射,近似 GHI - •
direct_normal_irradiance:法向直射辐照度 DNI
如果某个接口暂时不支持某个变量,程序不会中断,而是记录 warning,并在最终表格中保留该字段,缺失值填 NaN。
项目结构
项目结构如下:
weather_openmeteo_guangdong/│├── main.py├── plot_weather.py├── requirements.txt├── README.md│├── config/│ ├── cities_guangdong.json│ ├── settings.yaml│ └── guangdong_city_boundaries.geojson│├── src/│ ├── api_client.py│ ├── config_loader.py│ ├── date_utils.py│ ├── data_parser.py│ ├── excel_writer.py│ ├── scheduler.py│ ├── logger.py│ ├── compare.py│ └── visualize.py│├── tests/├── output/└── logs/
其中:
- •
api_client.py:负责调用 Open-Meteo 官方 API。 - •
data_parser.py:负责将 JSON 解析成规范化 DataFrame。 - •
excel_writer.py:负责写入 xlsx 文件。 - •
compare.py:负责预测与实际/再分析数据误差对齐。 - •
visualize.py:负责时间序列图和广东行政区地图。 - •
scheduler.py:负责 daily 和 interval 自动调度。
关键代码片段
1. 广东 21 地市坐标配置
城市坐标单独放在 JSON 配置文件中,后续可扩展到其他省份。
{"广州":{"lat":23.1291,"lon":113.2644},"深圳":{"lat":22.5431,"lon":114.0579},"珠海":{"lat":22.2707,"lon":113.5767},"汕头":{"lat":23.3541,"lon":116.6819},"佛山":{"lat":23.0215,"lon":113.1214},"阳江":{"lat":21.8579,"lon":111.9822},"湛江":{"lat":21.2707,"lon":110.3594}}
实际项目里完整内置了广东 21 个地级市。
2. 统一构造 Open-Meteo 请求参数
所有接口都统一设置时区、温度单位、风速单位、降水单位和时间格式。
def_base_params(self, lat: float, lon: float) -> dict[str, Any]:return {"latitude": lat,"longitude": lon,"hourly": ",".join(self.hourly_variables),"timezone": "Asia/Shanghai","wind_speed_unit": "ms","precipitation_unit": "mm","temperature_unit": "celsius","timeformat": "iso8601", }
这里的 hourly_variables 来自 settings.yaml,包括温度、湿度、风速、云量、降水、短波辐射、DNI 等字段。
3. 获取未来天气预测数据
未来预测数据调用的是 Open-Meteo ECMWF Forecast API。
deffetch_forecast_future( self, city_name: str, lat: float, lon: float, forecast_days: int | None = None, start_date: str | None = None, end_date: str | None = None,) -> dict[str, Any]: params = self._base_params(lat, lon)if start_date and end_date: params.update({"start_date": start_date, "end_date": end_date})elif forecast_days: params["forecast_days"] = forecast_daysreturnself._fetch("forecast_future", city_name,"https://api.open-meteo.com/v1/ecmwf", params, )
这样就可以同时支持:
- • 指定
start_date 和 end_date。
4. 请求失败自动重试
网络请求封装在 _request_with_retry 中。某个城市失败不会影响其他城市。
def_request_with_retry(self, url: str, params: dict[str, Any]): last_error = Nonefor attempt inrange(1, self.max_retries + 1):try: response = requests.get(url, params=params, timeout=self.timeout) response.raise_for_status()return response.json(), Noneexcept requests.RequestException as exc: last_error = str(exc)self.logger.warning("请求失败 attempt=%s/%s error=%s", attempt,self.max_retries, exc, )returnNone, last_error
项目默认:
request_timeout:30max_retries:3request_sleep_seconds:0.5
也就是说,每个请求最多重试 3 次,单次 timeout 为 30 秒,城市之间会适当 sleep,避免请求过快。
5. 将 Open-Meteo JSON 解析成 DataFrame
Open-Meteo 返回的是 JSON,核心数据在 hourly.time 和各个小时级变量里。
项目会把它展开成“一行一个城市一个小时”的表格结构。
hourly = raw_json["hourly"]times = hourly.get("time", [])df = pd.DataFrame({"time": pd.to_datetime(times)})for variable in hourly_variables: values = hourly.get(variable)if values isNone: df[variable] = pd.NAelse: df[variable] = pd.Series(values)df["province"] = "广东"df["city"] = city_namedf["latitude"] = latdf["longitude"] = londf["date"] = df["time"].dt.date.astype(str)df["hour"] = df["time"].dt.hour
如果接口缺少某个变量,字段仍然会保留,只是值为 NaN。
6. 写入 Excel 多个 sheet
最终用 pandas.ExcelWriter + openpyxl 输出 xlsx。
with pd.ExcelWriter(path, engine="openpyxl", mode="w") as writer: forecast_future_df.to_excel( writer, sheet_name="forecast_future_hourly", index=False, ) actual_history_df.to_excel( writer, sheet_name="actual_history_hourly", index=False, ) city_config_df.to_excel( writer, sheet_name="city_config", index=False, ) run_log_df.to_excel( writer, sheet_name="run_log", index=False, )
项目实际输出时还会自动:
- • 写入
data_dictionary 数据字典。
7. 对齐历史预测与历史实际并计算误差
误差分析按 city + time 对齐。
merged = forecast[keep].merge( actual[keep], on=["city", "time"], how="inner", suffixes=("_forecast", "_actual"),)merged["temp_error"] = ( merged["temperature_2m_forecast"] - merged["temperature_2m_actual"])merged["wind_10m_error"] = ( merged["wind_speed_10m_forecast"] - merged["wind_speed_10m_actual"])
8. 绘制广东行政区气象分布图
项目新增了绘图入口,可以读取 xlsx 并输出广东行政区地图。
python plot_weather.py \ --input-xlsx output/weather_guangdong_20260511_174710.xlsx \ --sheet forecast_future_hourly \ --variable temperature_2m \ --cities 广州,深圳,阳江,湛江 \ --start-date 2026-05-11 \ --end-date 2026-05-13
会生成:
forecast_future_hourly_temperature_2m_timeseries.pngforecast_future_hourly_temperature_2m_guangdong_map.pngforecast_future_hourly_temperature_2m_guangdong_map.html
主要依赖
主要依赖包括:
requestspandasopenpyxlpyyamlapschedulerpython-dateutiltenacitypytestmatplotlibfolium
输出 Excel 里有什么?
每次运行都会生成一个 xlsx 文件,固定包含以下 sheet:
| |
forecast_future_hourly | |
forecast_historical_hourly | |
forecast_previous_runs_hourly | |
actual_history_hourly | |
forecast_actual_error | |
forecast_actual_error_summary | |
city_config | |
run_log | |
data_dictionary | |
一个典型的输出字段
最终每一行代表:
一个城市 + 一个小时 + 一类数据
核心字段包括:
| |
data_type | |
source_api | |
issue_time | |
province | |
city | |
latitude | |
longitude | |
time | |
date | |
hour | |
forecast_reference_time | |
forecast_target_time | |
lead_time_hours | |
is_observed | |
data_description | |
fetch_status | |
error_message | |
字段设计尽量保持“宽表 + 元数据”的形式,方便后续:
注意事项
- 1. 项目使用 Open-Meteo 官方 JSON API,不使用网页爬虫、Selenium 或浏览器抓取。
- 2.
actual_reanalysis 不是严格地面气象站实测数据,而是历史再分析/融合数据。
- 3. 训练电价预测模型时,建议优先使用
forecast_historical,不要直接用 actual_reanalysis 替代未来天气输入。 - 4. 某些 API 对部分变量支持不完全,项目会自动记录 warning,并把缺失字段保留为
NaN。 - 5. 如果所有城市请求都失败,程序会返回非零退出码;如果部分城市失败,仍会生成 xlsx 并在
run_log 中记录错误。
结语
气象数据本身并不复杂,真正容易出问题的是“数据口径”。
预测阶段能拿到的是预测天气,训练阶段也应该尽量使用历史预测天气;历史实际/再分析天气更适合做复盘、误差评估和修正模型。
这个项目的目标,就是把广东 21 个地级市的小时级气象数据获取流程做成一个清晰、可复用、可扩展的小工具:
Open-Meteo API ↓Python 自动获取 ↓pandas 规范化处理 ↓xlsx 文件输出 ↓行政区地图 / 时间序列图 ↓电价预测 / 新能源预测
后续如果接入数据库、自动任务平台或模型训练流水线,也可以在这个结构上继续扩展。
如果你正在做广东电力市场预测、新能源出力分析或储能策略研究,这个项目可以作为一个轻量但完整的气象数据入口。