如何用 python 对离散数据做二维分箱？

灭火器 · 发表于 2025-1-14 18:45:30

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由灭火器于 2025-1-15 22:44 编辑

已知一系列离散点，用经纬度和变量值描述，可以保存为如下的二维表格：

二维分箱（2d binning）指规划好经纬度的正交网格，根据每个格子里落入的离散点计算格子的统计值，最后得到各个变量的格点数据，然后可以保存为 netCDF 文件。将非规则网格的 L2 卫星数据处理成格点数据时，经常会利用二维分箱的方法计算格子里的平均值。大概类似 NCL 官网这张图的效果：

NCL 里直接有现成的 bin_avg 函数，但 python 里要实现就更麻烦一些。

这里举出我常用的两种方法，就当抛砖引玉，想看看大家都是怎么实现的。简单粗暴的二维循环就忽略了。

方法一：scipy.stats.binned_statistic_2d，注意为了得到形如 (nlat, nlon) 的结果，需要颠倒 x 和 y 参数。

from scipy.stats import binned_statistic_2d
def binning2d(
x: ArrayLike,
y: ArrayLike,
values: ArrayLike | list[ArrayLike],
xbins: int | ArrayLike,
ybins: int | ArrayLike,
) -> tuple[NDArray, NDArray, NDArray]:
def nanmean(arr: NDArray) -> float:
arr = arr[~np.isnan(arr)]
if arr.size == 0:
return np.nan
return arr.mean()
binned, ybins, xbins, _ = binned_statistic_2d(
y, x, values, bins=[ybins, xbins], statistic=nanmean
)
xlabels = get_bin_centers(xbins)
ylabels = get_bin_centers(ybins)
return xlabels, ylabels, binned
df = pd.read_csv("test.csv")
lon_bins, lon_labels = make_evenly_bins(-180, 180, 0.1)
lat_bins, lat_labels = make_evenly_bins(-90, 90, 0.1)
varnames = df.columns[2:]
_, _, binned = binning2d(
x=df["lon"],
y=df["lat"],
values=[df[varname] for varname in varnames],
xbins=lon_bins,
ybins=lat_bins,
)
ds = xr.Dataset(
{varname: (["lat", "lon"], data) for varname, data in zip(varnames, binned)},
coords={"lon": lon_labels, "lat": lat_labels},
)

复制代码

方法二：pd.cut，更加简洁，速度也比 scipy 快很多。
更新：根据墨家大宝的回复修改了 observed 参数，并使用 reindex。

import numpy as np
import pandas as pd
import xarray as xr
from numpy.typing import ArrayLike, NDArray
def get_bin_centers(bins: ArrayLike) -> NDArray:
bins = np.asarray(bins)
assert len(bins) >= 2
return (bins[1:] + bins[:-1]) / 2
def linspace2(x0: float, x1: float, dx: float) -> NDArray:
assert dx > 0
nx = int(abs(x1 - x0) / dx) + 1
x = np.linspace(x0, x1, nx)
return x
def make_evenly_bins(x0: float, x1: float, dx: float) -> tuple[NDArray, NDArray]:
bins = linspace2(x0, x1, dx)
labels = get_bin_centers(bins)
return bins, labels
lon_bins, lon_labels = make_evenly_bins(-180, 180, 0.1)
lat_bins, lat_labels = make_evenly_bins(-90, 90, 0.1)
df = pd.read_csv("test.csv")
# 实际运算部分
ds = (
df.assign(
lon=pd.cut(df["lon"], lon_bins, labels=lon_labels, include_lowest=True),
lat=pd.cut(df["lat"], lat_bins, labels=lat_labels, include_lowest=True),
)
.groupby(["lat", "lon"], observed=True)
.mean()
.to_xarray()
.reindex(lon=lon_labels, lat=lat_labels)
)
ds.to_netcdf("test.nc")

复制代码

另外还有两种我尝试失败的 xarray 方法，看有没有坛友知道原因：

lon_cat = pd.cut(df['lon'], lon_bins, labels=lons, include_lowest=True)
lat_cat = pd.cut(df['lat'], lat_bins, labels=lats, include_lowest=True)
ds = df.to_xarray().assign(lon=('index', lon_cat), lat=('index', lat_cat)).groupby(['lat', 'lon']).mean()
# v2024.07.0 版本以上
from xarray.groupers import BinGrouper
lon_grouper = BinGrouper(lon_bins, labels=lons, include_lowest=True)
lat_grouper = BinGrouper(lat_bins, labels=lats, include_lowest=True)
ds = df.to_xarray().groupby(lon=lon_grouper, lat=lat_grouper).mean()

复制代码

墨家大宝 · 发表于 2025-1-23 19:51:08

详细讲解：
https://blog.csdn.net/modabao/ar ... 1001.2014.3001.5501

墨家大宝 · 发表于 2025-1-15 14:30:14

试试我的秘方：

df[['lon', 'lat']] = df[['lon', 'lat']] // 0.1 * 0.1 +0.05
da = df.groupby(['lon', 'lat']).mean().to_xarray().reindex(lat=lats, lon=lons)

内马尔 · 发表于 2025-1-15 15:38:58

{:5_213:}{:5_213:}

edwardli · 发表于 2025-1-15 15:42:48

groupby即可。

edwardli · 发表于 2025-1-15 15:42:49

本帖最后由 edwardli 于 2025-1-15 15:47 编辑

groupby即可。pandas.dataframe和xarray.dataset都有这个功能。

道理同此： dailyTP.groupby('latitude').mean(dim="longitude")

【气小Py-007：中期预报降水趋势_2023.06.13-哔哩哔哩】【视频标记点 04:00】 https://b23.tv/p81Hsp8

灭火器 · 发表于 2025-1-15 21:56:42

墨家大宝发表于 2025-1-15 14:30
试试我的秘方：

df[['lon', 'lat']] = df[['lon', 'lat']] // 0.1 * 0.1 +0.05

学到了，确实是秘方，量化到 0.1 分辨率再加一半的分辨率，相当于得到了分箱的标签，然后做 groupby，虽然有些格子没有出现在结果里，但是最后通过 reindex 把这些格子（行和列）又补回来了，更快也更省内存。
不过秘方有两个假设：一是格子是等间距的，二是格子的左右边缘数值应该是分辨率的整数倍，比如说 70、70.1、70.2，而 70.05 就会产生一些误差。不过估计减去 minlon 再加上 minlon 就能解决。

灭火器 · 发表于 2025-1-15 22:07:42

edwardli 发表于 2025-1-15 15:42
groupby即可。pandas.dataframe和xarray.dataset都有这个功能。

道理同此： dailyTP.groupby('latitude ...

看了一下视频，dailyTP 是时间、经度和纬度三个维度互相独立的网格数据吧，这个帖子想讨论的是经度和纬度不独立，二者会同时变化的一维散点数据，例如 flatten 后的卫星 L2 网格那种。
我试了下连续两次 groupby_bins，结果会是一维的，不符合预期。

墨家大宝 · 发表于 2025-1-16 09:13:08

灭火器发表于 2025-1-15 21:56
学到了，确实是秘方，量化到 0.1 分辨率再加一半的分辨率，相当于得到了分箱的标签，然后做 groupby，虽 ...

我凭印象盲打的，第二行里lons和lats一般我都会先处理成每个bin的中心便于画图。浮点数和非等距问题可以通过把第一行换成pd.cut解决，只不过对于均匀格点，尤其是1度等整数均匀格点，手动整除取整比cut更方便。

楼主有写公众号吗？方便的话加上我这个方法让我转载一下呗，提到“墨大宝”就行，我的公众号已经空了很久了。。。

任性小王子 · 发表于 2025-1-16 09:30:10

墨家大宝发表于 2025-1-16 09:13
我凭印象盲打的，第二行里lons和lats一般我都会先处理成每个bin的中心便于画图。浮点数和非等距问题可以 ...

学习到了，非常感谢大佬们

灭火器 · 发表于 2025-1-16 10:00:05

墨家大宝发表于 2025-1-16 09:13
我凭印象盲打的，第二行里lons和lats一般我都会先处理成每个bin的中心便于画图。浮点数和非等距问题可以 ...

无公众号，可以给你投稿

		自动登录	找回密码
密码			立即注册

[经验总结] 如何用 python 对离散数据做二维分箱？

登录后查看更多精彩内容~

浏览过的版块