python 批量处理中国空气质量历史数据

veroniaca · 发表于 2021-12-24 14:04:46

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 veroniaca 于 2021-12-25 11:25 编辑

污染物数据网站链接:https://quotsoft.net/air/

因为这是站点的小时资料，并且每天的数据都是一个csv文件，想要获得几年的空气质量数据（如PM2.5，PM10，O3等）处理起来就会非常麻烦，所以编写了以下代码，供大家使用（不过代码运行起来速度很慢，因为是python小白，用的都是最简单的语句去写）

数据处理的逻辑就是：
1.先创建一个二维数据（时间 * 站点）
2.再根据时间将站点数据读入（之所以这样，是因为每个CSV文件的站点数不一样，所以对应的行也不一致，所以选用了只有通过if语句，将站点对应之后，再把数据写入）

import pandas as pd
import os
import numpy as np
import datetime
inputfile = "G:/python/PM25_PM10/Particle/test/" #输入文件路径，就是你要读取的批量日文件
outputfile = "G:/python/PM25_PM10/Particle/test/test1/test_output.csv" #输出文件的路径
file_path = inputfile
output_path = outputfile
#build station list #这个站点列表是网站上写出的，但是我把2016-2020的站点都放了进去
station_file = "G:/python/PM25_PM10/Particle/2020station.xlsx"
station_name = pd.read_excel(io = station_file) #读取站点文件
station = station_name["Station"]
num_station = station_name.shape[0] #获取行数，
station = station.tolist()
#print(station[0])
i=0
for filename in os.listdir(file_path):
dirs = file_path + filename
#read data
pms = pd.read_csv(dirs)
pms_25 = pms[pms.type == "PM2.5"] #这个是提取某个元素的资料，我提取的是PM2.5和PM10的，因为要计算PM2.5/PM10的比值
pms_10 = pms[pms.type == "PM10"]
column = pms_25.shape[1] #获取列数
row = pms_25.shape[0] #获取行数
#print(pms.columns[3]) 等同于#print(pms[pms_25.columns[3]]) 等同于#print(pms_25.iloc[:,3]) #这句可忽略！！！
#build empty data #开始创建一个二维数据
data_build = np.zeros((row,num_station))
data_build = pd.DataFrame(data_build)

复制代码

接上面：

#about time #这下面一大段都是时间格式的转换，因为想要写进文件的格式是yyyy-mm-dd hh:mm，方便之后时间的筛选
yymmdd = np.array(pms_25["date"])
yymmdd = yymmdd.tolist()
yymmdd = [str(x) for x in yymmdd]
year =np.empty(row)
month =np.empty(row)
day =np.empty(row)
for i in range (0,row):
year[i] = yymmdd[i][0:4]
month[i] = yymmdd[i][4:6]
day[i] = yymmdd[i][6:8]
year = [int(x) for x in year]
month = [int(x) for x in month]
day = [int(x) for x in day]
hour = np.array(pms_25["hour"])
date = {}
for i in range (0,row):
date[i] = datetime.datetime(year[i], month[i], day[i], hour[i])
date =list(date.values())
#data columns and index
data_build.columns = station
data_build.index = date
#input data
for i in range (3,column):
num = 0
for j in range (i,num_station):
if pms_25.columns[i] == station[j-3]:
for k in range (0,row):
data_build.iloc[k,j-3] = pms_25.iloc[k,i]/pms_10.iloc[k,i]
#print(data_build.iloc[i,j-3])
break
data_build.to_csv(output_path,mode ="a")

复制代码

以上代码基本修改最前面的路径名，就可以使用了。

veroniaca · 发表于 2021-12-24 14:07:20

本帖最后由 veroniaca 于 2021-12-25 11:25 编辑

如果需要删除列标题，
可以将data_build.to_csv(output_path,mode ="a")改成以下代码：

file = file + 1
if file > 1:
data_build.to_csv(output_path,mode ="a",header=0,index = 1)
else:
data_build.to_csv(output_path,header=1,index = 1)

复制代码

或者生成文件后，运行下面代码....

import pandas as pd
import os
import numpy as np
import datetime
inputfile = "G:/python/PM25_PM10/Particle/output/output/"
outputfile = "G:/python/PM25_PM10/Particle/output/output_deal/"
file_path = inputfile
output_path = outputfile
for filename in os.listdir(file_path):
dirs = file_path + filename
output_path = outputfile + filename
#read data
pms = pd.read_csv(dirs)
#set the first column as "time"
pms.rename(columns = {'Unnamed: 0':"time"},inplace =True)
#fill nan value of the column "time" as "time"
df = pms["time"].fillna("time")
#set the list "df" as index
pms.set_index(df,inplace = True)
#delete the row which the index is “time”
pms_deleted = pms.drop(["time"],axis = 0)
#delete the column same as index
pms_deleted = pms_deleted.drop(["time"],axis = 1)
#output
pms_deleted.to_csv(output_path)

复制代码

ta383045387 · 发表于 2022-1-5 11:05:36

学习学习！

movlan · 发表于 2022-1-16 13:13:59

脚本运行有问题~

zhuizhu · 发表于 2022-9-6 22:40:07

你好，请问运行后出现“PermissionError: [Errno 13] Permission denied”是什么原因？文件我也没有打开，并在管理员模式下运行的

veroniaca · 发表于 2022-9-23 16:08:37

zhuizhu 发表于 2022-9-6 22:40
你好，请问运行后出现“PermissionError: [Errno 13] Permission denied”是什么原因？文件我也没有打开， ...

不好意思，请问代码改了什么地方呢？是需要用到PM2.5和TSP吗？

千寻之下 · 发表于 2023-4-15 15:53:23

想咨询一下大佬如何日平均，它的很多日期都不全

		自动登录	找回密码
密码			立即注册

[源代码] python 批量处理中国空气质量历史数据

登录后查看更多精彩内容~

评分

浏览过的版块