爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 5774|回复: 2

[经验总结] python补齐Dataframe时间序列

[复制链接]

新浪微博达人勋

发表于 2022-3-2 10:41:16 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
本帖最后由 wudi129 于 2022-3-2 10:47 编辑

import pandas as pd
import glob
from datetime import datetime

file_names = glob.glob("your folder/14*A.csv")
data = []

for file_name in file_names:
    va = pd.read_csv(file_name)
    va["date"] = va["date"].apply(str)
    va["hour"] = va["hour"].apply(lambda x:str(x).zfill(2))
    va["hour"] = va["hour"].apply(str)
    va["time"] = va["date"] + va["hour"]
    va["date"] = list(map(lambda x:datetime.strptime(x,"%Y%m%d%H"),va["time"]))
    del va["hour"]
    del va["time"]
    t =pd.date_range("2017-01-01 00:00:00","2017-12-31 23:00:00",freq = 'H')
    t_df = pd.DataFrame(t,columns = ['date'])
    va = va.merge(t_df,how = "right",sort = True)
    data.append(va)

1449A.csv

1.91 MB, 下载次数: 1, 下载积分: 金钱 -5

1450A.csv

3.39 MB, 下载次数: 0, 下载积分: 金钱 -5

1451A.csv

3.35 MB, 下载次数: 0, 下载积分: 金钱 -5

1452A.csv

3.38 MB, 下载次数: 0, 下载积分: 金钱 -5

1453A.csv

3.39 MB, 下载次数: 0, 下载积分: 金钱 -5

1454A.csv

3.35 MB, 下载次数: 0, 下载积分: 金钱 -5

1455A.csv

3.39 MB, 下载次数: 0, 下载积分: 金钱 -5

密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2022-3-2 10:54:50 | 显示全部楼层
本帖最后由 werewolf 于 2022-3-2 10:57 编辑

datetime处理太麻烦了,直接在read_csv时加上parse_dates
另外,合并可以用pd.concat()。给个多线程池子并行读完把每个Dataframe放到list,然后df = pd.concat(list)

这样速度会提升不少
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2022-3-2 11:03:10 | 显示全部楼层
werewolf 发表于 2022-3-2 10:54
datetime处理太麻烦了,直接在read_csv时加上parse_dates
另外,合并可以用pd.concat()。给个多线程池子并 ...

感谢大佬,学习了
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表