爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 13156|回复: 7

跑cesm,在服务器上提交作业之后卡住不动,也不报错

[复制链接]
发表于 2016-11-16 17:07:55 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
我在天河上运行cesm也遇到了类似的问题,我跑1.9x2.5分辨率的,(每个节点24个核,我用了256个核),我设置NTASKS=128,NTHRDS=2跑一天.然后atm_in文件中,npr_yz=32,4,4,32。在提交作业yhbatch之后,它显示分区之后就卡住了,一直不往下写,等了2天也是这样,但是也不报错,不知道是什么原因,希望有经验的前辈能指点一下~命令为:
./xmlchange -file env_mach_pes.xml -id NTASKS_ATM -val '128' -verbose
./xmlchange -file env_mach_pes.xml -id NTHRDS_ATM -val '2' -verbose


提交之后显示:
         128 pes participating in computation
-----------------------------------
TASK#  NAME
  0  cn10105
  1  cn10105
  2  cn10105
  3  cn10105
  4  cn10105
  5  cn10105
  6  cn10105
  7  cn10105
  8  cn10105
  9  cn10105
10  cn10105
11  cn10105
12  cn10105
13  cn10105
14  cn10105
15  cn10105
16  cn10105
17  cn10105
18  cn10105
19  cn10105
20  cn10105
21  cn10105
22  cn10105
23  cn10105
24  cn12034
25  cn12034
26  cn12034
27  cn12034
28  cn12034
29  cn12034
30  cn12034
31  cn12034
32  cn12034
33  cn12034
34  cn12034
35  cn12034
36  cn12034
37  cn12034
38  cn12034
39  cn12034
40  cn12034
41  cn12034
42  cn12034
43  cn12034
44  cn12034
45  cn12034
46  cn12034
47  cn12034
48  cn12035
49  cn12035
50  cn12035
51  cn12035
52  cn12035
53  cn12035
54  cn12035
55  cn12035
56  cn12035
57  cn12035
58  cn12035
59  cn12035
60  cn12035
61  cn12035
62  cn12035
63  cn12035
64  cn12035
65  cn12035
66  cn12035
67  cn12035
68  cn12035
69  cn12035
70  cn12035
71  cn12035
72  cn13771
73  cn13771
74  cn13771
75  cn13771
76  cn13771
77  cn13771
78  cn13771
79  cn13771
80  cn13771
81  cn13771
82  cn13771
83  cn13771
84  cn13771
85  cn13771
86  cn13771
87  cn13771
88  cn13771
89  cn13771
90  cn13771
91  cn13771
92  cn13771
93  cn13771
94  cn13771
95  cn13772
96  cn13772
97  cn13772
98  cn13772
99  cn13772
100  cn13772
101  cn13772
102  cn13772
103  cn13772
104  cn13772
105  cn13772
106  cn13772
107  cn13772
108  cn13772
109  cn13772
110  cn13772
111  cn13772
112  cn13772
113  cn13772
114  cn13772
115  cn13772
116  cn13772
117  cn13772
118  cn13789
119  cn13789
120  cn13789
121  cn13789
122  cn13789
123  cn13789
124  cn13789
125  cn13789
126  cn13789
127  cn13789
Opened existing file
//WORK/app/CESM_inputdata/CAS_ESM/inputdata/atm/cam/inic/fv/cami_0000-01-01_1.9
x2.5_L26_c070408.nc       65536
Opened existing file
//WORK/app/CESM_inputdata/CAS_ESM/inputdata/atm/cam/topo/USGS-gtopo30_1.9x2.5_r
emap_c050602.nc      131072

然后就不往下走了

slurm-3506427.out

124.72 KB, 下载次数: 3, 下载积分: 金钱 -5

密码修改失败请联系微信:mofangbao
 楼主| 发表于 2016-12-19 10:27:47 | 显示全部楼层
和服务器运行环境有关,需要加载一个服务器下的环境变量的set2.sh脚本,而不是自己在提交作业的脚本里面写LD_LIBRARY_PATH。
密码修改失败请联系微信:mofangbao
 楼主| 发表于 2017-4-15 16:09:44 | 显示全部楼层
已经解决了,是移植的时候,环境没有设好,因为是在新的服务器上运行的,所以需要source新的环境,我自己写了一个环境变量脚本,结果不对,最后使用它们自己的环境变量脚本,再module load自己需要的ncdump和mpif90,就不存在这样的问题了
密码修改失败请联系微信:mofangbao
发表于 2018-12-25 16:47:46 | 显示全部楼层
你好,我也遇到了类似问题,不过你是提交后卡住不动,我是运行了一段时间卡住不动。
因为同样的环境配置成功运行过其他试验,排除环境原因。
所以我现在很不解,附上ccsm.log.181219-151649文件末尾,望指导。

Opened file ./test2new3.clm2.h0.0009-08.nc to write          46
Opened file test2new3.cam2.h0.0009-08.nc to write          46
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  109 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.3E-12 at i,k=  15 30
QNEG3 from vertical diffusion/H2SO4:m=  7 lat/lchnk=  245 Min. mixing ratio violated at    3 points.  Reset to  1.0E-36 Worst =-4.7E-12 at i,k=  10 30
QNEG3 from vertical diffusion/H2SO4:m=  7 lat/lchnk=  245 Min. mixing ratio violated at    7 points.  Reset to  1.0E-36 Worst =-2.4E-12 at i,k=  10 30
QNEG3 from vertical diffusion/H2SO4:m=  7 lat/lchnk=  246 Min. mixing ratio violated at    2 points.  Reset to  1.0E-36 Worst =-1.6E-12 at i,k=  10 30
QNEG3 from vertical diffusion/H2SO4:m=  7 lat/lchnk=  251 Min. mixing ratio violated at    6 points.  Reset to  1.0E-36 Worst =-1.9E-12 at i,k=  10 30
QNEG3 from vertical diffusion/H2SO4:m=  7 lat/lchnk=  251 Min. mixing ratio violated at    5 points.  Reset to  1.0E-36 Worst =-2.9E-12 at i,k=  10 30
QNEG3 from vertical diffusion/H2SO4:m=  7 lat/lchnk=  501 Min. mixing ratio violated at    3 points.  Reset to  1.0E-36 Worst =-1.5E-12 at i,k=   9 30
QNEG3 from convtran2/soa_a2:m= 19 lat/lchnk=  229 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.1E-12 at i,k=  11 30
QNEG3 from convtran2/DMS:m=  9 lat/lchnk=  507 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.8E-12 at i,k=  13 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  554 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.7E-12 at i,k=  15 30
QNEG3 from zm_convr/Q:m=  1 lat/lchnk=  244 Min. mixing ratio violated at    1 points.  Reset to  1.0E-12 Worst =-9.4E-08 at i,k=   9 11
QNEG3 from convect_deep/Q:m=  1 lat/lchnk=  244 Min. mixing ratio violated at    1 points.  Reset to  1.0E-12 Worst =-9.4E-08 at i,k=   9 11
QNEG3 from zm_convr/Q:m=  1 lat/lchnk=  244 Min. mixing ratio violated at    1 points.  Reset to  1.0E-12 Worst =-3.2E-06 at i,k=   9 11
QNEG3 from convect_deep/Q:m=  1 lat/lchnk=  244 Min. mixing ratio violated at    1 points.  Reset to  1.0E-12 Worst =-3.2E-06 at i,k=   9 11
QNEG3 from zm_convr/Q:m=  1 lat/lchnk=  240 Min. mixing ratio violated at    1 points.  Reset to  1.0E-12 Worst =-4.7E-05 at i,k=   9 13
QNEG3 from convect_deep/Q:m=  1 lat/lchnk=  240 Min. mixing ratio violated at    1 points.  Reset to  1.0E-12 Worst =-4.7E-05 at i,k=   9 13
QNEG3 from vertical diffusion/H2SO4:m=  7 lat/lchnk=  283 Min. mixing ratio violated at    2 points.  Reset to  1.0E-36 Worst =-1.2E-12 at i,k=   3 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  284 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.3E-12 at i,k=  12 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  269 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-2.8E-12 at i,k=  14 30
QNEG3 from vertical diffusion/H2O2:m=  6 lat/lchnk=  489 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-2.0E-12 at i,k=   7 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  308 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-2.4E-12 at i,k=  16 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  308 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.1E-12 at i,k=  16 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  308 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.2E-12 at i,k=  16 30
QNEG3 from convect_deep/CLDICE:m=  3 lat/lchnk=  244 Min. mixing ratio violated at    1 points.  Reset to  0.0E+00 Worst =-8.2E-07 at i,k=   9 13
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  571 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.2E-12 at i,k=  14 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  315 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.9E-12 at i,k=  16 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  316 Min. mixing ratio violated at    2 points.  Reset to  1.0E-36 Worst =-1.1E-12 at i,k=  16 30
Opened existing file
/g2/home/qh4/lth/inputdata/CSMDATA/lnd/clm2/surfdata/surfdata_64x128_simyr2000_
c090928.nc          46
QNEG3 from vertical diffusion/H2O2:m=  6 lat/lchnk=  494 Min. mixing ratio violated at    2 points.  Reset to  1.0E-36 Worst =-3.5E-12 at i,k=   9 30
QNEG3 from vertical diffusion/H2O2:m=  6 lat/lchnk=  494 Min. mixing ratio violated at    2 points.  Reset to  1.0E-36 Worst =-1.5E-12 at i,k=   9 30
QNEG3 from vertical diffusion/H2O2:m=  6 lat/lchnk=  494 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.4E-12 at i,k=   9 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  353 Min. mixing ratio violated at    1 points.  Reset to  1.0E-36 Worst =-1.4E-12 at i,k=   6 30
QNEG3 from vertical diffusion/SO2:m=  8 lat/lchnk=  562 Min. mixing ratio violated at    2 points.  Reset to  1.0E-36 Worst =-1.1E-12 at i,k=  16 30
密码修改失败请联系微信:mofangbao
 楼主| 发表于 2019-3-4 15:17:04 | 显示全部楼层
leeol 发表于 2018-12-25 16:47
你好,我也遇到了类似问题,不过你是提交后卡住不动,我是运行了一段时间卡住不动。
因为同样的环境配置成 ...

不好意思,很久没上气象家园了。我感觉你这个并没有报错呀,是不是超算维护什么的呀,或者你看看你的时间设置和output,说不定一定跑完了。我设置好环境变量之后就没有再遇到过这种问题,偶尔没有成功也是超算维护的原因,我重新restart就可以了
密码修改失败请联系微信:mofangbao
发表于 2019-12-5 14:16:28 | 显示全部楼层
楼主,您好!我是小白一枚,想请教一下,如果我申请的大型机上已经安装好了CESM,我想在自己账号下使用,需要进行什么操作呢?
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

发表于 2021-1-24 12:42:31 | 显示全部楼层
leeol 发表于 2018-12-25 16:47
你好,我也遇到了类似问题,不过你是提交后卡住不动,我是运行了一段时间卡住不动。
因为同样的环境配置成 ...

请问这个问题后来解决了吗?
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

发表于 2021-6-28 15:00:28 | 显示全部楼层
猫猫monty 发表于 2019-12-5 14:16
楼主,您好!我是小白一枚,想请教一下,如果我申请的大型机上已经安装好了CESM,我想在自己账号下使用,需 ...

请问您最后是怎么解决的 我也是这样的情况 谢谢!
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表