- 积分
- 98
- 贡献
-
- 精华
- 在线时间
- 小时
- 注册时间
- 2015-4-21
- 最后登录
- 1970-1-1
![[大丑和大肥的故事] 粉丝数:9 微博数:49 新浪微博达人勋](source/plugin/sina_login/img/light.png)
|
登录后查看更多精彩内容~
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
之前做过wrf,一般的异常都可以自己排除。
现在在天河1号计算机上做wrf模拟台风,移动嵌套网格。
模拟时长4天,总是算到一半断掉。自己写了个脚本,检验任务是否断掉,如果断掉,就tail一下rsl的末尾,然后重新提交任务。发现上两次断掉时,rsl.out和rsl.error的末尾都是:
Timing for main: time 2014-09-22_16:12:30 on domain 2: 1.67014 elapsed seconds
Timing for main: time 2014-09-22_16:13:00 on domain 2: 1.01889 elapsed seconds
Timing for main: time 2014-09-22_16:13:30 on domain 2: 1.02074 elapsed seconds
2014-09-22_16:13:30 vortex center (in nest x and y): 135.0178 138.030
7
2014-09-22_16:13:30 grid center (in nest x and y): 135.5000 135.500
0
2014-09-22_16:13:30 disp : -0.4822235 2.530731
2014-09-22_16:13:30 move (rel cd) : 0 0
Timing for main: time 2014-09-22_16:13:30 on domain 1: 6.02866 elapsed seconds
之后就什么都没了,很奇怪,天河的作业管理日志中显示:
srun: error: cn3068: task 12: Exited with exit code 174
srun: First task exited 60s ago
srun: tasks 0-7,9-11,13-19: running
srun: tasks 8,12: exited abnormally
srun: Terminating job step 3087145.1
slurmd[cn3067]: *** STEP 3087145.1 KILLED AT 2015-11-18T00:58:50 WITH SIGNAL 9 ***
srun: Job step aborted: Waiting up to 2 seconds for job step to finish.
slurmd[cn3067]: *** STEP 3087145.1 KILLED AT 2015-11-18T00:58:50 WITH SIGNAL 9 ***
srun: error: cn3068: tasks 10-11,13-19: Killed
如果遇到类似问题的朋友 请给出指导~
|
评分
-
查看全部评分
|