- 积分
- 24316
- 贡献
-
- 精华
- 在线时间
- 小时
- 注册时间
- 2014-8-18
- 最后登录
- 1970-1-1
|
登录后查看更多精彩内容~
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
学校安装了 cluster 和新的shell, 却发现我的wrf.sh不再好用。
出现问题如下:
[proxy:0:1@node06] HYD_pmcd_pmip_control_cmd_cb (pm/pmiserv/pmip_cb.c:885): assert (!closed) failed
[proxy:0:1@node06] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[proxy:0:1@node06] main (pm/pmiserv/pmip.c:206): demux engine error waiting for event
[proxy:0:2@node07] HYD_pmcd_pmip_control_cmd_cb (pm/pmiserv/pmip_cb.c:885): assert (!closed) failed
[proxy:0:2@node07] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[proxy:0:2@node07] main (pm/pmiserv/pmip.c:206): demux engine error waiting for event
[proxy:0:3@node08] HYD_pmcd_pmip_control_cmd_cb (pm/pmiserv/pmip_cb.c:885): assert (!closed) failed
[proxy:0:3@node08] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[proxy:0:3@node08] main (pm/pmiserv/pmip.c:206): demux engine error waiting for event
srun: error: node07: task 2: Exited with exit code 7
srun: error: node06: task 1: Exited with exit code 7
srun: error: node08: task 3: Exited with exit code 7
[mpiexec@node05] HYDT_bscu_wait_for_completion (tools/bootstrap/utils/bscu_wait.c:76): one of the processes terminated badly; aborting
[mpiexec@node05] HYDT_bsci_wait_for_completion (tools/bootstrap/src/bsci_wait.c:23): launcher returned error waiting for completion
[mpiexec@node05] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:218): launcher returned error waiting for completion
[mpiexec@node05] main (ui/mpich/mpiexec.c:344): process manager error waiting for completion
我的sh 脚本如下:
#!/bin/bash
#SBATCH --job-name WRF_Job
#SBATCH --nodes 4
#SBATCH --ntasks 96
#SBATCH --mem=12880MB (这一个很关键,最好查看一下内存,我之前设置4G,出错后我改为12G后才能运行)
#SBATCH --time=96:00:00
#SBATCH --partition=long
#SBATCH --error=wrfjob.%J.err
#SBATCH --output=wrfjob.%J.out
module load mpich
/export/software/pgi/linux86-64/15.5/mpi/mpich/bin/mpirun /udrive/student/htan2013/WRFV3/test/em_real/wrf.exe
后来经过一番调查,发现是跟wrf的optimization有关。
于是乎, 我重新安装了wrf, 但是要关闭 wrf opitmization 选项
如何关闭链接如下 :Question7
http://www2.mmm.ucar.edu/wrf/use ... f_installation.html[/url]
注意pgi选项是加入,不要删掉之前的。
再 ./configure -d , 一定要加这个d, 我选的是3 dampar.
其他不变
问题解决,脚本成功使用。
希望诸位如果遇见了同样的关于assert failed问题,试试这个方法。
另外请问下大神这个optimization 决定了wrf的什么,我其实也是半懂不懂的
还有跑wrf多少内存合适?我设置的是12G,跑得区域挺大的, 官网上说的也是蛮模糊的 |
|