Dificuldades na Execução do HPL

Dificuldades encontradas no WCCS2003

Após instalar o WCCS no cluster e executar alguns testes para verificar seu funcionamento, tentei executar o Linpack. Ao submeter o trabalho através do Job Manager, surgia uma mensagem na coluna de erros com a informação failed. Ao verificar essa mensagem imaginei que houvesse ocorrido um erro no escalonador para submeter o trabalho do HPL. Resolvi procurar por detalhes sobre o erro em arquivos de log ou no arquivo com a saída de erro padrão. Não haviam logs de erros e o arquivo de saída padrão estava vazio. Procurando na internet descobri o comando task view, que exibe detalhes sobre os trabalhos, mas ao executá-lo não obtive informações que me ajudassem:
C:\scratch>task view 63
Task ID              : 63.1
Status               : Failed
Name                 : hpl
Command line         : mpiexec -n 6 xhpl.exe
Allocated nodes      : NODE2 NODE3 NODE1
Exit code            : 128
Submit time          : 13/2/2008 14:26:05
Start time           : 13/2/2008 14:26:05
End time             : 13/2/2008 14:26:06
Kernel time          : 0,078
User time            : 0,015
Working set          : 9364 KB


Sem idéias de como encontrar o erro, resolvi recorrer àqueles que adaptaram o Linpack pro WCCS, e pro fórum de HPC da Microsoft. Trocando umas idéias com Phill Penn acabei descobrindo onde eu havia errado. A biblioteca BLAS da Intel - a MKL - não havia sido instalada em todos os nós de computação. Como o HPL depende das dll's dessas bibliotecas, não era possível executá-lo. O que realmente dificultou encontrar o erro foi a falta de informação sobre o problema.

O fórum de HPC da Microsoft pode ser encontrado aqui: http://forums.microsoft.com/WindowsHPC
A thread sobre o meu problema: http://forums.microsoft.com/WindowsHPC/ShowPost.aspx?PostID=2838814&SiteID=78

Last edited Feb 29, 2008 at 5:45 PM by dfconrad, version 1

Comments

No comments yet.