2010. november 23., kedd

AIX CSM cluster - szinkronizációs problémák

Tünetek:
- 'cfmupdatenode -v -n [nodename]' esetén az alábbi hibaüzenetet kapjuk:
"cfm_local: 2657-259 No hostname or ip address to which the files are being sent matched the local hostname or ip address"
- A node az 'lsnode -p' szerint alive állapotban van
- A CW és a node is jól (!) fel van véve a /etc/hosts-ban
- Név feloldás, és kommunikáció a node-CW között szépen megy
- Az összes szükséges subsystem fut, ahogy kell
- Latest (1.7.1.7) CSM client telepítve
- Node újradefiniálás nem segít.
- A CW-node szinkronizáció az istenért se akar menni ( a CSM beállítások a CW-n garantáltan jók )
Kis utánajárás után (illetve a /opt/csm/csmbin/cfm_local script analizálását követően) az alábbi hibaüzenet 2 eshetőség esetén jöhet elő:
- A generált /var/opt/csm/cfmlocal/.runclocal file-ban a file-ok/mappák végén nincs nodename megadva, csupán egy randa CFM_MODE_CFM=
- A feloldott hostname, vagy IP cím nem egyezik a file-ban talált hostname-el, vagy feloldott IP címmel.
Jelen esetben a hostname fel volt sorolva (ha valaki utána akarna nézni, akkor 'export CSM_CFM_DEBUG=1 cfmupdatenode -v -n [nodename]'), így visszanéztem hogy is nézi vissza a gyógyegér a hostnevet:
/usr/bin/lsrsrc-api -i -s IBM.ManagementServer::"ManagerType='CSM'"::LocalHostname
Jelen esetben ez volt a gázos - Az itt található hostname a HMC-hez kellett volna tartozzon.. Így hát persze hogy nem volt jó.. Na de akkor mi van a HMC-nél??
/usr/sbin/rsct/bin/lsrsrc IBM.ManagementServer
Hopp.. Semmi.. Csak CSM-hez volt bejegyezve.. Mit utólag kiderült ennek az az oka, hogy a node definiálásakkor még jó IP-t/nevet vesz fel, de ha a HMC-s classhoz nincs semmi definiálva, akkor azt a gép hajlamos felülvágni.. Na akkor hozzuk ezt helyre:
Konfoljuk újra az RSCT-s cuccokat from scratch:
/usr/sbin/rsct/install/bin/recfgct
Engedélyezzük újra a távoli RSCT konneckiókat:
/usr/sbin/rsct/bin/rmcctrl -p
# Most várunk 1-2 percet, míg az RSCT észre veszi magát, és a HMC-s kapcsolatot visszaépíti.. /usr/sbin/rsct/bin/lsrsrc IBM.ManagementServer-vel nézzük, hogy visszajött e már.. (Amíg nem jött vissza ne definiáljuk újra a node-ot, mert az updatenode meg fogja hülyíteni az egészet ismét )
Definiáljuk újra a node-unka:
rmnode, definenode, updatenode
És ne felejtsük el a CSM group-ba bevenni az újra definiált node-ot!
Hállelújja... 4,5 órányi nyomozás eredménye :)
Szerk: Egy kis finomítás a node újradefiniálás előtt
Szerk2: Ha valaki ne adj isten azt tapasztalná, hogy az újra definíció után rövid idővel a CSM-hez tartozó entry ismét a HMC IP-jét viseli (ergo a probléma ismét előállt), az frissítse fel a csm.client-et 1.7.1.7-re! (ahogy nézem az alap issue 1.7.1.6-nál jött elő)

Nincsenek megjegyzések:

Megjegyzés küldése