Solución de problemas de VMware: problema de caída de red

Hola, compañeros administradores de VMware. Una y otra vez, nos hemos ocupado de cuestiones extrañas que son realmente difíciles de identificar.

Un problema con el que me he ocupado recientemente fue muy frustrante y me hizo profundizar en la solución de problemas, en el núcleo y lo que encontré se enumera a continuación.

Sin embargo, antes de continuar con el artículo, permítanme contarles un poco de historia. Varios días antes del problema, agregamos otros tres hosts a nuestro actual VMware Cluster. Los hosts son todos servidores en rack con tarjetas de 10GBE, ya que tenemos un entorno de producción masivo.

Después de instalar físicamente los servidores, instalar ESXi y agregar los hosts al clúster, vimos que la conectividad de red a los hosts disminuía cada vez que había una operación de vMotion en muchas máquinas, ya sea manualmente o mediante DRS.

Después de buscar en los registros del kernel y obtener un poco de ayuda de VMware, llegamos a la conclusión de que las tarjetas de 10GBE que estaban presentes en el nuevo servidor no estaban certificadas para ESXi y que el controlador que estaban usando no era el adecuado.

Aquí hay un par de capturas de pantalla de vmkernel mientras vMotion se estaba ejecutando:

Como podemos ver, de repente el socket se cierra y el controlador falla, lo que hace que el adaptador de red se caiga, lo que también baja la red de administración. Un reinicio rápido de la red de administración soluciona el problema, temporalmente, hasta que inicie otro vMotion y volverá a fallar.

¡Ahora viene la parte divertida! ¡La solución permanente!

Parece que VMware tiene dos conjuntos de controladores para este tipo de tarjetas: un ixgbe y ixgben conductor.

Este problema ocurre cuando el ixgben el controlador está en uso y parece que hay una incompatibilidad entre ese controlador y la tarjeta de red. Falla cuando el valor del búfer aumenta debido a una gran cantidad de datos de vMotion.

Entonces, para solucionar este problema, simplemente deshabilitaremos el ixgben controlador y habilite el ixgbe

uno.

Para hacer eso, ejecutaremos los siguientes comandos desde el shell de administración:

# esxcli system
module set --enabled=true --module=ixgbe
# esxcli system
module set --enabled=false --module=ixgben

Ahora simplemente reinicie el host ESXi y ya está. ¡Espero que este artículo ayude y vuelva por mucho más!

Santiago
Los ordenadores siempre han sido una gran parte de mi vida. Decidí crear este sitio para plasmar todo lo aprendido durante tantos años trasteando con estás maquinas. Cuando no estoy editando mi web, me dedico a reparar aerogeneradores.

Deja un comentario