Просмотр Исходного

h2. Общая информация


# На текущий момент нет известных нам проблем с повисанием и reset сервера с обычным ядром и типовым оборудованием. Возможные проблемы есть у экспериментальных ядер, отличных от ICServer и при использовании редкого оборудования.
# Если сервер завис программно, то на экране будет выводиться tracelog(сообщения об ошибках) в течение 8 минут, после этого будет reset. Этот tracelog реализован средствами немаскируемых прерываний NMI и работает в любых условиях даже если ядро совсем повисло.
# Если на экране сервера нет сообщений об ошибках tracelog, значит сервер не повис или повис аппаратно.




h2. Зависание сервера

При зависании сервера необходимо:

     Первым делом проверить аппаратную часть:

# Выключить сервер.     
# Проверить крутятся ли вентиляторы.
# Проверить руками температуру HDD и радиаторов, рука должна терпеть.
# Отключить все шлейфы, вытащить память, прочистить контакты(можно стирательной резинкой), включить заново.
# Включить, продуть весь сервер пылесосом.
# Провести memtest (есть на компакт диске).
# Загрузиться  со стандартным ядром(ICSServer), если использовали другое.
     

      Если после этих действий повисания продолжаются:

# Заменить HDD на серверный вариант.
# Заменить сетевые адаптеры на гигабитные Intel, Broadcom или Netxtrem (остальные виснут 100%, вопрос во времени, раз в год или раз в день). Чипсеты realtek в среднем раз в неделю.
# Проверить нажатие клавиши CapsLock.
# Сохранить в отдельный файл вывод команды: *top \-b \-n 2* 
# Сохранить в отдельный файл вывод команды: *netstat*
# Сохранить в отдельный файл вывод команды: *pstree \-upal*
# Необходимо сделать фотографию экрана и включить режим помощника и выслать фото и пароль на support@carbonsoft.ru, наши специалисты исправят проблему и установят вам исправленное ядро
# Проверить доступность сервера из сети Интернет
# Проверить что никто не подставляет ip-адрес сервера. Проверить можно командой arping \-D 192.168.0.1 \-I Leth1
# Проверить с  пользовательской машины ping до сервера и записать мак адрес который определился arp \-a или arp \-n
# Попробовать перезагрузить коммутатор или попробовать подключиться к серверу напрямую кабелем


h2. Kernel panic или перезагрузка

Если происходит *kernel panic* или *перезагрузка* необходимо:
# Задать интервал времени до перезагрузки можно задать в секундах, указав их в команде, например 600 секкунд. Если вы не уверены, что успеете сфотографировать сервер за 10 минут, можно выставить большее значение.
echo "600" >/proc/sys/kernel/panic
# При следующем reset или panic сервер будет ждать 600 секунд, нужно:

- сфотографировать экран;
- сохранить в отдельный файл содержимое логов, командами
{code}
cat /var/log/execd > /root/execd.sup
cat /var/log/watchdog > /root/wathcdog.sup
{code}
- [скопировать файлы с сервера|asrdocnew:Резервное копирование и восстановление из бекапов при помощи WinSCP]
- выслать фото и файлы в тех.поддержку вложениями к заявке.
- Если на экране ничего нет, значит сервер сделал reset аппаратно, попробовать сменить память, сетевки, диск, БП, материнку, или установить на другой сервер.