Сервер завис, перезагрузился или kernel panic

Skip to end of metadata
Go to start of metadata

Общая информация

  1. На текущий момент нет известных нам проблем с повисанием и reset сервера с обычным ядром и типовым оборудованием. Возможные проблемы есть у экспериментальных ядер, отличных от ICServer и при использовании редкого оборудования.
  2. Если сервер завис программно, то на экране будет выводиться tracelog(сообщения об ошибках) в течение 8 минут, после этого будет reset. Этот tracelog реализован средствами немаскируемых прерываний NMI и работает в любых условиях даже если ядро совсем повисло.
  3. Если на экране сервера нет сообщений об ошибках tracelog, значит сервер не повис или повис аппаратно.

Зависание сервера

При зависании сервера необходимо:

     Первым делом проверить аппаратную часть:

  1. Выключить сервер.     
  2. Проверить крутятся ли вентиляторы.
  3. Проверить руками температуру HDD и радиаторов, рука должна терпеть.
  4. Отключить все шлейфы, вытащить память, прочистить контакты(можно стирательной резинкой), включить заново.
  5. Включить, продуть весь сервер пылесосом.
  6. Провести memtest (есть на компакт диске).
  7. Загрузиться  со стандартным ядром(ICSServer), если использовали другое.
         

      Если после этих действий повисания продолжаются:

  1. Заменить HDD на серверный вариант.
  2. Заменить сетевые адаптеры на гигабитные Intel, Broadcom или Netxtrem (остальные виснут 100%, вопрос во времени, раз в год или раз в день). Чипсеты realtek в среднем раз в неделю.
  3. Проверить нажатие клавиши CapsLock.
  4. Сохранить в отдельный файл вывод команды: top -b -n 2 
  5. Сохранить в отдельный файл вывод команды: netstat
  6. Сохранить в отдельный файл вывод команды: pstree -upal
  7. Необходимо сделать фотографию экрана и включить режим помощника и выслать фото и пароль на support@carbonsoft.ru, наши специалисты исправят проблему и установят вам исправленное ядро
  8. Проверить доступность сервера из сети Интернет
  9. Проверить что никто не подставляет ip-адрес сервера. Проверить можно командой arping -D 192.168.0.1 -I Leth1
  10. Проверить с  пользовательской машины ping до сервера и записать мак адрес который определился arp -a или arp -n
  11. Попробовать перезагрузить коммутатор или попробовать подключиться к серверу напрямую кабелем

Kernel panic или перезагрузка

Если происходит kernel panic или перезагрузка необходимо:

  1. Задать интервал времени до перезагрузки можно задать в секундах, указав их в команде, например 600 секкунд. Если вы не уверены, что успеете сфотографировать сервер за 10 минут, можно выставить большее значение.
    echo "600" >/proc/sys/kernel/panic
  2. При следующем reset или panic сервер будет ждать 600 секунд, нужно:
  • сфотографировать экран;
  • сохранить в отдельный файл содержимое логов, командами
    cat /var/log/execd > /root/execd.sup
    cat /var/log/watchdog > /root/wathcdog.sup
    
  • скопировать файлы с сервера
  • выслать фото и файлы в тех.поддержку вложениями к заявке.
  • Если на экране ничего нет, значит сервер сделал reset аппаратно, попробовать сменить память, сетевки, диск, БП, материнку, или установить на другой сервер.

Метки

Введите метки, чтобы добавить к этой странице:
Please wait 
Ищите метку? просто начните печатать.