Завис сервер или panic или ресет

Skip to end of metadata
Go to start of metadata
Вы просматриваете старую версию данной страницы. Смотрите текущую версию. Сравнить с текущим  |   просмотр истории страницы

На текущий момент нет известных нам проблем с повисанием и reset сервера с обычным ядром и типовым оборудованием. Возможные проблемы есть у экспериментальных ядер bigmem и pptp и при использовании редкого оборудования.

  • Если сервер завис программно, то на экране будет выводиться tracelog(сообщения об ошибках) в течение 8 минут, после этого будет reset.
    Этот tracelog реализован средствами немаскируемых прерываний NMI и работает в любых условиях даже если ядро совсем повисло.
  • Если на экране сервера нет сообщений об ошибках tracelog, значит сервер не повис или повис аппаратно.

При повисании сервера необходимо:

     Первым делом проверить аппаратную часть:

  1. Выключить сервер.     
  2. Проверить крутятся ли вентиляторы.
  3. Отключить все шлейфы, вытащить память, прочистить контакты(можно стирательной резинкой), включить заново.
  4. Включить, продуть весь сервер пылесосом.
  5. Провести memtest (есть на компакт диске).
  6. Загрузиться  со стандартным ядром(ICSServer), если использовали pptp, bigmem и т.д
         

      Если после этих действий повисания продолжаются:

  1. Проверить нажатие клавиши CapsLock.
  2. Необходимо сделать фотографию экрана и включить режим помощника и выслать фото и пароль на asr@ideco.ru, наши специалисты исправят проблему и установят вам исправленное ядро
  3. Проверить доступность сервера из сети Интернет
  4. Проверить что никто не подставляет ip-адрес сервера. Проверить можно командой arping -D 192.168.0.1 -I Leth1
  5. Проверить с  пользовательской машины ping до сервера и записать мак адрес который определился arp -a или arp -n
  6. Попробовать перезагрузить коммутатор или попробовать подключиться к серверу напрямую кабелем

Если происходит panic или reset необходимо:

  1. Задать интервал времени до перезагрузки можно задать в секундах, указав их в команде, например 600 секкунд
    echo "600" >/proc/sys/kernel/panic
  2. При следующем reset или panic сервер будет ждетть 600 секунд, нужно сфотографировать экран и выслать в тех.поддержку
  3. Если на экране ничего нет, значит сервер сделал reset аппаратно, попробовать сменить память, сетевки, диск, БП, материнку, или установить на другой сервер.
Введите метки, чтобы добавить к этой странице:
Please wait 
Ищите метку? просто начните печатать.