Система мониторинга. Автоматические заявки FATAL, ALARM, WARNING. Проверка состояния сервера из командной строки.

Ключ
Эта строка удалена.
Это слово было удалено. Это слово было добавлено.
Эта строка добавлена.

Изменения (1)

просмотр истории страницы
{info}Возмжно предварительно потребуется установить команду man:
{code}yum install -y man{code}{info}

h3. check_apps_not_destroyed.sh
{code}- check_apps_not_destroyed.sh: ERROR(2) [FAILED]

ALARM Некорректное состояние аппов
Обнаружены следующие аппы в состоянии destroy, которые должны быть включены:
collector
Требуется перезапустить их с помощью /etc/init.d/apps restart{code}
Ошибка говорит о том, что какая-то из подсистем (контейнеров) платформы Carbon остановлена и "разрушена" - под этим понимается что контейнер остановлен и все точки монтирования внутри контейнера размонтированы.
Возможные причины:
* Ведутся сервисные работы, изменяется конфигурация (например [добавляются диски|CarbonBilling:Добавление диска под статистику] для расширения пространства под какие-либо данные) контейнера
* При "сборе" контейнера произошла ошибка и какие-то разделы внутри него сервисный скрипт не смог замонтировать
* Произошла какая-либо иная ошибка при старте системы, из-за которой работа сервисного скрипта запускающего платформу Carbon завершилась некорректно (например, если на диске были обнаружены ошибки и системная утилита mount не смогла собрать контейнер)

Для отладки в первую очередь можно попробовать запустить команду build:
{code}/app/collector/service build{code}
И посмотреть каким будет вывод, исходя из этого пути решения могут быть разными. Ниже рассмотрены возможные проблемы.

h4. Ведутся сервисные работы
Сообщите, пожалуйста, в автоматической создавшейся заявке инженерам техподдержки что ведутся работы.

h4. Ошибка при "сборе конрейнера
Попробуйте найти в журнале сервисного скрипта информацию когда контейнер с котором произошла ошибка запускался:
{code}[root@Billing5 ~]# grep collector /var/log/apps.log | tail -n 2
Sat Mar 23 17:06:56 +08 2019 collector stop STOPPING
Sat Mar 23 17:07:01 +08 2019 collector stop OK{code}
По данному времени попробуйте найти информацию в логах загрузки (сохраняются в папке */var/log/boot/*) и в системном логе */var/log/messages и архивных логах: {code}cat /var/log/messages*{code}
Возможно в файлов логов удастся найти информацию об ошибках файловой системы или некорректном завершении процессов по котором удастся понять причину почему не запустился контейнер.

h4. Ошибка монтирования
{code}/app/collector build
mount: no such partition found

# /app/collector/service build: [FAILED]{code}
В конфигурационном файле [collector|CarbonBilling:Collector] настроено сохранение [детальной статистики|CarbonBilling:Описание работы служб сбора статистики] на отдельный диск:
{code}# grep mount /app/collector/cfg/config
declare -A mount
mount['1statfs']='-U a7a26c14-e788-40a0-b0f9-f051be5c9e61 /app/collector/var/stat'
mount['2statfsnfsen']='--bind /app/collector/var/stat/nfsen_stat /app/collector/var/nfsen_stat'
mount['3statfsncapdndump']='--bind /app/collector/var/stat/nfcapd_dump /app/collector/var/nfcapd_dump'
mount['proc']='-t proc none /proc'{code}
Но раздела с ID _a7a26c14-e788-40a0-b0f9-f051be5c9e61_ нет в системе:
{code}[root@st-rline ~]# blkid | grep a7a26c14-e788-40a0-b0f9-f051be5c9e61 -c
0{code}
Весьма вероятно что конфигурационный файл перенесли с другого сервера, но диск на который ранее сохранялась статистика не подключили. Вариантов решения несколько:
# Выключите сервер, подключите диск, включите сервер
# Настройте сохранение на другой выделенный диск или раздел
# Уберите настройку выделенного раздела из конфигурационного файла

h2. Ошибки тестов ASR_BILLING