Система мониторинга. Автоматические заявки FATAL, ALARM, WARNING. Проверка состояния сервера из командной строки.

Ключ
Эта строка удалена.
Это слово было удалено. Это слово было добавлено.
Эта строка добавлена.

Изменения (31)

просмотр истории страницы
{toc:maxLevel=45}

h1. Система мониторинга

h2. Ошибки тестов BASE
h3. Тесты angel и monitoring
h43. check_free_inodes.sh
{code}- check_free_inodes.sh: ERROR(254) [FAILED]

{code}yum install -y man{code}{info}

h43. check_apps_not_destroyed.sh
{code}- check_apps_not_destroyed.sh: ERROR(2) [FAILED]

И посмотреть каким будет вывод, исходя из этого пути решения могут быть разными. Ниже рассмотрены возможные проблемы.

h54. Ведутся сервисные работы
Сообщите, пожалуйста, в автоматической создавшейся заявке инженерам техподдержки что ведутся работы.

h54. Ошибка при "сборе конрейнера
Попробуйте найти в журнале сервисного скрипта информацию когда контейнер с котором произошла ошибка запускался:
{code}[root@Billing5 ~]# grep collector /var/log/apps.log | tail -n 2
Возможно в файлов логов удастся найти информацию об ошибках файловой системы или некорректном завершении процессов по котором удастся понять причину почему не запустился контейнер.

h54. Ошибка монтирования
{code}/app/collector build
mount: no such partition found
h2. Ошибки тестов ASR_BILLING


h3. Тесты angel и monitoring


h43. check_billing_db_size.sh
{code}- check_billing_db_size.sh: ERROR(1) [СБОЙ ]

Для решения проблемы Вам необходимо [создать бэкап, после чего восстановиться с него же|Восстановление БД биллинга из резервной копии.].

h43. check_critical_jobs.sh
{code}- check_critical_jobs.sh: ERROR(2) [СБОЙ ]

* Удалить запланированную задачу

h43. check_events_stack_count.sh
{code}- check_events_stack_count.sh: ERROR(1) [СБОЙ ]

122837 {code}

h43. test_radius_nas_list.sh
{code}- test_radius_nas_list.sh: ERROR(1) [СБОЙ ]

172.31.10.2{code}

h3. Прочие тесты
h3. ALARM Billing Не настроены реквизиты доступа к администраторской панели для тестирования


h4. ALARM Billing Не настроены реквизиты доступа к администраторской панели для тестирования

Для ускорения работы веб-интерфейса биллинга, планировщик задач ежечасно делает запрос в веб-интерфейс для формирования кеша и проверки отсутствия ошибок в отображении абонентов.

django['password']='servicemode'{code}

h43. FATAL Billing Error copy metadata

Заявка может возникнуть при обновлении базы данных и говорит о том, что в процессе возникли какие-либо ошибки. Обновление БД может происходить в следующих случаях:
В случае если повторное обновление не исправило проблему (это можно проверить по логу, поискав слово "error"), обратитесь в техподдержку.

h43. ALARM /usr/local/bin/sync_nas! Не могу получить списки

Ошибка теста говорит о том, что в процессе [синхронизации оборудования интернет|CarbonBilling:Синхронизация абонентов на оборудовании] возникли ошибки.
* На NAS-сервере не заблокирован доступ с биллинга фаерволом

h54. Отключен или закрыт фаерволом порт протокола синхронизации
Сообщения в логе:
{code}[Errno 111] Connection refused
* На NAS-сервере включен протокол через который описано получение данных в *session* скрипте (в стандартных схемах это API для Mikrotik, ssh/telnet для Cisco и RedBack)

h54. В функции users_from_nas скрипта [session|CarbonBilling:Пользовательская схема] есть ошибка, в результате которой она завершается некорректно
Пример сообщений в логе:
{code}2019-03-26 10:26:51 vm120 sync_nas[1897]: sync by oss cheme
В примере некорректно реализовано ветвление (if [ nnn ]; then; действие; fi), не дописан оператор закрывающий "if", и bash дойдя до конца функции users_from_nas говорит об ошибке.

h54. Вы интегрируете новый NAS и ошибка возникла в процессе отладки.
В случае если Вы интегрируете новый NAS, снимите опцию "*В эксплуатации*" чтобы погасить ошибки синхронизации до момент когда он будет полностью интегрирован.

h2. Ошибки тестов COLLECTOR

h3. Тесты angel и monitoring
h43. check_critical_traf_reporter.sh
{code}- check_check_critical_traf_reporter.sh: ERROR(1) [СБОЙ ]

Данный ответ говорит о том, что сервер сбора трафика отключен в настройках биллинга. Включите его в биллинге в меню [Настройки (в файле)|CarbonBilling:Настройки (в файле)]





h2. Ошибки тестов XGE

h3. Тесты angel и monitoring
h43. check_xge_free_class.sh
{code}check_xge_free_class.sh: ERROR(1) [СБОЙ]{code}
Шейпер в XGE (Softrouter) является динамическим. Занятые классы определяется по наличию файлов в папке /app/xge/var/lib/xge_shapers/lock, свободные в /app/xge/var/lib/xge_shapers/free.
{code}for shaperid in `seq 2000 8998`; do touch /app/xge/var/lib/xge_shapers/free/$shaperid; done{code}{note}

h43. check_vm.sh

Сообщение:





h1. Общие ошибки продуктов на платформе Carbon PL5

curl: (9) Failed to MKD dir: 550{code}


h2. ALARM Не обнаружен работающий UPS

Настройка и решение проблемы с ИБП описаны в статье [CarbonBaseSystem:Подсистема контроля UPS]

h2. ALARM Мало свободного места на диске!


h2. ALARM Мало свободного места на диске\!

Ошибка возникает если на одном из разделов занято более 85% пространства.

h43. Диагностика в командной строке:

1. Проверям какой раздел заполнен: