Система мониторинга. Автоматические заявки FATAL, ALARM, WARNING. Проверка состояния сервера из командной строки.

Ключ
Эта строка удалена.
Это слово было удалено. Это слово было добавлено.
Эта строка добавлена.

Изменения (32)

просмотр истории страницы
{code}

h1. Тесты base
h2. base check_free_inodes.sh
h3. check_free_inodes.sh
{code}- check_free_inodes.sh: ERROR(254) [FAILED]

{code}yum install -y man{code}{info}

h32. check_apps_not_destroyed.sh
{code}- check_apps_not_destroyed.sh: ERROR(2) [FAILED]

И посмотреть каким будет вывод, исходя из этого пути решения могут быть разными. Ниже рассмотрены возможные проблемы.

h43. Ведутся сервисные работы
Сообщите, пожалуйста, в автоматической создавшейся заявке инженерам техподдержки что ведутся работы.

h43. Ошибка при "сборе конрейнера
Попробуйте найти в журнале сервисного скрипта информацию когда контейнер с котором произошла ошибка запускался:
{code}[root@Billing5 ~]# grep collector /var/log/apps.log | tail -n 2
Возможно в файлов логов удастся найти информацию об ошибках файловой системы или некорректном завершении процессов по котором удастся понять причину почему не запустился контейнер.

h43. Ошибка монтирования
{code}/app/collector build
mount: no such partition found
# Уберите настройку выделенного раздела из конфигурационного файла

h21. asr_billing

h32. check_billing_db_size.sh
{code}- check_billing_db_size.sh: ERROR(1) [СБОЙ ]

Для решения проблемы Вам необходимо [создать бэкап, после чего восстановиться с него же|Восстановление БД биллинга из резервной копии.].

h32. check_critical_jobs.sh
{code}- check_critical_jobs.sh: ERROR(2) [СБОЙ ]

* Удалить запланированную задачу

h32. check_events_stack_count.sh
{code}- check_events_stack_count.sh: ERROR(1) [СБОЙ ]

122837 {code}

h3. test_radius_nas_list.sh
{code}- test_radius_nas_list.sh: ERROR(1) [СБОЙ ]

Nas с IP 192.168.0.1 нету в /etc/raddb/clients.conf
2017-03-21 14:48:52 localhost test_radius_nas_list.sh[1277]: Fix radiusd by restart
Останавливается radiusd: [ OK ]
Останавливается radiusd_acc: [ OK ]
Запускается radiusd: [ OK ]
Запускается radiusd_acc: [ OK ]
Nas с IP 192.168.0.1 нету в /etc/raddb/clients.conf{code}
Тест пытается исправить ошибку автоматический, пересоздав конфигурационные файлы radius. Такое может произойти, например, при обнлении, в случае если radius-сервер запустился раньше чем закончилась перезагрузка СУБД по той или иной причине. Так же ошибка может возникать в случае, если Вы не указали ни OSS-схему ни Тип НАСа при добавлении (например, если добавляли NAS не мастером, или не удалили демонстрационные NAS).

h3. test_radius.py

Для отладки теста и подробного разбора проблемы можно выполнить его в режиме повышенного логирования
{code}chroot /app/asr_billing python /usr/local/angel/test_radius.py --debug{code}

h32. check_error_django.sh
{code}- check_error_django.sh: ERROR(2) [СБОЙ ]

Ошибка функции *web_api_get* говорит о том, что скорей всего проблема в выполняемых к биллингу API-запросах. Отладить это можно по статье [CarbonBilling:API REST v2.0], раздел "*Отладка*"

h32. check_error_worker.sh
{code}- check_error_worker.sh: ERROR(2) [СБОЙ ]

Ниже приведены кейсы решения некоторых возможных ошибок.

h43. account_traf - Не найден абонент для N записей (некорректная настройка Collector)
{code}2019-02-22 08:38:02,458 - worker - account_traf - ERROR - Не найден абонент для 367 записей{code}
Ошибка говорит о том, что [обработчик абонентов|CarbonBilling:Worker] не смог соотнести с каким-либо абонетом часть данных пришедших от [коллектора аккаунтинга интернет-трафика|CarbonBilling:Collector]
{code}/app/collector/service restart{code}

h43. account_traf - Не найден абонент для N записей (аккаунтинг по неизвестным биллингу IP-адресам)
{code}2019-02-26 09:00:51,620 - worker - account_traf - ERROR - Bad traffic row ID=3408858 IP=10.24.240.1
2019-02-26 09:00:51,621 - worker - account_traf - ERROR - Bad traffic row ID=3408857 IP=10.24.240.1
172.31.10.2{code}

h3. ALARM Billing Не настроены реквизиты доступа к администраторской панели для тестирования
h2. test_radius_nas_list.sh
{code}- test_radius_nas_list.sh: ERROR(1) [СБОЙ ]

Nas с IP 192.168.0.1 нету в /etc/raddb/clients.conf
2017-03-21 14:48:52 localhost test_radius_nas_list.sh[1277]: Fix radiusd by restart
Останавливается radiusd: [ OK ]
Останавливается radiusd_acc: [ OK ]
Запускается radiusd: [ OK ]
Запускается radiusd_acc: [ OK ]
Nas с IP 192.168.0.1 нету в /etc/raddb/clients.conf{code}
Тест пытается исправить ошибку автоматический, пересоздав конфигурационные файлы radius. Такое может произойти, например, при обнлении, в случае если radius-сервер запустился раньше чем закончилась перезагрузка СУБД по той или иной причине. Так же ошибка может возникать в случае, если Вы не указали ни OSS-схему ни Тип НАСа при добавлении (например, если добавляли NAS не мастером, или не удалили демонстрационные NAS).

h2. test_radius.py

Для отладки теста и подробного разбора проблемы можно выполнить его в режиме повышенного логирования
{code}chroot /app/asr_billing python /usr/local/angel/test_radius.py --debug{code}

h2. ALARM Billing Не настроены реквизиты доступа к администраторской панели для тестирования

Для ускорения работы веб-интерфейса биллинга, планировщик задач ежечасно делает запрос в веб-интерфейс для формирования кеша и проверки отсутствия ошибок в отображении абонентов.

django['password']='servicemode'{code}

h32. FATAL Billing Error copy metadata

Заявка может возникнуть при обновлении базы данных и говорит о том, что в процессе возникли какие-либо ошибки. Обновление БД может происходить в следующих случаях:
В случае если повторное обновление не исправило проблему (это можно проверить по логу, поискав слово "error"), обратитесь в техподдержку.

h32. ALARM /usr/local/bin/sync_nas! Не могу получить списки

Ошибка теста говорит о том, что в процессе [синхронизации оборудования интернет|CarbonBilling:Синхронизация абонентов на оборудовании] возникли ошибки.
* На NAS-сервере не заблокирован доступ с биллинга фаерволом

h43. Отключен или закрыт фаерволом порт протокола синхронизации
Сообщения в логе:
{code}[Errno 111] Connection refused
* На NAS-сервере включен протокол через который описано получение данных в *session* скрипте (в стандартных схемах это API для Mikrotik, ssh/telnet для Cisco и RedBack)

h43. В функции users_from_nas скрипта [session|CarbonBilling:Пользовательская схема] есть ошибка, в результате которой она завершается некорректно
Пример сообщений в логе:
{code}2019-03-26 10:26:51 vm120 sync_nas[1897]: sync by oss cheme
В примере некорректно реализовано ветвление (if [ nnn ]; then; действие; fi), не дописан оператор закрывающий "if", и bash дойдя до конца функции users_from_nas говорит об ошибке.

h43. Вы интегрируете новый NAS и ошибка возникла в процессе отладки.
В случае если Вы интегрируете новый NAS, снимите опцию "*В эксплуатации*" чтобы погасить ошибки синхронизации до момент когда он будет полностью интегрирован.

!nas_in_production.png|border=1,width=400!

h2. collector
h1. Тесты collector

h32. check_critical_traf_reporter.sh
{code}- check_check_critical_traf_reporter.sh: ERROR(1) [СБОЙ ]

Данный ответ говорит о том, что сервер сбора трафика отключен в настройках биллинга. Включите его в биллинге в меню [Настройки (в файле)|CarbonBilling:Настройки (в файле)]

h2. xge
h1. Тесты xge

h32. check_xge_free_class.sh
{code}check_xge_free_class.sh: ERROR(1) [СБОЙ]{code}
Шейпер в XGE (Softrouter) является динамическим. Занятые классы определяется по наличию файлов в папке /app/xge/var/lib/xge_shapers/lock, свободные в /app/xge/var/lib/xge_shapers/free.
{code}for shaperid in `seq 2000 8998`; do touch /app/xge/var/lib/xge_shapers/free/$shaperid; done{code}{note}

h32. check_vm.sh

Сообщение:
Об этом так же упоминается в статье [CarbonBilling:Системные требования]


h1. Общие ошибки продуктов на платформе Carbon PL5