Система мониторинга. Автоматические заявки FATAL, ALARM, WARNING. Проверка состояния сервера из командной строки.

Ключ
Эта строка удалена.
Это слово было удалено. Это слово было добавлено.
Эта строка добавлена.

Изменения (8)

просмотр истории страницы

2019-02-22 08:38:32: pl5monitoring ALARM Имеются ошибки в логе worker за последний час: 57{code}
Тест регистрирует наличине некритичных ошибок обработки абонентов, но те не менее требующих реакции администратора или техподдержки.
Узнать что за ошибки произошли Вы можете следующей командой:
{code}grep ERR /app/asr_billing/var/log/worker.log{code}
2019-02-26 09:15:40,477 - worker - account_traf - ERROR - Bad traffic row ID=3410341 IP=192.168.0.100
2019-02-26 09:15:40,477 - worker - account_traf - ERROR - Bad traffic row ID=3410342 IP=192.168.0.100{code}
В случае если у Вас возникает ошибка аккаунтинга интернет-трафика, при этом в логе Вы видите записи "Bad traffic row", но нет ошибки синхронизации Collector, как в выше приведенном кейсе, вероятней всего проблема в том, что аккаунтинг (netflow) приходит по IP-адресам находящимся в Вашей сети, но не заведенным в биллинг.
Для решения проблемы ограничте набор интерфейсов с которых собирается netflow и разместите хосты вызывающие ошибку за другими интерфейсами BRAS. В случае если это сделать не возможно, например если Ваше оборудование не имеет такой настройки netflow-сенсора или это нарушит структуру сети, назначьте данные адреса учетным записям в биллинге, Вы можете использовать для этого одного абонента назвав его "Служебный трафик" или завести для каждого хоста своего абонента.
Получить список адресов вызывающих ошибку Вы можете следующей командой:
{code}grep 'Bad traffic row ID' /app/asr_billing/var/log/worker.log | awk '{print $14}' | sed 's/IP=//g' | sort | uniq{code}
В случае если повторное обновление не исправило проблему (это можно проверить по логу, поискав слово "error"), обратитесь в техподдержку.

h3. ALARM /usr/local/bin/sync_nas\! Не могу получить списки

Ошибка теста говорит о том, что в процессе [синхронизации оборудования интернет|CarbonBilling:Синхронизация абонентов на оборудовании] возникли ошибки.
Причину ошибки можно определить по логу синхронизации */app/asr_billing/var/log/sync_nasd.log*. Ниже описаны наиболее часто возникающие ошибки и пети их решения.
h4. NAS-сервер недоступен для биллинга
Сообщения в логе:
{code}__main__.TimeoutError: Timeout
[Errno 113] No route to host
[Errno 113] No route to host{code}
Проверьте что:
* NAS-сервер включен
* NAS-сервер доступепен биллингу по сети
* На NAS-сервере не заблокирован доступ с биллинга фаерволом

h4. Отключен или закрыт фаерволом порт протокола синхронизации
Сообщения в логе:
{code}[Errno 111] Connection refused
[Errno 111] Connection refused
[Errno 111] Connection refused{code}
Проверьте следующее:
* В биллинге указан правильный порт управления NAS-сервером
* На NAS-сервере обращения с биллинга не блокируются фаерволом
* На NAS-сервере включен протокол через который описано получение данных в *session* скрипте (в стандартных схемах это API для Mikrotik, ssh/telnet для Cisco и RedBack)

h4. В функции *users_from_nas* скрипта [session|CarbonBilling:Пользовательская схема] есть ошибка, в результате которой она навершается некорректно
Пример сообщений в логе:
{code}2019-03-26 10:26:51 vm120 sync_nas[1897]: sync by oss cheme
/var/oss/core/Mikrotik-Simple/bin/session: line 75: syntax error near unexpected token `}'
/var/oss/core/Mikrotik-Simple/bin/session: line 75: `}'
/usr/local/bin/sync_nas: line 207: users_from_nas: command not found{code}
В указанном скрипте */var/oss/core/Mikrotik-Simple/bin/session* есть ошибка синтаксиса.
В примере некорректно реализовано ветвление (if [ nnn ]; then; действие; fi), не дописан оператор закрывающий "if", и bash дойдя до конца функции users_from_nas говорит об ошибке.

h4. Вы интегрируете новый NAS и ошибка возникла в процессе отладки.
В случае если Вы интегрируете новый NAS, снимите опцию "*В эксплуатации*" чтобы погасить ошибки синхронизации до момент когда он будет полностью интегрирован.

!nas_in_production.png|border=1,width=400!

h2. Ошибки тестов COLLECTOR




h2. Ошибки тестов XGE




h1. Общие ошибки продуктов на платформе Carbon PL5




h2. ALARM Мало свободного места на диске\!


h2. ALARM app заблокирован в течении минут

Журнал блокировок пишется в файл */var/log/pl5_service.log*.
По времени создания заявки можно найти какая оперпция занимала слишком много времени и отладить.