Система мониторинга

Ключ
Эта строка удалена.
Это слово было удалено. Это слово было добавлено.
Эта строка добавлена.

Изменения (29)

просмотр истории страницы

ALARM Высокий load average

12:15:09 up 223 days, 1:07, 2 users, load average: 2.56, 6.35, 12.45
2.56 6.35 12.45 3/584 32535

Возможные причины:
- Запущены процессы, которые активно используют ресурс CPU.
- Если есть открытая автозаявка 'Повышенная нагрузка на некоторые ядра процессора'
нужно сперва решить её.

Полезные команды для отладки: free, top, iotop

Информация о потреблении ресурсов CPU записана в /app/base/var/log/check_loadaverage.log
Его можно проанализировать командой:
2019-10-16 12:15:09: pl5angel ALARM Высокий load average{code}

load average показывает очередь к CPU на выполнение запущенных процессов. Оно не должно превышать количество потоков. Если Вы сталкнулись с такой проблемой, попробуйте проанилизровать лог: в него записывается вывод команды *ps \-aux* при срабатывании теста:
{code}/app/base/var/log/check_loadaverage.log{code}

ALARM Имеются критические ошибки в логе jobs_daemon за последний час: 5690{code}
Тест сообщает что при выполнении [запланированных задач|CarbonBilling:Запланированные задачи] произошла ошибка. Посмотрел описание ошибки можно в логе службы:
{code}grep CRITICAL /app/asr_billing//var/log/jobs_daemon.log | cut -d' ' -f 8-100 | sort | uniq{code}

h4. Некорректного заполнения параметров запланированной задачи:
{code}CRITICAL - Не удалось выполнить отложенную задачу id=18 абонента Тестовый:Traceback (most recent call last):

h6. Путей решения задачи два:

* Исправить параметры, указав верные
* Удалить запланированную задачу
Попробуйте оптимизировать отправу команд по статье: [nas_event_daemon|CarbonBilling:nas_event_daemon]


{info}Если в стеке скопились команды отправки на маршрутизаторы *Mikrotik*, проверьте количество записей в _address list_:
{code}/ip firewall address-list print count-only{code}
Ошибка функции *web_api_get* говорит о том, что скорей всего проблема в выполняемых к биллингу API-запросах. Отладить это можно по статье [CarbonBilling:API REST v2.0], раздел "*Отладка*"

h3. Нужно добавить префикс для логинов в настройках услуги\!

{code}2019-09-12 08:35:17,269 - django - commands - ERROR - Логин {0} состоит из одних цифр и может быть не принят!
Ошибка говорит о том, что в услуге создающей учетную запись не задан префикс. Вероятней всего ошибка возникла при [настройке услуг IPTV|CarbonBilling:Настройка услуг IPTV]



Посмотреть список услуг создающих учетные записи и из префиксы можно через [конструктор отчетов|CarbonBilling:Конструктор отчетов] таким запросом:

Ошибка возникает если в логе [RADIUS-сервера телефонии|CarbonBilling:Настройка VoIP оборудования в биллинге] обнаружены ошибки обработки звонков.
Посмотреть найденные ошибки можно в логе из описания заявки, в приведенном выше примере это _check_error_voip_radius.sh_28358.log_
Для диагностики включите опцию "*Включить DEBUG для Radius демона телефонии*" в [настройках биллинга|CarbonBilling:Настройки (в файле)] и попробуйте совершить тестовый звонок.
Если звонок не проходит или в не появляется в расходе абонента по завершению, посмотре лог ошибок, возможные причины:
* Выбрана неправильная [OSS схема|CarbonBilling:Интеграция оборудования телефонии]
* Присылаемые NAS-сервером атрибуты не учтены в схеме
* Так же вероятная причина - не все требуемые атрибуты схемы приходят от оборудования, например:
{code}2019-06-25 15:17:03 ++[python_error <140078326261696>] File "/usr/lib/python2.7/site-packages/radius_python/billing_tools/radius.py", line 171, in make_correct_acc_record new_env['NAS-Port'] = env['NAS-Port']
2019-06-25 15:17:03 ++[python_error <140078326261696>]KeyError: 'NAS-Port'{code}

За последний час обнаружено CRITICAL ошибок: 6 {code}

Тест регистрирует наличие некритичных ошибок обработчика, который переносит старые данные в архивную БД.
Узнать, что за ошибки произошли, Вы можете следующей командой:



h2. check_error_paysystems.sh

{code} - check_error_paysystems.sh: ERROR(2) [СБОЙ ]

WARNING платежи или чеки клиентов не обработаны
Необходимо проверить ошибки и устранить.
За последний час CRITICAL: 436
За последний час ERROR: 0
Лог службы /app/asr_billing//var/log/paysystemsd.log
Подробности в логе /app/asr_billing/var/monitoring_dump/check_error_paysystems.sh_11674.log
Для решения проблемы воспользуйтесь статьёй:
http://docs.carbonsoft.ru/51019784#Системамониторинга-checkerrorpaysystems.sh {code}

Тест регистрирует на

{code}2019-10-17 12:08:00,311 - worker - paysystems_lib - CRITICAL - не обработано чеков платежей: 10 из-за отсутствия email или sms!{code}

Для решение проблемы необходимо указать *E-Mail чека по умолчанию* в настройках ["АТОЛ Онлайн"|CarbonBilling:АТОЛ Онлайн]


h2. check_error_worker.sh
{code}- check_error_worker.sh: ERROR(2) [СБОЙ ]

Ниже приведены кейсы решения некоторых возможных ошибок.
[тут|CarbonBilling:АТОЛ Онлайн]



h3. account_traf - Не найден абонент для N записей (некорректная настройка Collector)
{code}2019-02-22 08:38:02,458 - worker - account_traf - ERROR - Не найден абонент для 367 записей{code}
Решение проблемы описано в статье "[CarbonBilling:FAQ по ошибкам телефонии]"

h3. account_traf - Очень старая дата у трафика\!
{code}2019-08-28 12:41:40,184 - worker - account_traf - ERROR - Очень старая дата у трафика! Проверьте настройки NAS! Дата: 2010-10-24 02:43:35, User ID: 4769, NAS: 10.0.0.1{code}
Проблема вызвана тем, что в потоке netflow дата и время трафика отличаются от установленных на биллинге. В сообщении об ошибки можно увидеть дату которая была в netflow, ID [учетной записи|CarbonBilling:Учетная запись. Создание и изменение.] и IP NAS-сервера.
{info}Чтобы посмотреть по какой учетной записи возникла проблема в интерфейсе биллинга, подставьте ID из ошибки в адресную строку.
*Пример*. Допусти Вы подключаетесь к биллингу по IP 192.168.0.10, ссылка на учетную запись ID 4769 будет такой: http://192.168.0.10/admin/Users/4769{info} [http://192.168.0.10/admin/Users/4769]

{info}
Настройка netflow-потоков подробно описана в [статье|Настройка и проверка netflow-потоков]. Для того, что бы решить проблему выполните:
# Установите утилиту tshark;

h2. check_interbase_log.sh

Тест проверяет журнал ошибок работы СУБД:
{code}- check_interbase_log.sh: ERROR(2) [FAILED]
* В первую очередь следует проверить общий системный лог */var/log/messages* на наличие ошибок дисковой подсистемы, если они есть и относятся к диску на котором расположена БД биллинга - это с высокой долей вероятности может вызвать ошибку работы СУБД.
* Далее можно попробовать посмотреть содержимое файла */app/asr_billing//var/log/firebird/xinetd_169.254.30.50.log*, это журнал службы управлеющий соединениями сервера баз данных, он необходим для экономии ресурсов системы и поддержания нагрузки на БД в разумных пределах.
Если количество обращений к БД превышает допустимое, это вызовет отказ в соединении и в логе СУБД firebird.log появятся соответствующие записи.
В таком случае попробуйте временно ограничить объём внешних соединений к серверу - обращения по API, доступ в панель управления абонентами и тарифами, количество одновременно выполняемых отчетов в [конструкторе|CarbonBilling:Конструктор отчетов]

{code}

Сбой теста говорит о проблеме с сайтом провайдера и личным кабинетом. Ошибка возникает при редактировании конфигурационного файла httpd.conf . Обычно это происходит при установке [ssl сертификата на локальный сайт|Установка ssl сертификата на локальный сайт].

Путь к файлу httpd.conf:
Данный ответ говорит о том, что сервер сбора трафика отключен в настройках биллинга. Включите его в биллинге в меню [Настройки (в файле)|CarbonBilling:Настройки (в файле)]



h2. check_bstat_check_raw_stat.sh
{code} Отсутствует сырая статистика

/usr/local/monitoring/check_bstat_check_raw_stat.sh ERROR(2)
Create_date: 2019-05-27 00:05:14 {code}

Тест проверяет, включен ли bstatd (можно проверить на веб-интерфейсе в настройках "Системы сбора статистики"), а также наличие данных статистики в /var/stat/binstat/ и /var/stat/raw/. Необходимо проверить, появляются ли файлы в данных папках, если нет, то может быть проблема с NAS, по причине которой он не отправляет статистику на биллинг.






h2. check_xge_httpd_redirect_netstat.sh





h2. ALARM Мало свободного места на диске\!

h1. Диагностика в веб-интерфейсе

Описание диагностики находится в [соответствующей статье|CarbonBilling:Диагностика системы].[АТОЛ Онлайн|http://docs.carbonsoft.ru/pages/viewpage.action?pageId=154238981]