Система мониторинга

Ключ
Эта строка удалена.
Это слово было удалено. Это слово было добавлено.
Эта строка добавлена.

Изменения (73)

просмотр истории страницы

ALARM Мало свободной памяти

Подробная информация записана в файл /app/base/var/log/check_free_memory.log
10

Там Вы наёдете вывод двух команд, выполненных при наличии ошибки:
* *ps axSk-rss \-F* \- список запущенных процессов, отсортированных по объёму занимаемой памяти
* *pstree \-upal* \- список процессов в виде дерева

h3. Как именно работает тест
#* Пишет диагностику в лог check_free_memory.log
#* В логе системы монторинга сохраняется информация что тест завершился с ошибкой
# Если проблема повторится 5 раз за час, то создаётся автоматическая заявка.

h3. Как понять на какие процессы ушла память?

Причины могут быть разными и зависить от конкретного процесса.

Методика определения причины:
total used free shared buffers cached
Swap: 5839 15 5824
{code} \\
\\
** Если занято 300-500Мб, то это нормальная ситуация - некоторые системные программы и ядро могут использовать SWAP даже если есть свободная ОЗУ.
** Если занять более 500Мб - скорей всего ОЗУ системе уже недостаточно и нжуно анализировать на что она ушла, так как вместо части ОЗУ используется болеемедленный диск \\ \\
\\
\\
* Посмотрите потребление памяти конкретного процесса по его PID. Используя пример с тем же mysql:
** Узнаем PID
Проверьте сервер биллинга на соответствие [системным требованиям|Системные требования] и проверьте, какие события собираются [в стеке|CarbonBilling:nas_event_daemon]. Если количество не уменьшается, то создайте обращение на портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php]


{info}Если в стеке скопились команды отправки на маршрутизаторы *Mikrotik*, проверьте количество записей в _address list_:
{code}/ip firewall address-list print count-only{code}



{info}Если в стеке скопились команды отправки на маршрутизаторы *Mikrotik*, проверьте количество записей в _address list_:
{code}/ip firewall address-list print count-only{code}

h3. Смотрешка не принимает запросы от биллинга

В логе на котрый ссылается тест написано что просто произошла ошибка:
{code}2021-02-01 15:36:30,970 - worker - lifestream_sync - ERROR - Произошла ошибка{code}
{code}2020-07-04 00:03:35,093 - worker - lifestream_sync - ERROR - Учетки с email "user@example.com" нет на портале, создадим{code}

Ошибка говорит о том, что при синхронизации с сервисом телевидения, биллинг не обнаружил на портале учётную запись и создал её.

Если ошибка повторяется для одног о и того же пользователя, посмотрите полный лог, например так:
2020-07-06 08:17:07,114 - worker - v1 - INFO - Получили учетку из биллинга user_id=user100007
2020-07-06 08:17:07,114 - worker - commands - INFO - Command — get_portal_user - login=user100007
2020-07-06 08:17:07,277 - worker - commands - INFO - Запрос не принят сервером:
Результат отправки запроса:
result.request.method=POST
result.request.method=POST result.request.url=https://bestisp.proxy.lfstrm.tv/v2/accounts
result.request.url=https://bestisp.proxy.lfstrm.tv/v2/accounts
result.request.body={"username": "user100007", "password": "123456", "email": "user@example.com""}
result.status_code=400
result.content={"error": "HTTP 400: login: services.error.login.accounts.invalid_login"}
{info}

h3. iptv24tv_sync - ERROR - Произошла ошибка: ('Cursor.fetchone:\n\- SQLCODE: -303\n- Dynamic SQL Error\n\- SQL error code = \-303 ...)

Если в логе возникает ошибка вида:
{code}2022-07-07 08:59:30,515 - worker - iptv24tv_sync - ERROR - Произошла ошибка: ('Cursor.fetchone:\n- SQLCODE: -303\n- Dynamic SQL Error\n- SQL error code = -303\n- arithmetic exception, numeric overflow, or string truncation\n- string right truncation', -303, 335544569){code}




Посмотреть список услуг создающих учетные записи и из префиксы можно через [конструктор отчетов|CarbonBilling:Конструктор отчетов] таким запросом:

Сообщение "not a valid choice" обычно говорит о том, что в какую-то из форм ввели неверное значение.

h3. Ошибка обработки запроса.

Выдержка из лога сделанная тестом пишет о том что возникла ошибка обработки запроса: речь о запросе фреймворка Django, на котором разработано ядро биллинга, к базе данных.
{code:title=/app/asr_billing/var/monitoring_dump/check_error_django.sh.NNNN.log}
exit
/app/asr_billing/service start{code}
# [Обновите|Обновление биллинга] биллинг до актуальной версии.
# Если версия уже актуальная, запустите принудительное обновление - возможно повреждён какой-то файл или во время обновления произошла ошибка и новая версия не загрузилась:
{code}carbon_update --force{code}
{code}

h3. ATOL ошибка сервера

# Пример ошибки:
{code}

{anchor:traf-old-date}

h3. account_traf - Очень старая дата у трафика\!
{code}2019-08-28 12:41:40,184 - worker - account_traf - ERROR - Очень старая дата у трафика! Проверьте настройки NAS! Дата: 2010-10-24 02:43:35, User ID: 4769, NAS: 10.0.0.1{code}
{info}Чтобы посмотреть по какой учетной записи возникла проблема в интерфейсе биллинга, подставьте ID из ошибки в адресную строку.
*Пример*. Допусти Вы подключаетесь к биллингу по IP 192.168.0.10, ссылка на учетную запись ID 4769 будет такой: [http://192.168.0.10/admin/Users/4769]

{info}
Настройка netflow-потоков подробно описана в [статье|Настройка и проверка netflow-потоков]. Для того, что бы решить проблему выполните:

{info}
\#25262 - это id абонета в базе данных. Быстро перейти на него в веб интерфейсе можно по ссылке:
{code}
http://<ip-биллинга>:8082/admin/Abonents/25262
ls -l /app/asr_billing/cfg/autocsv/
{code}
Видим два файла с настройками, *test.autocsv* - \- пустой.
{code}
-rw-rw-rw- 1 root root 0 Июн 16 11:28 test.autocsv
# Удалмите пустой файл:
{code}
rm -f /app/asr_billing/cfg/autocsv/test.autocsv
{code}

# Посмотрите какая одировка в конфигурацинном файле:
{code:title=Кодировка в конфигурационном файле}
grep encoding /app/asr_billing/cfg/autocsv/test.autocsv
encoding: 'windows-1251'
{code}
# Сравните её с файлом, который вы загрузили на сервер:
{code:title=Кодировка файла с платежами}
file --brief --mime-encoding /app/asr_billing/var/autocsv/default/test.csv
utf-8
{code}
# Исправьте конфигурационный файл по [статье|Автоматическая выгрузка платежей из CSV].

h3. Ошибка обработки отправки отложенных комманд ConnectionTimeout
{code}
2020-06-26 10:09:05,928 - worker - common - CRITICAL - Ошибка обработки отправки отложенных комманд ConnectionTimeout caused by - ReadTimeoutError(HTTPConnectionPool(host='169.254.92.94', port=9200): Read timed out. (read timeout=30))
{code}

Если перезапуск не устранил ошибку, тогда необходимо выполнить переиндексацию базы биллинга по [инструкции|CarbonBilling:Не работает поиск]




h3. Поле логин не должно содержать символы пробела\!
{code}
2021-02-04 18:05:07,934 - worker - common - ERROR - Ошибка обработки статуса услуг: Поле логин не должно содержать символы пробела!

NAME Александров В. А.
CONTRACT_NUMBER BILL0000025
{code}
Для решения проблемы необходимо убрать пробелы из номера договора по статье [CarbonBilling:Изменение номера договора]


h3. Не могу выставить акт - абонент не главный на л.с.
{code}



h2. test_httpd.sh
{code}- test_httpd.sh: ERROR(2) [FAILED]
{code:title=chroot /app/asr_billing/}
[root@carbon ~]# chroot /app/asr_billing/
[root@carbon (asr_billing) /]#
{code}
# Попробуйте посмотреть в корневой папке схемы - символические ссылки на OSS схемы делаются обычно на папки целиком:

h3. Ошибка сохранения: Carbon XGE local readonly
Если требуется удалить/ отключить синхронизацию в биллинге у NAS XGE и возникает данная ошибка, в этом случае требуется в [глобальных настройках|https://docs.carbonsoft.ru/pages/viewpage.action?pageId=63242421#Глобальныенастройкибиллингаиоператора-Общие] биллинга снять флаг *Запретить редактировать Carbon XGE local*

Если требуется удалить/ отключить синхронизацию в биллинге у NAS XGE и возникает данная ошибка, в этом случае требуется в [глобальных настройках|https://docs.carbonsoft.ru/pages/viewpage.action?pageId=63242421#Глобальныенастройкибиллингаиоператора-Общие] биллинга снять флаг *Запретить редактировать Carbon XGE local*

h2. WARNING Обнаружены ошибки удаления абонентов


h3. Проблема настройки SSL

Ошибка возникает при редактировании конфигурационного файла httpd.conf . Обычно это происходит при установке [ssl сертификата на локальный сайт|Установка SSL-сертификата на локальный сайт].
{code:title=Ошибка}
wordpress.wp_comments OK
...

Repairing tables
wordpress.wp_commentmeta
Чтобы исправить проблему, восстановите ЛК из последней резервной копии по статье [CarbonBilling:Восстановление Wordpress. Восстановление базы данных сайта из бекапа]


h3. Ошибка: Cannot create SSLMutex.



h1. Тесты asr_fiscal

h2. check_fiscal_httpd_netstat.sh
{code:title=Команда}ls -l /app/asr_fiscal/proc/{code}
{code:title=Вывод}total 0{code}
В папке /proc пусто, а должно быть большое количество папок и файлов.

Если Вы столкнулись с такой проблемой, вероятно произошла какая-то ошибка при старте системы. Перезапустит контейнер чтобы её исправить:
nf_collector disabled in /cfg/config
is stopped

/usr/local/angel/check_nf_collector_listen.sh ERROR(2)
Create_date: 2020-05-16 22:40:10
Обычно ошибка возникает, если на разделе со статистикой кончилось [место|#check_disk_space_stat.sh]. Сбор статистики был остановлен.
{warning}
Если служба сбора статистики выключена, биллинг не сможет считать объём трафика.
{warning}


Наиболее вероятной причиной отключения коллектора является переполнение раздела с детальной статистикой - это проверяет автоматический тест *check_disk_space_stat.sh*
Перейдите по [ссылке|#checkdiskspacestat.sh] - \- там описано как решить проблему.

h3. Ошибка nf_collector запущен без пидфайла
{code}

Проблема могла возникнуть при перезапуске сервера или контейнера collector.
Для решения, необходимо перезапустить контейнер collector полностью.
{code}/app/collector/service restart{code}



h2. check_bstat_check_raw_stat.sh
{code} Отсутствует сырая статистика

h3. Решение не помогло

# Перейдите в контейнер *xge*
{code}



h2. check_xge_httpd_redirect_netstat.sh

h1. Общие ошибки продуктов на платформе Carbon PL5

{anchor:ftp_error}
h2. ALARM Ошибка автоматической резервной копии!

h2. ALARM Ошибка автоматической резервной копии\!

Полный текст ошибки
{code}Ошибка автоматического бекапа! Информация в логе: /app/base/var/log/cron_backup.sh.log{code}

h4. Ошибка при попытке создать бэкап asr_cabinet

Ошибка в логе */app/base/var/log/cron_backup.sh.log*
{code}/app/asr_cabinet backup daily
{code}
В этом примере, биллинг попытался отправить резервную копию на FTP, но сервер не принял файл и написал ошибку что файловая система в ражиме только для чтения.
Это может возникнуть, например, если диск или файловая система на FTP-сервере, неисправны, или её так настроили специально по какой-то причине.

Попросите администратора FTP-сервера решить проблему с димком и повторите выгрузку.



h2. ALARM Мало свободного места на диске\!




h2. ALARM app заблокирован в течении минут

По времени создания заявки можно найти какая оперпция занимала слишком много времени и отладить.

h3. Заблокирован контейнер asr_billing

Чаще всего asr_billing блокируется процессом, который отвечатает за выгрузку бекапов на FTP-сервер (процессы вроде /app/asr_billing backup_upload, /app/asr_billing backup daily и т.п.). Если выполнить команду
{code}
/app/asr_billing/service check
{code}
, то можно увидеть PID и имя блокирующего процесса, например:
{code}
root 49007 0.0 0.0 108764 2180 ? S 03:44 0:00 /bin/bash /app/base/bin/pl5chroot.ctl /app/asr_billing backup_upload
{code}
В данном случае PID = 49007. Теперь можем завершить его принудительно командой:
{code}
kill -9 49007
{code}
Далее требуется проверить Ваш FTP-сервер. Скорее всего проблема в низкой скорости передачи, либо в медленной аутентификации.
Замерить пропускную способность от биллинга клиента до вашего FTP-сервера можно следующим способом.
# Создадим файл объемом в 100 Мб:
{code}
dd if=/dev/zero of=/tmp/testfile100mb bs=1M count=100
{code}
# Загрузим его на FTP-сервер, чтобы замерить скорость:
{code}
rsync -av --progress /tmp/testfile100mb <имя_пользователя_ftp>@<FTP_IP>: /tmp
{code}
_Прим.: имя пользователя, адрес и каталог можно найти в веб-интерфейсе биллинга (Настройка платформы -> Настройки резервного копирования): http://<ip_биллинга>:8081/settings/base/backup/_
# После этого проверочный файл на FTP-сервере можно удалить:
{code}
ftp <ftp_ip>
delete /tmp/testfile100mb
{code}

Если скорость передачи данных на FTP-сервер в порядке, но бекапы все равно выгружаются слишком медленно, то, скорее всего, проблема в медленной аутентификации. Чаще всего проблема связана с DNS (долгое время разрешения DNS-запросов или некорректная конфигурация DNS на сервере или клиенте).

h2. ALARM CRITICAL carbon_update скрипт обновления завершился

{code}rss-ladder eth0{code}
Если это исправит проблему, не забудьте добавить автоматический вызов настройки в [хук|xge:Дополнительные настройки. hooks. Хуки] XGE
{info}Проблема актуальна для продуктов Reductor, XGE и Softrouter. Если она произошла на Billing или Billing_Slave, обязательно составьте обращение в портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php]{info}
{info}

h2. ALARM Billing Watchdog не активен в течение двух часов\!

Основная причина - остановленный cron в корневой системе. Перезапускает его softdog_agent, его лог - /var/log/softdog_agent.log


Убедитесь что у Вас установлено и загружено актуальное ядро ОС:

{code}
Если версия ядра актуальная, но */etc/init.d/kdump start* всё равно выдаёт *"Kdump is not supported on this kernel"*, то:

* Если в [базовом интерфейсе|https://docs.carbonsoft.ru/display/CarbonBilling/Base] есть предложение обновиться, то обновите и перезагрузите сервер. Актуальная версия биллинга публикуется в блоге: [https://www.carbonsoft.ru/blog/]
* Если предложения обновиться нет, но версия старая, обратитесь в техническую поддержку.

h3. Биллингу недоступен интернет, вероятно что-то с сетевым подключением

Результат автоматической проверки подсистема мониторинга отправляет в нашу CRM, для создания автоматических обращений в портале HelpDesk.

Если проблема с каналом связи, это будет видно по журналу системы мониторинга:
2020-10-19 18:34:25 [4346]: kildin.net watchdog catch Error
{code}
Здесь видно, что система мониторинга не смогла связаться с CRM по IP-адресу - значит, проблема не в DNS, а с доступом к сети в целом.

Проведите общую сетевую диагностику, проверьте патч-корды и тд, так же убедитесь что сеть настроена верно на самом сервере.