Система мониторинга

Ключ
Эта строка удалена.
Это слово было удалено. Это слово было добавлено.
Эта строка добавлена.

Изменения (106)

просмотр истории страницы

*1.* При каких либо сбоях требуется проверить состояние сервера и работу всех служб. Делается это командой 
{code}server_check{code}В ответ будет выведено состояние всех служб биллинга. Все службы должны иметь состояние *\[ OK \].* Если где-то есть сбой, то при обращении в поддержку укажите сбойную службу.
{code}server_check{code}В ответ будет выведено состояние всех служб биллинга. Все службы должны иметь состояние *\[ OK \]*.

*2.* Для проверки базы можно посмотреть логи которые ведет система:
* Произошла какая-либо иная ошибка при старте системы, из-за которой работа сервисного скрипта запускающего платформу Carbon завершилась некорректно (например, если на диске были обнаружены ошибки и системная утилита mount не смогла собрать контейнер)

Для отладки в первую очередь можно попробовать запустить команду build:
{code}/app/<имя_контейнера>/service build{code}
Например, для отладки контейнера collector команда выглядит следующим образом:
{code}/app/collector/service build{code}
И посмотреть каким будет вывод, исходя из этого пути решения могут быть разными. Ниже рассмотрены возможные проблемы.
h3. Ведутся сервисные работы

Сообщите, пожалуйста, в автоматической создавшейся заявке инженерам техподдержки заявке, что ведутся работы.

h3. Ошибка при сборке контейнера

ALARM Мало свободной памяти

Подробная информация записана в файл /app/base/var/log/check_free_memory.log
10

Там Вы наёдете вывод двух команд, выполненных при наличии ошибки:
* *ps axSk-rss \-F* \- список запущенных процессов, отсортированных по объёму занимаемой памяти
* *pstree \-upal* \- список процессов в виде дерева

h3. Как именно работает тест
#* Пишет диагностику в лог check_free_memory.log
#* В логе системы монторинга сохраняется информация что тест завершился с ошибкой
# Если проблема повторится 5 раз за час, то создаётся автоматическая заявка.

h3. Как понять на какие процессы ушла память?

Причины могут быть разными и зависить от конкретного процесса.

Методика определения причины:
total used free shared buffers cached
Swap: 5839 15 5824
{code} \\
\\
** Если занято 300-500Мб, то это нормальная ситуация - некоторые системные программы и ядро могут использовать SWAP даже если есть свободная ОЗУ.
** Если занять более 500Мб - скорейе всего ОЗУ системе уже недостаточно и нжуно анализировать на что она ушла, так как вместо части ОЗУ используется болеемедленный диск \\ \\
\\
\\
* Посмотрите потребление памяти конкретного процесса по его PID. Используя пример с тем же mysql:
** Узнаем PID
110249
{code}
Проверьте сервер биллинга на соответствие [системным требованиям|Системные требования] и проверьте, какие события собираются [в стеке|CarbonBilling:nas_event_daemon]. Если количество не уменьшается, то следует обратиться в техническую поддержку для решения проблем с производительностью. создайте обращение на портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php]


{info}Если в стеке скопились команды отправки на маршрутизаторы *Mikrotik*, проверьте количество записей в _address list_:
{code}/ip firewall address-list print count-only{code}



{info}Если в стеке скопились команды отправки на маршрутизаторы *Mikrotik*, проверьте количество записей в _address list_:
{code}/ip firewall address-list print count-only{code}

h3. Смотрешка не принимает запросы от биллинга

В логе на котрый ссылается тест написано что просто произошла ошибка:
{code}2021-02-01 15:36:30,970 - worker - lifestream_sync - ERROR - Произошла ошибка{code}
{code}2020-07-04 00:03:35,093 - worker - lifestream_sync - ERROR - Учетки с email "user@example.com" нет на портале, создадим{code}

Ошибка говорит о том, что при синхронизации с сервисом телевидения, биллинг не обнаружил на портале учётную запись и создал её.

Если ошибка повторяется для одног о и того же пользователя, посмотрите полный лог, например так:
2020-07-06 08:17:07,114 - worker - v1 - INFO - Получили учетку из биллинга user_id=user100007
2020-07-06 08:17:07,114 - worker - commands - INFO - Command — get_portal_user - login=user100007
2020-07-06 08:17:07,277 - worker - commands - INFO - Запрос не принят сервером:
Результат отправки запроса:
result.request.method=POST
result.request.method=POST result.request.url=https://bestisp.proxy.lfstrm.tv/v2/accounts
result.request.url=https://bestisp.proxy.lfstrm.tv/v2/accounts
result.request.body={"username": "user100007", "password": "123456", "email": "user@example.com""}
result.status_code=400
result.content={"error": "HTTP 400: login: services.error.login.accounts.invalid_login"}
{info}

h3. iptv24tv_sync - ERROR - Произошла ошибка: ('Cursor.fetchone:\n\- SQLCODE: -303\n- Dynamic SQL Error\n\- SQL error code = \-303 ...)

Если в логе возникает ошибка вида:
{code}2022-07-07 08:59:30,515 - worker - iptv24tv_sync - ERROR - Произошла ошибка: ('Cursor.fetchone:\n- SQLCODE: -303\n- Dynamic SQL Error\n- SQL error code = -303\n- arithmetic exception, numeric overflow, or string truncation\n- string right truncation', -303, 335544569){code}

Это означает что в БД биллинга поступают запросы от сервиса 24ТВ с логином, не соответствующим размеру поля логина в БД биллинга. Такие запросы генерируются из-за абонентов на портале IPTV у которых нет реквизитов email или телефон. Данная ошибка будет исправлена в новых версиях. Если столкнулись с данной проблемой - создайте обращение на портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].



h2. check_error_django.sh
{code}- check_error_django.sh: ERROR(2) [СБОЙ ]
2018-11-15 20:45:08,307 - django - handlers - ERROR - 'NoneType' object has no attribute '__getitem__' 'NoneType' object has no attribute '__getitem__'
2018-11-15 20:45:08,307 - django - handlers - ERROR - traceback: ['Traceback (most recent call last):\n', ' File "//usr/local/www/sites/admin/api/handlers.py", line 353, in get\n', ' File "//usr/local/www/sites/admin/api/handlers.py", line 399, in web_api_get\n', ' File "//usr/local/www/sites/admin/api/handlers.py", line 368, in process_method\n', "TypeError: 'NoneType' object has no attribute '__getitem__'\n"]{code}
Ошибка функции *web_api_get* говорит о том, что скорейе всего проблема в выполняемых к биллингу API-запросах. Отладить это можно по статье [CarbonBilling:API REST v2.0], раздел "*Отладка*"

h3. Нужно добавить префикс для логинов в настройках услуги\!



Посмотреть список услуг создающих учетные записи и из префиксы можно через [конструктор отчетов|CarbonBilling:Конструктор отчетов] таким запросом:

Сообщение "not a valid choice" обычно говорит о том, что в какую-то из форм ввели неверное значение.

h3. Ошибка обработки запроса.

Выдержка из лога сделанная тестом пишет о том что возникла ошибка обработки запроса: речь о запросе фреймворка Django, на котором разработано ядро биллинга, к базе данных.
{code:title=/app/asr_billing/var/monitoring_dump/check_error_django.sh.NNNN.log}
exit
/app/asr_billing/service start{code}
# [Обновите|Обновление биллинга] биллинг до актуальной версии.
# Если версия уже актуальная, запустите принудительное обновление - возможно повреждён какой-то файл или во время обновления произошла ошибка и новая версия не загрузилась:
{code}carbon_update --force{code}
2019-06-25 15:17:03 ++[python_error <140078326261696>]KeyError: 'NAS-Port'{code}

Если исправить проблемы второго и третьего случаев невозможно решить настройкой оборудорвания (например, словарь атрибутов или из формат не настраиваются), потребуется доработать OSS схему или создать новую. С таким запросом Вы можете обратиться в техподдержку. создать обращение на портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].

h2. check_critical_pumper.sh
{code}

h3. ATOL ошибка сервера

# Пример ошибки:
{code}

2019-02-22 08:38:32: pl5monitoring ALARM Имеются ошибки в логе worker за последний час: 57{code}
Тест регистрирует наличине некритичных ошибок обработки абонентов, но требующих реакции администратора или техподдержки.
Узнать что за ошибки произошли Вы можете следующей командой:
{code}grep ERR /app/asr_billing/var/log/worker.log{code}

{anchor:traf-old-date}

h3. account_traf - Очень старая дата у трафика\!
{code}2019-08-28 12:41:40,184 - worker - account_traf - ERROR - Очень старая дата у трафика! Проверьте настройки NAS! Дата: 2010-10-24 02:43:35, User ID: 4769, NAS: 10.0.0.1{code}
{info}Чтобы посмотреть по какой учетной записи возникла проблема в интерфейсе биллинга, подставьте ID из ошибки в адресную строку.
*Пример*. Допусти Вы подключаетесь к биллингу по IP 192.168.0.10, ссылка на учетную запись ID 4769 будет такой: [http://192.168.0.10/admin/Users/4769]

{info}
Настройка netflow-потоков подробно описана в [статье|Настройка и проверка netflow-потоков]. Для того, что бы решить проблему выполните:

{info}
\#25262 - это id абонета в базе данных. Быстро перейти на него в веб интерфейсе можно по ссылке:
{code}
http://<ip-биллинга>:8082/admin/Abonents/25262
ls -l /app/asr_billing/cfg/autocsv/
{code}
Видим два файла с настройками, *test.autocsv* - \- пустой.
{code}
-rw-rw-rw- 1 root root 0 Июн 16 11:28 test.autocsv
# Удалмите пустой файл:
{code}
rm -f /app/asr_billing/cfg/autocsv/test.autocsv
{code}

# Посмотрите какая одировка в конфигурацинном файле:
{code:title=Кодировка в конфигурационном файле}
grep encoding /app/asr_billing/cfg/autocsv/test.autocsv
encoding: 'windows-1251'
{code}
# Сравните её с файлом, который вы загрузили на сервер:
{code:title=Кодировка файла с платежами}
file --brief --mime-encoding /app/asr_billing/var/autocsv/default/test.csv
utf-8
{code}
# Исправьте конфигурационный файл по [статье|Автоматическая выгрузка платежей из CSV].

h3. Ошибка обработки отправки отложенных комманд ConnectionTimeout
{code}
2020-06-26 10:09:05,928 - worker - common - CRITICAL - Ошибка обработки отправки отложенных комманд ConnectionTimeout caused by - ReadTimeoutError(HTTPConnectionPool(host='169.254.92.94', port=9200): Read timed out. (read timeout=30))
{code}

Если перезапуск не устранил ошибку, тогда необходимо выполнить переиндексацию базы биллинга по [инструкции|CarbonBilling:Не работает поиск]




h3. Поле логин не должно содержать символы пробела\!
{code}
2021-02-04 18:05:07,934 - worker - common - ERROR - Ошибка обработки статуса услуг: Поле логин не должно содержать символы пробела!

NAME Александров В. А.
CONTRACT_NUMBER BILL0000025
{code}
Для решения проблемы необходимо убрать пробелы из номера договора по статье [CarbonBilling:Изменение номера договора]


h3. Не могу выставить акт - абонент не главный на л.с.
{code}



h2. test_httpd.sh
{code}- test_httpd.sh: ERROR(2) [FAILED]
Как правило, такие задачи следует передавать в отдел разработки для детального анализа каждого конкретного случая.
Тем не менее, это не всегда обязательно.
Есть несколько случаев, которые можно проверить и устранить самостоятельно, без привлечения отдела разработки даже техподдержки:
* В первую очередь следует проверить общий системный лог */var/log/messages* на наличие ошибок дисковой подсистемы, если они есть и относятся к диску на котором расположена БД биллинга - это с высокой долей вероятности может вызвать ошибку работы СУБД.
* Далее можно попробовать посмотреть содержимое файла */app/asr_billing//var/log/firebird/xinetd_169.254.30.50.log*, это журнал службы управляющей соединениями сервера баз данных, он необходим для экономии ресурсов системы и поддержания нагрузки на БД в разумных пределах.
* /mnt/db/app/asr_billing/db/buff_traf.gdb.ГГГГММ - базы с аккаунтингом трафика

Базы из папок *notstopped* и *replaced_by_shadow* могут пригодиться, если Вы планируете проводить детальный анализ поврежденных баз. Если нет - их можно очистить.
Базы из папки *safemode* можно очистить только в том случае, если в настоящий момент биллинг находится в работе.
Базы buff_traf.gdb.ГГГГММ (например, buff_traf.gdb.201904) содержат информацию по объёмам трафика полученную из netflow или radius accounting, данные из них агрегируются и добавляются в основную БД billing.gdb, их можно видеть в карточках абонентов на вкладке "[Расход|CarbonBilling:Счетчики услуг. Вкладка "Расход".]". Их можно удалять.

Чтобы найти причину, ориентируйтесь на время написанное при падении теста - в примере выше это "2017-03-21 14:48:52". Изучив лог за это время можно найти более подробную информацию о причине ошибки, вероятно она одна из описанных выше.
Если проблема повторяется часто, обратитесь в техподдержку.
Если проблема повторяется часто, составьте обращение в портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].

h2. test_radius.py
{code}chroot /app/asr_billing/ service radiusd_acc restart{code}

Если проблема сохраняется, обратитесь в техподдержку.
Если проблема сохраняется, составьте обращение в портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].


{code:title=chroot /app/asr_billing/}
[root@carbon ~]# chroot /app/asr_billing/
[root@carbon (asr_billing) /]#
{code}
# Попробуйте посмотреть в корневой папке схемы - символические ссылки на OSS схемы делаются обычно на папки целиком:
{code}
{warning}{*}update_hook.sh* можно запускать только на остановленном биллинге{warning}
В случае если повторное обновление не исправило проблему (это можно проверить по логу, поискав слово "error"), обратитесь в техподдержку.
В случае если повторное обновление не исправило проблему (это можно проверить по логу, поискав слово "error"), составьте обращение в портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].

h2. ALARM /usr/local/bin/sync_nas\! Не могу получить списки
!nas_in_production.png|border=1,width=400!

h3. Ошибка сохранения: Carbon XGE local readonly

Если требуется удалить/ отключить синхронизацию в биллинге у NAS XGE и возникает данная ошибка, в этом случае требуется в [глобальных настройках|https://docs.carbonsoft.ru/pages/viewpage.action?pageId=63242421#Глобальныенастройкибиллингаиоператора-Общие] биллинга снять флаг *Запретить редактировать Carbon XGE local*

h2. WARNING Обнаружены ошибки удаления абонентов


Данная ошибка будет автоматически фиксироваться системой мониторинга при отключении контейнера *asr_fiscal*(Платежные системы).
Если вам нет необходимости использовать контейнер "Платежные системы" в биллинге, для отключения теста необходимо обратиться к технической поддержке. составьте обращение в портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].



h3. Проблема настройки SSL

Ошибка возникает при редактировании конфигурационного файла httpd.conf . Обычно это происходит при установке [ssl сертификата на локальный сайт|Установка ssl сертификата SSL-сертификата на локальный сайт].
{code:title=Ошибка}
Stopping httpd: [ OK ]
wordpress.wp_comments OK
...

Repairing tables
wordpress.wp_commentmeta
Чтобы исправить проблему, восстановите ЛК из последней резервной копии по статье [CarbonBilling:Восстановление Wordpress. Восстановление базы данных сайта из бекапа]

h1. Тесты asr_fiscal

h3. Ошибка: Cannot create SSLMutex.

{code:title=Ошибка}
[error] (28)No space left on device: Cannot create SSLMutex
Configuration Failed
{code}

Когда в логах apache видим ошибку «No space left on device: Couldn’t create accept lock or Cannot create SSLMutex», решить проблему помогут следующие действия:

От пользователя Апач осталось большое количество семафоров, которые необходимо удалить.

{code}
ipcs -s | grep apache
{code}

Удаление этих семафоров и является решением:


{code}
ipcs -s | grep apache | perl -e ‘while () { @a=split(/\s+/); print `ipcrm sem $a[1]`}’
{code}



h1. Тесты asr_fiscal

h2. check_fiscal_httpd_netstat.sh

{code:title=Команда}ls -l /app/asr_fiscal/proc/{code}
{code:title=Вывод}total 0{code}
В папке /proc пусто, а должно быть большое количество папок и файлов.

Если Вы столкнулись с такой проблемой, вероятно произошла какая-то ошибка при старте системы. Перезапустит контейнер чтобы её исправить:
Причины и методы решения проблем аналогичны инструкции теста *check_fiscal_httpd_netstat.sh* (выше).


h1. Тесты collector

nf_collector disabled in /cfg/config
is stopped

/usr/local/angel/check_nf_collector_listen.sh ERROR(2)
Create_date: 2020-05-16 22:40:10
Обычно ошибка возникает, если на разделе со статистикой кончилось [место|#check_disk_space_stat.sh]. Сбор статистики был остановлен.
{warning}
Если служба сбора статистики выключена, биллинг не сможет считать объём трафика.
{warning}


Наиболее вероятной причиной отключения коллектора является переполнение раздела с детальной статистикой - это проверяет автоматический тест *check_disk_space_stat.sh*
Перейдите по [ссылке|#checkdiskspacestat.sh] - \- там описано как решить проблему.

h3. Ошибка nf_collector запущен без пидфайла
{code}

Проблема могла возникнуть при перезапуске сервера или контейнера collector.
Для решения, необходимо перезапустить контейнер collector полностью.
{code}/app/collector/service restart{code}
{code}
{panel}Stopping radiusd_traf: {color:red}\[FAILED\]{color}{panel}
Подобный ответ говорит о проблемах с запуском радиус-сервера. Попробуйте найти решение в документации или обратитесь в техподдержку.
Подобный ответ говорит о проблемах с запуском радиус-сервера. Попробуйте найти решение в документации или составьте обращение в портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].
{panel}radius_traf disabled in /cfg/config{panel}
Данный ответ говорит о том, что сервер сбора трафика отключен в настройках биллинга. Включите его в биллинге в меню [Настройки (в файле)|CarbonBilling:Настройки (в файле)]



h2. check_bstat_check_raw_stat.sh
{code} Отсутствует сырая статистика
{code:title=Пример вывода когда есть файлы статистики}194{code}
# Если вывод будет больше ноля, как в примере выше, рекомендуем отключить опцию и удалить собранную статистику.
# Отключить можно в настройках [служб сбора статистики|CarbonBilling:Описание работы служб сбора статистики], на вкладке "*Настhройки сохранения сырой статистики*", опция "*Сохранять сырую статистику*"
# Удалить уже собранную статистику можно такой командой:
{code}find /app/collector/var/stat/raw/ -iname 'rawnetflow*' -delete{code}

{info}Объём статистики за 7 дней вычисляется исходя из архива предыдущих месяцев - тест ищет в каком периоде было больше всего статстики, делить объём на 30 и умножает на 7.{info}
{note}Рекомендуемый объём диска *1ТБ*, диска меньшего объёма скорей всего надолго не хватит.{note}
{note}Рекомендуется диск объёмом *1ТБ* и более, меньшего объёма скорее всего надолго не хватит.{note}
{warning}Если служба сбора статистики выключена, биллинг не сможет считать объём трафика. После очистки места на диске включите службу по статье: [nf_collector|Collector#NetflowCollector].{warning}

{code}

После этого нужно создать отдельную заявку составьте обращение в службу поддержки портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php] на анализ файла. Если не переместить файл, то проблема может спровоцировать излишнюю нагрузку на сервер.

h1. Тесты xge
{code}

h3. Решение

В выводе: количество занятых классов, далее количество свободных. Как видно из примера, свободных более нет. Для решения проблемы следует запустить скрипт, удаляющий лишние локи:
{code}chroot /app/xge/ fix_locked_shapers.sh{code}
Если после выполнения скрипта абоненты будут жаловаться на наличие проблем со скоростью, перезапустите XGE
{code}/app/xge/service restart{code}
{code}chroot /app/xge/ xge_sync{code}

h3. Решение не помогло

# Перейдите в контейнер *xge*
{code}
chroot /app/xge/
{code}
# Удалите старые сессии на xge:
## Просмотрите сессии
{code}
ll /var/lib/xge_sessions/
{code}
## Переместите одну из сессий в пользовательский каталог. Например *178.22.169.233*.
{code}
mv /var/lib/xge_sessions/178.22.169.233 /root/
{code}
## Удалите сессии
{code}
rm -f /var/lib/xge_sessions/*
{code}
## Верните единственную сессию в каталог
{code}
mv /root/178.22.169.233 /var/lib/xge_sessions/
{code}
# Удалите занятые шейпреры
{code}
rm -f /var/lib/xge_shapers/lock/*
{code}
# Запустите синхронизацию абонентов
{code}
/usr/local/bin/xge_sync
{code}
# Покиньте контейнер *xge*
{code}
exit
{code}

h2. check_vm.sh


Тест сообщает об ошибке потому что XGE (как отдельно, так и в составе Softrouter) не предназначен для работы в гипервизоре. Softrouter и XGE предназначены только для работы на физическом оборудовании.
Стабильная работа в виртуальных машинах не гарантируется и поддержка по проблемам решение проболем с повисаниями, с потерей пакетов, с производительностью не оказывается.
Об этом так же упоминается в статье [CarbonBilling:Системные требования]




h2. check_xge_httpd_redirect_netstat.sh

h1. Общие ошибки продуктов на платформе Carbon PL5

{anchor:ftp_error}
h2. ALARM Ошибка автоматической резервной копии!

h2. ALARM Ошибка автоматической резервной копии\!

Полный текст ошибки
{code}Ошибка автоматического бекапа! Информация в логе: /app/base/var/log/cron_backup.sh.log{code}
Перед ней будет лог выполнения резервного копирования. Причин проблемы с резервным копированием может быть огромное множество, соответственно и решение строго индивидуально в каждом конкретном случае.

h4. Ошибка при попытке создать бэкап asr_cabinet

* Ошибка в логе /app/base/var/log/cron_backup.sh.log: *rsync: \[sender\] link_stat "/var/cabinet_modules/\*" failed: No such file or directory (2)*
{code}/app/asr_cabinet backup daily
Backup asr_cabinet; Prefix = daily
Очищаем старые каталоги резервных копий
Копирую cfg/
Копирую var/reg/
Запускаем хук /usr/local/bin/backup_hook.sh
Создаем бекап БД
Копируем var/cabinet_modules
rsync: [sender] link_stat "/var/cabinet_modules/*" failed: No such file or directory (2)
rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1330) [sender=3.2.3]

# /app/asr_cabinet/service backup daily: [СБОЙ ]
{code}
Для решения проблемы требуется остановить контейнер и заново его пересобрать командой:
{code}/app/asr_cabinet/service stop && /app/asr_cabinet/service destroy && /app/asr_cabinet/service build && /app/asr_cabinet/service start{code}

* Ошибка в логе /app/base/var/log/cron_backup.sh.log: *mysqldump: Error: 'Can't create/write to file '/tmp/angel/#\[имя_файла\].MYI' (Errcode: 13)' when trying to dump tablespaces*
{code}/app/asr_cabinet backup daily
Backup asr_cabinet; Prefix = daily
Очищаем старые каталоги резервных копий
Копирую cfg/
Копирую var/reg/
Запускаем хук /usr/local/bin/backup_hook.sh
Создаем бекап БД
mysqldump: Error: 'Can't create/write to file '/tmp/angel/#sql_1c5e_2.MYI' (Errcode: 13)' when trying to dump tablespaces
mysqldump: Couldn't execute 'show fields from `wp_betterlinkmeta`': Can't create/write to file '/tmp/angel/#sql_1c5e_0.MYI' (
Errcode: 13) (1)

# /app/asr_cabinet/service backup daily: [СБОЙ ]
{code}
Для решения проблемы требуется перезапустить mysqld в контейнере asr_cabinet:
{code}chroot /app/asr_cabinet service mysqld restart{code}

h3. backup_upload: \[СБОЙ \]

{code}
В этом примере, биллинг попытался отправить резервную копию на FTP, но сервер не принял файл и написал ошибку что файловая система в ражиме только для чтения.
Это может возникнуть, например, если диск или файловая система на FTP-сервере, неисправны, или её так настроили специально по какой-то причине.

Попросите администратора FTP-сервера решить проблему с димком и повторите выгрузку.
h3. Самые распространенные причины

# Не создалась резервная копия *asr_billing*. Скорее всего, выявились ошибки БД. Об будет сообщено в логе, и в этом случае лучше сразу обратиться составьте обращение в техподдержку. портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php]. Дополнительные логи программы *gbak*, которая не смогла снять резервную копию, доступны в файле
{code}/app/asr_billing/var/log/backup_db_v2.sh.log{code}
# Резервная копия не не была выложена на ftp. В случае ошибок curl, он выполняется повторно с флагом \-v и в логе пишется строка с аргументами, которые передаются в curl. Вы можете напрямую скопировать команду с curl в консоль для отладки. Подробней об ошибках выгрузки Вы можете прочитать в [соответствующей статье|Система мониторинга]



h2. ALARM Мало свободного места на диске\!




h2. ALARM app заблокирован в течении минут

Журнал блокировок пишется в файл */var/log/pl5_service.log*.
{code}
/var/log/pl5_service.log
{code}
По времени создания заявки можно найти какая оперпция занимала слишком много времени и отладить.

h3. Заблокирован контейнер asr_billing

Чаще всего asr_billing блокируется процессом, который отвечатает за выгрузку бекапов на FTP-сервер (процессы вроде /app/asr_billing backup_upload, /app/asr_billing backup daily и т.п.). Если выполнить команду
{code}
/app/asr_billing/service check
{code}
, то можно увидеть PID и имя блокирующего процесса, например:
{code}
root 49007 0.0 0.0 108764 2180 ? S 03:44 0:00 /bin/bash /app/base/bin/pl5chroot.ctl /app/asr_billing backup_upload
{code}
В данном случае PID = 49007. Теперь можем завершить его принудительно командой:
{code}
kill -9 49007
{code}
Далее требуется проверить Ваш FTP-сервер. Скорее всего проблема в низкой скорости передачи, либо в медленной аутентификации.
Замерить пропускную способность от биллинга клиента до вашего FTP-сервера можно следующим способом.
# Создадим файл объемом в 100 Мб:
{code}
dd if=/dev/zero of=/tmp/testfile100mb bs=1M count=100
{code}
# Загрузим его на FTP-сервер, чтобы замерить скорость:
{code}
curl -T /tmp/testfile100mb ftp://<адрес_ftp_сервера>/tmp --user <имя_пользователя>:<пароль>
{code}
_Прим.: имя пользователя, адрес и каталог можно найти в веб-интерфейсе биллинга (Настройка платформы -> Настройки резервного копирования): http://<ip_биллинга>:8081/settings/base/backup/_
# После этого проверочный файл на FTP-сервере можно удалить:
{code}
ftp <ftp_ip>
delete /tmp/testfile100mb
{code}

Если скорость передачи данных на FTP-сервер в порядке, но бекапы все равно выгружаются слишком медленно, то, скорее всего, проблема в медленной аутентификации. Чаще всего проблема связана с DNS (долгое время разрешения DNS-запросов или некорректная конфигурация DNS на сервере или клиенте).

h2. ALARM CRITICAL carbon_update скрипт обновления завершился

{code}rss-ladder eth0{code}
Если это исправит проблему, не забудьте добавить автоматический вызов настройки в [хук|xge:Дополнительные настройки. hooks. Хуки] XGE
{info}Проблема актуальна для продуктов Reductor, XGE и Softrouter. Если она произошла на Billing или Billing_Slave, обязательно обратитесь составьте обращение в техподдержку{info} портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php]
{info}

h2. ALARM Billing Watchdog не активен в течение двух часов\!

Основная причина - остановленный cron в корневой системе. Перезапускает его softdog_agent, его лог - /var/log/softdog_agent.log


Убедитесь что у Вас установлено и загружено актуальное ядро ОС: если с первым пунктом всё в порядке, но */etc/init.d/kdump start* всё равно выдаёт *"Kdump is not supported on this kernel"*, то:
Убедитесь что у Вас установлено и загружено актуальное ядро ОС:

* Если в [базовом интерфейсе|https://docs.carbonsoft.ru/display/CarbonBilling/Base] есть предложение обновиться, то обновите и перезагрузите сервер
* Если предложения нет, то просто перезагрузить сервер в новом ядре
{code}
[root@carbon ~]# uname -r
2.6.32-754.el6.x86_64
{code}
- это актуальная версия ядра

Если версия ядра актуальная, но */etc/init.d/kdump start* всё равно выдаёт *"Kdump is not supported on this kernel"*, то:

* Если в [базовом интерфейсе|https://docs.carbonsoft.ru/display/CarbonBilling/Base] есть предложение обновиться, то обновите и перезагрузите сервер. Актуальная версия биллинга публикуется в блоге: [https://www.carbonsoft.ru/blog/]
* Если предложения обновиться нет, но версия старая, обратитесь в техническую поддержку.

В некоторых случаях ядро не может само выделить память. Проверяем загрузочный вывод ядра:
{code} grep crash /var/log/dmesg {code}
Появится строка "Reserving xxxMB of memory at ... for crashkernel"

Строка "kexec: crashkernel=auto resulted in zero bytes of reserved memory" появляется, если на сервере менее 2 Гб оперативной памяти. Если объем памяти соответствует системным требованиям, обратитесь составьте обращение в техподдержку. портале [HelpDesk|https://helpdesk.carbonsoft.ru/login.php].


h3. Биллингу недоступен интернет, вероятно что-то с сетевым подключением

Результат автоматической проверки подсистема мониторинга отправляет в нашу CRM, для создания автоматических заявок обращений в техподдержке и оповещения администратора. портале HelpDesk.

Если проблема с каналом связи, это будет видно по журналу системы мониторинга:
2020-10-19 18:34:25 [4346]: kildin.net watchdog catch Error
{code}
Здесь видно, что система мониторинга не смогла связаться с CRM по IP-адресу - значит, проблема не в DNS, а с доступом к сети в целом.

Проведите общую сетевую диагностику, проверьте патч-корды и тд, так же убедитесь что сеть настроена верно на самом сервере.