|
Обработка Faults на Cortex-Mx, Как используете? |
|
|
|
Jul 7 2018, 15:39
|

Местный
  
Группа: Участник
Сообщений: 492
Регистрация: 12-11-11
Пользователь №: 68 264

|
Интересует, как коллеги обрабатывают все Faults на микроконтроллерах Cortex-Mx. Я про NMI, Hard, MemManage, Bus, Usage, SVCall, Debug Monitor, PendSV, Systick. С SVCall, Debug Monitor, Systick все понятно, с PendSV в принципе тоже. А что делаете с тяжелыми отказами, отказами шины и прочими? Сейчас я просто вывожу состояние нужных регистров и стек. Как правило, если где-то программа падает, я узнаю об этом на этапе отладки. Но ведь может быть такое, что устройство уже стоит у заказчика и частично подлежит отладке на объектах. И оно должно продолжить функционирование. Как обрабатывать тогда ошибки? Перезагрузка по WDT? Или все-таки грамотный обработчик исключения должен понять природу ошибки и попытаться исправить ее? Если да, то каким образом? Сейчас мне видится вариант с сохранением лога событий в памяти (допустим, SD карты) и перезагрузкой МК. Пока что больше хорошего развития событий не знаю. Отсюда и предположения для обсуждения: 1. Должны ли существовать обработчики исключения CPU, связанные с аварийным событием (промах по памяти, тяжелый отказ, например, и т.д.) только на момент разработки и отладки ПО и выявлять все проблемы именно на этапе разработки, а при этом в боевой работе устройство ни коим образом не должно ловить такие Fault-ы? 2. Пункт 1 влечет за собой следующий вопрос: если в боевом коде обработчики должны быть предусмотрены (я подразумеваю, что все-таки это именно так) - как правильно строить архитектуру обработки ошибок? Что должен делать код в обработчике, кроме как сообщать программисту (каким-то образом) о состоянии регистров? 3. Вопрос больше из разряда "как больше нравится" - код обработчика на ассемблере или на Си? То есть, как вы поняли, вопрос в грамотном управлении ходом событий для обеспечения надежности и безотказности устройства. Я задаю себе вслух вопрос: "причину отказа я установлю, но что мне с этим делать дальше?". Вопрос не философский и хотелось бы узнать, как коллеги на реальной практике применяют обработчики исключений CPU для обеспечения надежности ПО и устройства в целом от сбоев. Только прошу, не хотелось бы услышать ответ "на столе отлаживать надо". Мы отлаживаем. И работает годами. Но бывают (уверен, у всех) непредвиденные случаи, когда устройство может "выстрелить себе в колено", не важно по вашей вине или вине заказчика, и нужно с этим разбираться. Также был бы благодарен, если на эту тему существуют мануалы, но я об этом не знаю - будьте добры, поделитесь информацией
Сообщение отредактировал Arlleex - Jul 7 2018, 15:42
|
|
|
|
|
 |
Ответов
|
Jul 7 2018, 20:45
|
Гуру
     
Группа: Свой
Сообщений: 5 228
Регистрация: 3-07-08
Из: Омск
Пользователь №: 38 713

|
Цитата(Arlleex @ Jul 7 2018, 18:39)  А что делаете с тяжелыми отказами, отказами шины и прочими? Определил для себя понятие "критическая ошибка". Это такая ошибка, возникновение которой не предусмотрено при создании программы, неизвестно "что делать?" при её возникновении и невозможно продолжать штатное функционирование устройства. Такие ошибки у меня могут возбуждаться как аппаратными событиями (исключение от MPU при попытке недопустимого доступа к памяти, всяческие прочие HF (и Bus fault-ы и user fault-ы - для всех у меня делается эскалация до Hard Fault с общим обработчиком HF)); так могут вызываться и программно (набор функций trap(...)) если какая-то часть программы обнаружила недопустимое состояние (для каждого программного модуля/драйвера - свой класс возбуждаемых trap-ов). Обработчик trap() у меня висит на SVC. При возникновении любого типа критической ошибки я делаю: Защёлкиваю тип и ID критической ошибки состояние выполнения (регистры CPU, N слов от вершины стека), для программного trap() также защёлкиваю аргументы вызова. Для некоторых типов критических ошибок (например: неожиданное прерывание (которого не должно быть)) защёлкиваю состояние выполнения (регистры/стек) не текущего контекста, а прерванного. Далее - делаю базовый инит (выкл. всей периферии, останов DMA, инит базовой периферии - MPU и пр.) и дальше - в зависимости от состояния соответствующего ключа компиляции: 1) компиляция DEBUG: переход устройства в спец.режим "TRAP" - инит тактирования (PLL и пр.) для этого режима (минимальные частоты), инит отладочного UART, и циклический, раз в секунду, вывод "синего экрана смерти" - периодический дамп всех защёлкнутых данных в UART в текстовом виде; устройство находится в режиме TRAP до внешнего сброса/выкл. питания, обеспечивая фиксацию состояния ошибки. 2) компиляция RELEASE: аппаратный reset устройства. И для того и для другого случая, копирую защёлкнутую инфу в спец. область памяти, которая не будет стёрта при reset-е, снабжаю её флагом и CRC. И, если устройство имеет non-volatile память, то после штатного рестарта, после начального инита периферии, эта инфа переписывается в журнал критических сбоев в этой non-volatile памяти. Цитата(Arlleex @ Jul 7 2018, 18:39)  Но ведь может быть такое, что устройство уже стоит у заказчика и частично подлежит отладке на объектах. И оно должно продолжить функционирование. Как обрабатывать тогда ошибки? Если ошибка может быть обработана и устройство может продолжать после этого нормально функционировать - это уже не критическая ошибка, а штатная работа. И механизм критической ошибки здесь не использую. Цитата(Arlleex @ Jul 7 2018, 18:39)  Сейчас мне видится вариант с сохранением лога событий в памяти (допустим, SD карты) и перезагрузкой МК. В момент ошибки у Вас устройство уже работает, куча разной периферии/DMA работают, и если при этом произошла ошибка, то в этом окружении уже опасно дальше что-то делать, иначе можно получить каскад таких сбоев. Лучше просто защёлкнуть как можно быстрее инфу об ошибке в ОЗУ и сделать начальный инит периферии к минимальному функциональному состоянию - минимуму работающей периферии необходимой для записи события ошибки в какую-то энергонезависимую память, и записать эту инфу. А уж после рестартовать опять систему к полной функциональности. Цитата(Arlleex @ Jul 7 2018, 18:39)  в боевой работе устройство ни коим образом не должно ловить такие Fault-ы? Фиксация и отработка сбоев должна быть и в боевом режиме. Цитата(Arlleex @ Jul 7 2018, 18:39)  2. Пункт 1 влечет за собой следующий вопрос: если в боевом коде обработчики должны быть предусмотрены (я подразумеваю, что все-таки это именно так) - как правильно строить архитектуру обработки ошибок? У меня у обработчик общий, но имеет два входа: для программного возбуждения сбоя (trap()) и для аппаратного возбуждения сбоя (все типы fault-ов). Цитата(Arlleex @ Jul 7 2018, 18:39)  3. Вопрос больше из разряда "как больше нравится" - код обработчика на ассемблере или на Си? Защёлкивание всей инфы (регистры, стек, состояние CPU и пр.) у меня на асме, а "синий экран смерти" (режим работы TRAP) - на си. Цитата(Arlleex @ Jul 7 2018, 18:39)  Вопрос не философский и хотелось бы узнать, как коллеги на реальной практике применяют обработчики исключений CPU для обеспечения надежности ПО и устройства в целом от сбоев. Если есть инфа, что где-то на объекте что-то сбоит, смотрим журнал критических ошибок устройства на объекте - их частота, кол-во, периодичность, какие типы и в каких местах программы и пр. Дальше смотрим листинги этой версии ПО, пытаемся воспроизвести ситуацию у себя на столе. Если не получается - снимаем сбоящее устройство и везём к себе. Как-то так. Цитата(ViKo @ Jul 7 2018, 21:28)  А вот, скажем, выйти из той функции, которая сбойнула, и продолжить работу дальше. И зафиксировать сбой, по возможности, и передать. Если причина сбоя неизвестна (а она неизвестна по определению, иначе - почему тогда Вы его не исправили ещё на этапе написания ПО?  то не то что продолжать работу дальше нельзя, можно даже просто не успеть и выйти и получить тут же следующий сбой. А может сбой уже разрушил память или нарушил взаимодействие с какой-то периферией и устройство уже не функционирует, а глючит?
|
|
|
|
Сообщений в этой теме
Arlleex Обработка Faults на Cortex-Mx Jul 7 2018, 15:39 aaarrr По-моему, так:
1. Должны быть и в релизе.
2. Регис... Jul 7 2018, 15:53 ViKo А вот, скажем, выйти из той функции, которая сбойн... Jul 7 2018, 18:28 aaarrr Цитата(ViKo @ Jul 7 2018, 21:28) А вот, с... Jul 7 2018, 18:32  ViKo Цитата(aaarrr @ Jul 7 2018, 21:32) 2. А е... Jul 7 2018, 20:08   aaarrr Цитата(ViKo @ Jul 7 2018, 23:08) Так же и... Jul 7 2018, 20:48    jcxz Цитата(aaarrr @ Jul 7 2018, 23:48) Вы так... Jul 7 2018, 20:56     aaarrr Цитата(jcxz @ Jul 7 2018, 23:56) Типа как... Jul 7 2018, 21:04      jcxz Цитата(aaarrr @ Jul 8 2018, 00:04) Так он... Jul 7 2018, 21:12      ViKo Цитата(aaarrr @ Jul 8 2018, 00:04) Так он... Jul 10 2018, 07:04       aaarrr Цитата(ViKo @ Jul 10 2018, 10:04) Так PC ... Jul 10 2018, 07:24        ViKo Цитата(aaarrr @ Jul 10 2018, 10:24) А где... Jul 10 2018, 07:47        jcxz Цитата(aaarrr @ Jul 10 2018, 10:24) Разме... Jul 10 2018, 08:05         aaarrr Цитата(jcxz @ Jul 10 2018, 11:05) Пока не... Jul 10 2018, 08:13 Arlleex Спасибо участникам обсуждения!
Примерно так я ... Jul 10 2018, 05:14 jcxz Цитата(Arlleex @ Jul 10 2018, 08:14) где ... Jul 10 2018, 06:08  Arlleex Цитата(jcxz @ Jul 10 2018, 10:08) Лучше л... Jul 10 2018, 06:35 aaarrr Цитата(Arlleex @ Jul 10 2018, 08:14) Если... Jul 10 2018, 06:42  jcxz Цитата(aaarrr @ Jul 10 2018, 09:42) скопи... Jul 10 2018, 06:57 Arlleex Цитата(aaarrr @ Jul 10 2018, 10:42) Если ... Jul 10 2018, 07:36 jcxz Цитата(Arlleex @ Jul 10 2018, 10:36) В эт... Jul 10 2018, 08:13 aaarrr Цитата(Arlleex @ Jul 10 2018, 10:36) Кста... Jul 10 2018, 08:01 ViKo Цитата(aaarrr @ Jul 10 2018, 11:01) Да ну... Jul 10 2018, 08:09  aaarrr Цитата(ViKo @ Jul 10 2018, 11:09) Если вн... Jul 10 2018, 08:18   ViKo Цитата(aaarrr @ Jul 10 2018, 11:18) Так о... Jul 10 2018, 08:23  jcxz Цитата(ViKo @ Jul 10 2018, 11:09) То есть... Jul 10 2018, 08:26   ViKo Цитата(jcxz @ Jul 10 2018, 11:26) А какой... Jul 10 2018, 08:35    jcxz Цитата(ViKo @ Jul 10 2018, 11:35) А вы ко... Jul 10 2018, 11:47     ViKo Цитата(jcxz @ Jul 10 2018, 14:47) Да ужжж... Jul 10 2018, 11:57      jcxz Цитата(ViKo @ Jul 10 2018, 14:57) А вы на... Jul 10 2018, 11:59       ViKo Цитата(jcxz @ Jul 10 2018, 14:59) Что за ... Jul 10 2018, 12:04        jcxz Цитата(ViKo @ Jul 10 2018, 15:04) В обраб... Jul 10 2018, 12:13         ViKo Цитата(jcxz @ Jul 10 2018, 15:13) Ааа... Jul 10 2018, 12:23     serglg Цитата(jcxz @ Jul 10 2018, 17:47) Да ужжж... Jul 10 2018, 14:26 aaarrr Цитата(ViKo @ Jul 10 2018, 11:23) По моем... Jul 10 2018, 08:39 ViKo Цитата(aaarrr @ Jul 10 2018, 11:39) Можно... Jul 10 2018, 08:44  aaarrr Цитата(ViKo @ Jul 10 2018, 11:44) И к вых... Jul 10 2018, 08:47   ViKo Цитата(aaarrr @ Jul 10 2018, 11:47) Ну, в... Jul 10 2018, 08:57    aaarrr Цитата(ViKo @ Jul 10 2018, 11:57) Допусти... Jul 10 2018, 09:13     ViKo Цитата(aaarrr @ Jul 10 2018, 12:13) Главн... Jul 10 2018, 09:38      Arlleex Цитата(ViKo @ Jul 10 2018, 13:38) У меня ... Jul 10 2018, 10:15 Pavia Цитата(aaarrr @ Jul 10 2018, 11:39) Можно... Jul 10 2018, 15:01 haker_fox Мой обработчик HardFault состоит из диагностическо... Jul 11 2018, 09:53 aaarrr Цитата(haker_fox @ Jul 11 2018, 12:53) Со... Jul 11 2018, 10:17 ViKo Цитата(haker_fox @ Jul 11 2018, 12:53) Зн... Jul 11 2018, 10:22 Arlleex Цитата(haker_fox @ Jul 11 2018, 13:53) А ... Jul 11 2018, 11:52  haker_fox QUOTE (Arlleex @ Jul 11 2018, 19:52) А ес... Jul 11 2018, 13:11 jcxz Цитата(haker_fox @ Jul 11 2018, 12:53) А ... Jul 11 2018, 20:01  Arlleex Цитата(jcxz @ Jul 12 2018, 00:01) Конечно... Jul 12 2018, 04:44   jcxz Цитата(Arlleex @ Jul 12 2018, 07:44) А во... Jul 12 2018, 12:29    Arlleex Цитата(jcxz @ Jul 12 2018, 16:29) А эскал... Jul 12 2018, 12:41     Kabdim Цитата(Arlleex @ Jul 12 2018, 15:41) ... Jul 12 2018, 13:53  AlexandrY Цитата(jcxz @ Jul 11 2018, 23:01) Ну никт... Jul 12 2018, 19:40   haker_fox QUOTE (AlexandrY @ Jul 13 2018, 03:40) Ну... Jul 13 2018, 01:27    AlexandrY Цитата(haker_fox @ Jul 13 2018, 04:27) Пр... Jul 13 2018, 10:21     jcxz Цитата(AlexandrY @ Jul 13 2018, 13:21) Не... Jul 13 2018, 11:15     haker_fox QUOTE (AlexandrY @ Jul 13 2018, 18:21) Жд... Jul 13 2018, 14:18 AlexandrY Цитата(Arlleex @ Jul 7 2018, 18:39) Интер... Jul 11 2018, 13:15 haker_fox QUOTE (AlexandrY @ Jul 11 2018, 21:15) Лу... Jul 11 2018, 13:28  AlexandrY Цитата(haker_fox @ Jul 11 2018, 16:26) Пе... Jul 11 2018, 13:45  Pavia Цитата(haker_fox @ Jul 11 2018, 16:28) Но... Jul 11 2018, 16:21   Kabdim Цитата(Pavia @ Jul 11 2018, 19:21) Всё пр... Jul 11 2018, 16:29   AlexandrY Цитата(Pavia @ Jul 11 2018, 19:21) Ошероу... Jul 11 2018, 18:30 haker_fox QUOTE (Arlleex @ Jul 11 2018, 19:52) Я ещ... Jul 11 2018, 13:19 AlexandrY Цитата(haker_fox @ Jul 11 2018, 16:19) И ... Jul 11 2018, 13:24 haker_fox QUOTE (jcxz @ Jul 12 2018, 04:01) Расчуде... Jul 12 2018, 05:10 jcxz Цитата(haker_fox @ Jul 12 2018, 08:10) Од... Jul 12 2018, 12:51  Arlleex Цитата(jcxz @ Jul 12 2018, 16:51) А мне д... Jul 12 2018, 13:15   jcxz Цитата(Arlleex @ Jul 12 2018, 16:15) ETB ... Jul 12 2018, 13:24 Kabdim Зато они сменили лицензию на 5 версию. За деньги ч... Jul 16 2018, 09:36 Arlleex Кстати, коллеги.
А нормальная ли практика фиксиров... Jul 17 2018, 09:03 AlexandrY Цитата(Arlleex @ Jul 17 2018, 12:03) Кста... Jul 17 2018, 09:09 jcxz Цитата(Arlleex @ Jul 17 2018, 12:03) А то... Jul 17 2018, 09:57 aaarrr Цитата(Arlleex @ Jul 17 2018, 12:03) А но... Jul 17 2018, 09:54
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0
|
|
|