Отладка АRMv7 (Cortex-A9) - Форум разработчиков электроники ELECTRONIX.ru

реклама на сайте
подробности

Wiki

Wiki

Photo

Forum

Forum

Reviews

Reviews

Help (!)

Help (!)

Правила Форума

Пользователи

Календарь

Личная почта

Панель управления

Форум разработчиков электроники ELECTRONIX.ru > Микроконтроллеры (MCs) > ARM

Reply to this topic

Start new topic

Отладка АRMv7 (Cortex-A9), Нужна помощь, советы, идеи в поиске неординарной ошибки

Gehar Просмотр профиля	Feb 8 2017, 12:36 Сообщение #1
Группа: Новичок Сообщений: 2 Регистрация: 6-08-12 Пользователь №: 73 031	Добрый день. Имеется прибор, внутри которого стоит 2х-ядерный Cortex-A9 (производства Xilinx, семейство Zynq). Система работает в AMP режиме: cpu0 - Linux, cpu1 - standalone, то есть без ОС. Второе ядро (cpu1) выполняет программу реального времени, управляющую блоком в FPGA. Обнаружено, что при определенных условиях процессор "помирает", да так помирает, что не возможно подключиться даже отладчиком (через JTAG) к нему и посмотреть состояние памяти, регистры, на каком месте остановилось управление, отладчик выдает ошибку таймаута. Никаких следов, что случилось, после этого не остается. Что сделано: 1. Определены условия, при которых процессор зависает ("помирает") и написана программа управления прибором, способная за 30-60 секунд повесить процессор (именно процессор, а не программу); 2. Приблизительно установлено место в программе, в котором происходит зависание; 3. Проверено, что программа не пишет ничего в наиболее важные системные регистры процессора (во всяком случае отладчик не зарегистрировал обращений по этим регистрам перед зависанием): DDR Memory Controller, L2 Cache Controller, System Level Control Registers (slcr). Занимаюсь этой ошибкой (активно) уже около месяца и никак не могу понять, что происходит. Может быть кто-то сталкивался с подобной ситуацией? Сегодня появилась мысль попробовать аппаратный трассировщик, может быть с его помощью удастся зарегистрировать что происходит с системой перед смертью? Только его пока у нас нет, нужно покупать... И какой брать тоже не известно пока, у нас никто с ними не сталкивался. Так же есть другой прибор (с другим назначением, кодом, но идентично помирающий), тоже требуется понять, в чем причина... Есть ли у кого-либо идеи, как отловить ошибку?

aaarrr Просмотр профиля	Feb 8 2017, 12:45 Сообщение #2
Гуру Группа: Свой Сообщений: 10 713 Регистрация: 11-12-04 Пользователь №: 1 448	Цитата(Gehar @ Feb 8 2017, 15:36) ...Приблизительно установлено место в программе, в котором происходит зависание; Так что в общих чертах делает эта программа? В надежности аппаратной части уверены?

Genadi Zawidowsk... Genadi Zawidowski Просмотр профиля	Feb 8 2017, 13:29 Сообщение #3
Профессионал Группа: Участник Сообщений: 1 620 Регистрация: 22-06-07 Из: Санкт-Петербург, Россия Пользователь №: 28 634	Все обработчики прерываний окружить "ногодрыгом" - вывод в порты каких-то сигнатур. По возможности без вызова функций. По последней сигнатуре судить, где побывала программа. Вспомните, что диагностика про запуске персональных компьютеров выдавалась в виде числа в регистр, просто висящий на шине. При отладке low-level функций иногда удобно "завешивать" в бесконечный цикл при наступлении каких-то неожиданных условий. При этом, подключенившись по jtag вы увидите место, где остановилось выполнение алгоритма и с неразрушенным стеком. Сообщение отредактировал Genadi Zawidowski - Feb 8 2017, 13:33

jcxz Просмотр профиля	Feb 8 2017, 14:20 Сообщение #4
Гуру Группа: Свой Сообщений: 5 228 Регистрация: 3-07-08 Из: Омск Пользователь №: 38 713	Цитата(Gehar @ Feb 8 2017, 14:36) программа не пишет ничего в наиболее важные системные регистры процессора (во всяком случае отладчик не зарегистрировал обращений по этим регистрам перед зависанием): Вот в этом есть сомнения. Цитата(Gehar @ Feb 8 2017, 14:36) Есть ли у кого-либо идеи, как отловить ошибку? Если нет функции обратной трассировки в отладчике/МК (типа ETB) можно попробовать эмулировать какое-то её подобие. Я уже описывал здесь на форуме как: Запустить высокочастотное периодическое прерывание и в его ISR записывать состояния процессора (регистры, несколько слов стека) в кольцевой буфер. Если частота прерывания достаточно высока, то так можно получить точки записи через каждые неск. команд и локализовать место. И полезно поставить ловушки на все исключения процессора. Да и MMU поди есть в МК? А значит надо с его помощью разрешить доступ только в нужные регионы памяти. Остальные - на исключение и ловушку.

mantech Просмотр профиля	Feb 8 2017, 18:41 Сообщение #5
Гуру Группа: Участник Сообщений: 2 219 Регистрация: 16-08-12 Из: Киров Пользователь №: 73 143	Цитата(Gehar @ Feb 8 2017, 15:36) Второе ядро (cpu1) выполняет программу реального времени, управляющую блоком в FPGA. Это взаимодействие проверяли? ФПГА связано с шинами проца, может что выставляет туда "нехорошее". Можно попробовать пока его отключить и сэмулировать функционал программно... И второе, линукс, который на первом ядре, точно не вносит в работу никаких особенностей, может проверить пока без него?

Шаманъ Просмотр профиля	Feb 9 2017, 07:55 Сообщение #6
Знающий Группа: Участник Сообщений: 758 Регистрация: 27-08-08 Пользователь №: 39 839	Цитата(Gehar @ Feb 8 2017, 15:36) Есть ли у кого-либо идеи, как отловить ошибку? Кроме уже сказанного я бы подумал на предмет временного вырезания всего, что может быть вырезано из программы, с контролем стабильности с каждым "урезанием". Смысл заключается в том, чтобы сузить зону поиска до минимума. Почти уверен, что часть прерываний можно запретить, некоторые куски кода выкинуть и т.п. Сообщение отредактировал Шаманъ - Feb 9 2017, 07:55

Genadi Zawidowsk... Genadi Zawidowski Просмотр профиля	Feb 9 2017, 08:12 Сообщение #7
Профессионал Группа: Участник Сообщений: 1 620 Регистрация: 22-06-07 Из: Санкт-Петербург, Россия Пользователь №: 28 634	Цитата(Gehar @ Feb 8 2017, 15:36) в наиболее важные системные регистры процессора (во всяком случае отладчик не зарегистрировал обращений по этим регистрам перед зависанием): DDR Memory Controller, L2 Cache Controller, System Level Control Registers (slcr). Остальные (кроме перечисленных) тоже важные... Весь набор CP15 например, GICC_PMR тоже не последнюю роль играет.

Gehar Просмотр профиля	Feb 10 2017, 05:40 Сообщение #8
Группа: Новичок Сообщений: 2 Регистрация: 6-08-12 Пользователь №: 73 031	Цитата(jcxz @ Feb 8 2017, 21:20) Вот в этом есть сомнения. Если нет функции обратной трассировки в отладчике/МК (типа ETB) можно попробовать эмулировать какое-то её подобие. Я уже описывал здесь на форуме как: Запустить высокочастотное периодическое прерывание и в его ISR записывать состояния процессора (регистры, несколько слов стека) в кольцевой буфер. Если частота прерывания достаточно высока, то так можно получить точки записи через каждые неск. команд и локализовать место. И полезно поставить ловушки на все исключения процессора. Да и MMU поди есть в МК? А значит надо с его помощью разрешить доступ только в нужные регионы памяти. Остальные - на исключение и ловушку. То, что программа что-то куда-то пишет, но не туда, куда надо, в этом сомнений почти нет. Возможно в какой-нибудь жизненно-важный регистр, там этих регистров... Устройств только несколько десятков (Zynq 7000), а общее число регистров под 1000... А мысль про высокочастотное прерывание интересна. Цитата(mantech @ Feb 9 2017, 01:41) Это взаимодействие проверяли? ФПГА связано с шинами проца, может что выставляет туда "нехорошее". Можно попробовать пока его отключить и сэмулировать функционал программно... И второе, линукс, который на первом ядре, точно не вносит в работу никаких особенностей, может проверить пока без него? Взаимодействие с FPGA в какой-то степени проверяли, полностью исключить пока нельзя, но не думаю, что она. FPGA в этом приборе работает только на чтение памяти, и это чтение отключали, не помогло. Linux вчера пробовал отключить: полностью исключить его работу сложно, он выполняет функции связи с внешним миром, но после получения всех нужных параметров программа на cpu1 отключала тактовую частоту и подавала сигнал сброса на ядро с Linux, после чего Linux переставал существовать, а cpu1 спустя 10 секунд завис. Цитата(Genadi Zawidowski @ Feb 9 2017, 15:12) Остальные (кроме перечисленных) тоже важные... Весь набор CP15 например, GICC_PMR тоже не последнюю роль играет. CP15 проверить не догадался. Только что проверил "по-быстрому": запретил изменять "Некоторые регистры GIC и CP15" (так написано в документации), процессор завис в положенный момент времени. Сообщение отредактировал Gehar - Feb 10 2017, 05:20

Genadi Zawidowsk... Genadi Zawidowski Просмотр профиля	Feb 10 2017, 07:39 Сообщение #9
Профессионал Группа: Участник Сообщений: 1 620 Регистрация: 22-06-07 Из: Санкт-Петербург, Россия Пользователь №: 28 634	Выдать сигнатуры... ВСЕ обработчики существуют? В них не остаемся? Их там не много, штук пять... Remap таблицы векторов случайно не включен (или включен не туда, где таблица векторов стоит)?

jcxz Просмотр профиля	Feb 10 2017, 13:44 Сообщение #10
Гуру Группа: Свой Сообщений: 5 228 Регистрация: 3-07-08 Из: Омск Пользователь №: 38 713	Цитата(Gehar @ Feb 10 2017, 07:40) То, что программа что-то куда-то пишет, но не туда, куда надо, в этом сомнений почти нет. Возможно в какой-нибудь жизненно-важный регистр, там этих регистров. Кто же Вам мешает это место найти используя защиту памяти?

Jury093 Просмотр профиля	Feb 10 2017, 15:00 Сообщение #11
Знающий Группа: Участник Сообщений: 959 Регистрация: 11-01-06 Из: Санкт-Петербург Пользователь №: 13 050	Цитата(Gehar @ Feb 8 2017, 15:36) Сегодня появилась мысль попробовать аппаратный трассировщик, может быть с его помощью удастся зарегистрировать что происходит с системой перед смертью? Только его пока у нас нет, нужно покупать... И какой брать тоже не известно пока, у нас никто с ними не сталкивался. 1. чип случайно не перегревается? 2. наколенный старинный вариант - вывести из камня либо а-ля SPI, либо паралельный регистр со светодиодами, а в корке для CPU1 дописать вывод в этот "отладочный интерфейс" например Program Counter или что там занимается адресами.. проц повис и по светикам можно понять примерный адрес.. 2.1 мутированный вариант 2, но без паяльника, организовать регистровый вывод в сторону CPU0 и читать содержимое средствами линукса 3. хлопотный вариант - обкусить CPU1 до минимума (базового функционала) и довешивая куски кода, найти проблемную ветку..

Genadi Zawidowsk... Genadi Zawidowski Просмотр профиля	Feb 16 2017, 16:12 Сообщение #12
Профессионал Группа: Участник Сообщений: 1 620 Регистрация: 22-06-07 Из: Санкт-Петербург, Россия Пользователь №: 28 634	Ни вскриков, ни стонов...

Forger Просмотр профиля	Feb 17 2017, 07:11 Сообщение #13
Профессионал Группа: Свой Сообщений: 1 215 Регистрация: 22-02-05 Пользователь №: 2 831	Цитата(Jury093 @ Feb 10 2017, 18:00) 2. наколенный старинный вариант - вывести из камня либо а-ля SPI, либо паралельный регистр со светодиодами, а в корке для CPU1 дописать вывод в этот "отладочный интерфейс" например Program Counter или что там занимается адресами.. проц повис и по светикам можно понять примерный адрес.. Существуют более изящные и функциональные готовые решения, например это: https://www.segger.com/systemview.html Нужен тока JTAG на плате и любой не древний j-link -------------------- Кругозор некоторых людей - круг с нулевым радиусом. Они называют его "точкой зрения".

« Предыдущая тема · ARM · Следующая тема »

Reply to this topic

Start new topic

1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)

Пользователей: 0

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Текстовая версия

Сейчас: 22nd August 2025 - 00:04

Страница сгенерированна за 0.01474 секунд с 7
ELECTRONIX ©2004-2016