|
Стат. обработка экспериментальных данных |
|
|
|
Jan 18 2007, 19:29
|
Участник

Группа: Участник
Сообщений: 34
Регистрация: 2-10-05
Пользователь №: 9 146

|
Никогда не занимался стат. обработкой экспериментальных данных. Требуется помощь клуба  Имется гауссовый (предположительно) канал передачи данных с неизвестными параметрами (данные - битовый поток). Параметры канала (в отсутствии сигнала) вычисляются при помощи статистической обработки отсчетов шума. Предположим шум в канале имеет нормальное распределение и стационарен (вопрос пока не в этом). Передаваемый через канал сигнал обрабатывается декодером, подключенным к выходу линейного тракта приемника и статистически обрабатывается. Всего предано во время эксперимента 10e+8 бит данных. Вероятность битовой ошибки составляет 10e-5. Необходимо получить 10е-14. Как вариант - воспользоваться помехозащищенным кодированием. Вопрос вот в чем. 10е-5 - это точечная оценка вероятности битовой ошибки с доверительным интервалом при мере значимости 0.95 [1.043070e-05 9.587083e-06] на статистики 10e+8. Применив кодирование, я начинаю оценивать вероятности 10е-14 (с такой вероятностью будут появляться не обнаруживаемые кодом комбинации), но на той же статистике (10е+8) при точечной оценки вероятности буду иметь доверительный интервал порядка [1.778455e-08, 5.622858e-21]. Доверительный интервал считался через гауссовый интеграл. Это означает, что мне катострофически не хватает статистики? Вообще интересен следующий вопрос. Насколько состоятельно рассуждать о событиях с вероятностями 10е-14 по собранной статистики 10е+8 при идеальном нормальном источнике шума с неизвестными параметрами?
|
|
|
|
|
Jan 19 2007, 10:43
|
Местный
  
Группа: Свой
Сообщений: 375
Регистрация: 8-11-05
Пользователь №: 10 593

|
Цитата(emark @ Jan 18 2007, 19:29)  Насколько состоятельно рассуждать о событиях с вероятностями 10е-14 по собранной статистики 10е+8 при идеальном нормальном источнике шума с неизвестными параметрами? Вообще не состоятельно. Вероятность события 10е-14 очень маленькая и на выборке в 10е+8 испытаний это событие может вообще не произойти. Если же произойдет одно событие, то его вероятность будет рассчитана как 10е-8. Если размер 10е+8 для Вас критичен, то увеличивайте количество реализаций такой длины и выполняйте стат. обработку по ансамблю реализаций.
|
|
|
|
|
Jan 19 2007, 10:58
|
Местный
  
Группа: Свой
Сообщений: 375
Регистрация: 8-11-05
Пользователь №: 10 593

|
Цитата(Tanya @ Jan 19 2007, 10:51)  Трудно с Вами согласится. Вот возьмем монетку и бросим 1000 раз. После этого нетрудно посчитать вероятность того, что подряд выпадет 10^10 орлов. При подбрасывании монетки возможно два исхода - выпадение орла или решки. Перед экспериментом делается предположение, что вероятность выпадения орла - 1/2. По 1000 событий можно оценить вероятность выпадения орла. Ессно, с некоторым дов.интервалом. Чтобы уменьшить этот интервал монетку подбрасывали 42 тыс. раз (где-то читал). По этой оценке вероятности выпадения орла можно рассчитать оценку выпадения 10^10 орлов подряд, возведя вероятность в соответствующую степень. Автор темы ставит обратную задачу - как проверить по одной реализации предположение о вероятности возникновения события. При той длине реализации, которую задал автор, можно проверить только события, вероятности которых много больше 10e-8. Причину я указал выше.
|
|
|
|
|
Jan 20 2007, 11:12
|
Участник

Группа: Участник
Сообщений: 34
Регистрация: 2-10-05
Пользователь №: 9 146

|
Цитата(NickNich @ Jan 19 2007, 12:43)  Вообще не состоятельно. Вероятность события 10е-14 очень маленькая и на выборке в 10е+8 испытаний это событие может вообще не произойти. Если же произойдет одно событие, то его вероятность будет рассчитана как 10е-8. Если размер 10е+8 для Вас критичен, то увеличивайте количество реализаций такой длины и выполняйте стат. обработку по ансамблю реализаций. Дело в том, что при имеющихся ресурсах на это потребуется 300 лет Мне нужно обосновать выделение дополнительных (дорогих) ресурсов.
|
|
|
|
|
Jan 20 2007, 11:49
|
Участник

Группа: Участник
Сообщений: 34
Регистрация: 2-10-05
Пользователь №: 9 146

|
Цитата(NickNich @ Jan 19 2007, 12:58)  При подбрасывании монетки возможно два исхода - выпадение орла или решки. Перед экспериментом делается предположение, что вероятность выпадения орла - 1/2. По 1000 событий можно оценить вероятность выпадения орла. Ессно, с некоторым дов.интервалом. Чтобы уменьшить этот интервал монетку подбрасывали 42 тыс. раз (где-то читал). По этой оценке вероятности выпадения орла можно рассчитать оценку выпадения 10^10 орлов подряд, возведя вероятность в соответствующую степень.
Автор темы ставит обратную задачу - как проверить по одной реализации предположение о вероятности возникновения события. При той длине реализации, которую задал автор, можно проверить только события, вероятности которых много больше 10e-8. Причину я указал выше. Мне кажется, как раз легко сводится к моей задаче. Пусть монета слегка кривовата. Форму распределения плотности вероятности мы знаем, не знаем только параметр учитывающия кривизну монеты (как у меня гаусс с неизвестными параметрами). Набираем статистику 10е+3, получаем некий результат, предположим 0.499, находим доверительный интервал - [5.299342e-01, 4.680735e-01] (И.Н.Бронштейн, К.А. Семедяев, "Справочник по математике" М.: Наука,1986,- 544 с., стр.459, 5.2.2.3.1 Доверительная оценка неизвестной вероятности по большим выборкам.) Терерь сделаем точечную оценку вероятности выпадения 10^2 орлов подряд - 6.457354e-31 Находим доверительный интервал на статистике 10е+3 - [3.826758e-03, 1.085458e-58] Оппа...
|
|
|
|
|
Jan 22 2007, 09:49
|
Местный
  
Группа: Свой
Сообщений: 375
Регистрация: 8-11-05
Пользователь №: 10 593

|
Цитата(emark @ Jan 20 2007, 11:12)  Дело в том, что при имеющихся ресурсах на это потребуется 300 лет Чудес не бывает. В текущей реальности не существует хитрого алгоритма, позволяющего рассчитать вероятность редкого события по единственной реализации этого события.
|
|
|
|
|
Jan 22 2007, 10:03
|
Местный
  
Группа: Свой
Сообщений: 375
Регистрация: 8-11-05
Пользователь №: 10 593

|
Цитата(emark @ Jan 20 2007, 11:49)  Мне кажется, как раз легко сводится к моей задаче. Как раз к Вашей задаче это отношения не имеет. Точнее, имеет отношение с точностью до наоборот. Вероятность события, состоящего в отсутствии выпадения орла в 1000 бросаний (т.е. выпадает только решка) равна 0.5^1000. Т.е. это практически невозможное событие. Вероятность того, что ошибка (с вероятностью появления p=10^-14) не реализуется внутри последовательности длиной N=10^8 равна (1-p)^N~1-Np=0,999999. Т.е. Вы практически всегда будете получать отсутствие ошибки внутри реализации длиной N=10^8. Глава книжки, которую Вы процитировали содержит слова "по большим выборкам". Вот для случая с монеткой выборка в 1000 испытаний - большая, а для случай с ошибкой в канале связи выборка в 10^8 испытаний не просто маленькая. Она ваще никакая... Цитата(emark @ Jan 20 2007, 11:49)  Находим доверительный интервал на статистике 10е+3 - [3.826758e-03, 1.085458e-58] Оппа... Это бывает. Если Вы получили точечную оценку и доверительный инетрвал для какой-то реализации, то в соответствующую степень нужно возводить уже полученные границы инетрвала, а не считать их снова.
|
|
|
|
|
Jan 22 2007, 12:37
|
Участник

Группа: Участник
Сообщений: 34
Регистрация: 2-10-05
Пользователь №: 9 146

|
Цитата(NickNich @ Jan 22 2007, 12:03)  Цитата(emark @ Jan 20 2007, 11:49)  Находим доверительный интервал на статистике 10е+3 - [3.826758e-03, 1.085458e-58] Оппа...
Это бывает. Если Вы получили точечную оценку и доверительный инетрвал для какой-то реализации, то в соответствующую степень нужно возводить уже полученные границы инетрвала, а не считать их снова. Не понял.... что на что умножать (возводить) в моем случае? Мне-то кажется вполне закономерно, что нижняя граница доверительного интервала (3.826758e-03) соотносится с накопленной статистикой. Вобщем-то, это подтверждает ваши выводы о нехватке статистики. Цитата(NickNich @ Jan 22 2007, 11:49)  Цитата(emark @ Jan 20 2007, 11:12)  Дело в том, что при имеющихся ресурсах на это потребуется 300 лет
Чудес не бывает. В текущей реальности не существует хитрого алгоритма, позволяющего рассчитать вероятность редкого события по единственной реализации этого события. Даже, если известен вид распределения плотности вероятности (например гаусс с неизвестными параметрами)? Рассмотрим идеальный случай.
|
|
|
|
|
Jan 22 2007, 12:42
|
Местный
  
Группа: Свой
Сообщений: 375
Регистрация: 8-11-05
Пользователь №: 10 593

|
Цитата(emark @ Jan 22 2007, 12:33)  Не понял.... что на что умножать (возводить) в моем случае? Вы рассчитали доверительный интервал [5.299342e-01, 4.680735e-01] и точечную вероятность 0.499. Для того, чтобы определить в каких границах будет находиться вероятность выпадения 10^10 орлов подряд нужно возвести в степень 10^10 крайние значения доверительного интервала. В случае с каналом связи (именно этот случай - Ваш) ничего умножать или возводить в степень не нужно, не поможет. У Вас вероятность отсутствия ошибки внутри выборки примерно 0,999999 (см. выше). Все что можно в такой ситуации сделать - увеличить длину реализации или размерность ансамбля реализаций.
|
|
|
|
|
Jan 22 2007, 13:32
|
Участник

Группа: Участник
Сообщений: 34
Регистрация: 2-10-05
Пользователь №: 9 146

|
Цитата(NickNich @ Jan 22 2007, 14:42)  Цитата(emark @ Jan 22 2007, 12:33)  Не понял.... что на что умножать (возводить) в моем случае?
Вы рассчитали доверительный интервал [5.299342e-01, 4.680735e-01] и точечную вероятность 0.499. Для того, чтобы определить в каких границах будет находиться вероятность выпадения 10^10 орлов подряд нужно возвести в степень 10^10 крайние значения доверительного интервала. Получим вероятность значительно превышающую единицу (у вас скорее всего описка). Но если вернуться к слегка кривой монете и выпадении 100 орлов подряд я не вижу принципиальнных отличий от моего случая когда скажем рассматривается вероятность десятикратной подряд ошибки на моеей статистики (ведь возникновение ошибки - это тоже некое событие как и выпадение орла, только вероятность его 0.499, а 10е-5). И потом, т.е. вы утверждаете , что на выборке 1000 при эксперименте с кривой монетой уже достаточно статистики чтобы делать выводы об очень редких событиях (100 орлов подряд) со столь малым доверительным интервалом?
|
|
|
|
|
Jan 22 2007, 13:50
|
Местный
  
Группа: Свой
Сообщений: 375
Регистрация: 8-11-05
Пользователь №: 10 593

|
Цитата(emark @ Jan 22 2007, 13:32)  Получим вероятность значительно превышающую единицу (у вас скорее всего описка). Где именно? (5.299342e-01)^(10^10)>>>1 или (4.680735e-01)^(10^10)>>>1? Какое из этих утверждений Вы имели ввиду? Цитата(emark @ Jan 22 2007, 13:32)  я не вижу принципиальнных отличий от моего случая очень жаль, что Вы не видите. Выше я продемонстрировал принципиальные отличия в терминах вероятности появления события, вероятность которого определяется. Если это не понятно - тогда только учебник по основам теорвера... Цитата(emark @ Jan 22 2007, 13:32)  тоже некое событие как и выпадение орла, только вероятность его 0.499, а 10е-5 мы щас обсуждаем вероятности собятия порядка 10^-14, о которой Вы спрашивали в исходном сообщении Цитата(emark @ Jan 22 2007, 13:32)  И потом, т.е. вы утверждаете , что на выборке 1000 при эксперименте с кривой монетой уже достаточно статистики чтобы делать выводы об очень редких событиях (100 орлов подряд) со столь малым доверительным интервалом? Не правильно. Я утверждаю, что по выборке в 1000 отсчетов можно делать выводы об очень ЧАСТОМ событии (выпадении орла). После того, как выроятность выпадения орла в одном испытании получена (или получена интервальная оценка этой вероятности), то используя эту оценку можно расчитать вероятность выпадения произвольной комбинации орлов и решек. прадва, здесь нужно предполагать, что эти события (орел или решка) независимы. Но это тонкости, щас не существанные. В качестве упражнения. Рассчитать вероятность выпадения знака "4" на шестигранной игральной кости по единственному испытанию, если в этом испытании выпал знак "1"....
|
|
|
|
|
Jan 22 2007, 14:20
|
Участник

Группа: Участник
Сообщений: 34
Регистрация: 2-10-05
Пользователь №: 9 146

|
Цитата(NickNich @ Jan 22 2007, 15:50)  Где именно? (5.299342e-01)^(10^10)>>>1 или (4.680735e-01)^(10^10)>>>1? Какое из этих утверждений Вы имели ввиду? Прошу прощения, стормозил Все-таки еще попробую донести свою мысль. Имеем кривую монету. Событие "выпадение орла" - 10е-5, событие "выпадение решки" - (1- 10е-5) Имеем выход декодера. Событие "ошибочно принятый бит" - 10е-5, событие "правильно принятый бит" - (1- 10е-5). Все очень похоже. В обоих случаях статистика, ну... 10е-8 Теперь. Оцениваем вероятность события "выпадения 100 орлов подряд" - ..... Оцениваем вероятность события "100 ошибочных бит подряд" - ..... Все очень похоже. В чем отличия?
Сообщение отредактировал emark - Jan 22 2007, 14:22
|
|
|
|
|
Jan 22 2007, 14:52
|
Местный
  
Группа: Свой
Сообщений: 375
Регистрация: 8-11-05
Пользователь №: 10 593

|
Цитата(emark @ Jan 22 2007, 14:20)  В чем отличия? В такой постановке отличий никаких нет. Но изначально постановка задачи была другой. Монетка тут вообще случайно возникла, с подачи участника Tatiana. Вот в исходной постановке отличия есть и радикальные: для монеты выроятность выпадения орла 0,5. для канала выроятность ошибочно принять быт равна 10^-14. Первое раджикальное различие - вероятности рассматриваемых событий отличаются на пятнадцать порядков. Для монетки приводилась серия из 1000 испытаний. Скорее всего около половины из них состояли в выпадении орла. Для канала приводилось 10^8 испытаний. При заданной Вами вероятности скорее всего ни одно из них не содержит ошибочного бита. Т.е. для монетки выборка в 1000 испытаний - большая, дающая близкую к истинной оценку вероятности. Для канала c вероятностью ошибки 10^-14 выборка 10^8 маленькая и дает пенравильную оценку вероятности. Это второе радикальное отличие. И собсно, исходный вопрос - можно ли проверить вероятность 10^-14 (специально не пользуюсь термином состятельно, т.к. здесь этот термин имеет специальный смысл) по выборке длиной 10^8. Ответ - при таких условиях проверить вероятность нельзя. Как насчет задачки с игральной костью?
|
|
|
|
|
Jan 22 2007, 15:14
|
Участник

Группа: Участник
Сообщений: 34
Регистрация: 2-10-05
Пользователь №: 9 146

|
Цитата(NickNich @ Jan 22 2007, 16:52)  Цитата(emark @ Jan 22 2007, 14:20)  В чем отличия?
В такой постановке отличий никаких нет. Но изначально постановка задачи была другой. Монетка тут вообще случайно возникла, с подачи участника Tatiana. Вот в исходной постановке отличия есть и радикальные: для монеты выроятность выпадения орла 0,5. для канала выроятность ошибочно принять быт равна 10^-14. Первое раджикальное различие - вероятности рассматриваемых событий отличаются на пятнадцать порядков. Для монетки приводилась серия из 1000 испытаний. Скорее всего около половины из них состояли в выпадении орла. Для канала приводилось 10^8 испытаний. При заданной Вами вероятности скорее всего ни одно из них не содержит ошибочного бита. Т.е. для монетки выборка в 1000 испытаний - большая, дающая близкую к истинной оценку вероятности. Для канала c вероятностью ошибки 10^-14 выборка 10^8 маленькая и дает пенравильную оценку вероятности. Это второе радикальное отличие. И собсно, исходный вопрос - можно ли проверить вероятность 10^-14 (специально не пользуюсь термином состятельно, т.к. здесь этот термин имеет специальный смысл) по выборке длиной 10^8. Ответ - при таких условиях проверить вероятность нельзя. Как насчет задачки с игральной костью? В случае кости со смещенным центром тяжести - никак (может быть слишком сильное утверждение  . Теперь я понял в чем корень непонимания. Вы рассматриваете случайные события с четко известной плотностью распределения вероятности. Я же события (для упрощения) с известной формой (например гауссовой), но неизвестными переметрами. Обратите внимание, я и про монету рассуждал всегда кривую (форма распределения известна (допустим), а параметр "кривизны" - нет). Мне интересен именно этот случай. Как же с ним-то? Т.е. имеем источник гауссовых помех, имеем вероятность битовой ошибки - 1е-5, имеем статистику 10е+8. Нужно оценить вероятность 5 ошибок подряд и ее доверительный интервал.
|
|
|
|
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0
|
|
|