Хочу представить вашему вниманию очень интересную статью
Взято отсюда - http://lex-kravetski.livejournal.com/245038.html
Рассмотрим простейшую и, можно сказать, классическую задачу по теории вероятностей. Имеется у нас в наличии кубик, вероятность выпадения любой пронумерованной грани на нём — 1/6. На данный момент мы абстрагируемся от проверки, действительно ли это так, и предполагаем, что проверка проведена — действительно выпадение каждой из граней равновероятно. Теперь вопрос, какова вероятность того, что за шесть бросков хотя бы один раз мы выкинем шестёрку?
Интуиция даёт ложный ответ: вероятность — единица. И понять ложность этого ответа довольно легко: достаточно представить, что мы кинули кубик не шесть, а семь раз — в этом случае наш метод подсчёта вероятности путём их простого суммирования даст 7/6, что противоречит определению вероятности (вероятность — это число от нуля до единицы включительно).
В вопросах вероятности и статистики процент таких вот «ложных срабатываний» аномально высок на фоне других, даже сложных областей науки. Ведь там по крайней мере человек интуитивно предполагает, что ответ ему неизвестен, в случае же с вероятностью иллюзия иная: мнимое знание верного ответа.
Как правильно решается эта задача? Для начала дадим краткое определение вероятности.
Вероятность — это отношение количества интересующих нас исходов к общему количеству возможных. То есть, выбрав некоторое подмножество элементов множества, подсчитав их и поделив результат подсчёта на общее количество элементов основного множества, мы узнаем вероятность появления выбранных нами элементов.
Тут возникает первый нюанс: в упрощённом определении предполагается, что каждый элемент множества при случайном их выборе будет встречаться одинаково часто. Чтобы как-то исправить ситуацию, мы можем, например, считать более часто выбираемые элемент не одним элементом, а несколькими — пропорционально частоте их появления к некоторой «эталонной» (той, которую мы примем за единицу).
Но в любом случае, вероятность — это характеристика не явления, а нашей модели явления. Это надо хорошо помнить. Некоторый подсчёт вероятности осмысленен только в том случае, когда мы выведенную из модели вероятность, проверили некоторой серией экспериментов, собрав на них статистику. В случае совпадения (в пределах допустимой для нас точности) статистики экспериментов и выведенной нами модельной вероятности, мы можем говорить о правильном построении модели.
Отсюда следует, что часто используемое рассуждение вида «событие было невероятно, но произошло» ошибочно по построению. Если событие происходит чаще, чем о то обещает говорит вычисленная нами вероятность, то это не «чудо произошло», а мы вероятностную модель неправильно построили.
Другая распространённая ошибка — делать выводы о «чудесном» по однократно произошедшему «невероятному» событию. Хотя бы потому, что вероятность уже наступившего события по определению равна единице.
Правильно построенная и проверенная статистикой вероятностная модель говорит нам о том, как часто будет встречаться интересующий нас исход при количестве экспериментов, стремящихся к бесконечности. Это — тоже важно, однако мы воспользуемся этим нюансом позже.
А пока всё-таки решим задачу.
Рассмотрим сначала не шесть бросков кубиков, а два. Поскольку исходы равновероятны и броски кубиков не связаны, мы можем вычислить общее количество исходов. Их 6 * 6 = 36 (то есть, любое число на первом кубике может выпасть вместе с любым числом на втором). Благоприятными для нас исходами будет выпадение шестёрки на одном или на двух кубиках. То есть шестёрка плюс числа от одного до пяти на первом кубике (5 исходов), то же самое на втором (ещё пять исходов) и две шестёрки одновременно (1 исход). Итого 11.
Вероятность, таким образом, равна 11/36, что уже отличается от подсказываемой интуицией (1/6 + 1/6 = 2/6 = 12/36). И это правильно: нельзя просто так вот суммировать вероятности.
Рассмотрим однако вероятность противоположного исхода — ни одна из шестёрок не выпала. Она, очевидно, равна разности единицы и вычисленной нами вероятности выпадения как минимум одной шестёрки (поскольку эти два подмножества как раз и составляют полное множество вариантов, следовательно их суммарная вероятность должна равняться единице).
1 - 11/36 = 25/36
Число сразу наводит на подозрения — и в числителе и в знаменателе стоят квадраты натуральных чисел. То есть, это (5/6)2. Почему так?
Это так потому, что расчитанная нами вероятность (невыпадения шестёрки за два эксперимента) действительно равна произведению вероятностей невыпадения шестёрки в каждом из них. Это следует из определения условной вероятности, которое однако мы сейчас разбирать не будем. Просто запомним, что вероятность наступления события A и события B при независимости этих событий равна произведению вероятностей наступления этих событий. Вероятность же невыпадения шестёрки равна количеству нешестёрок на кубике, делённой на количество цифр на нём. То есть, 5/6.
Продолжив ряд произведений вероятностей невыпадения шестёрки до интересующих нас шести бросков, мы получим результат:
5/6 * 5/6 * 5/6 * 5/6 * 5/6 * 5/6 = (5/6)6
Мы теперь знаем, с какой вероятностью шестёрка не выпадет ни разу за шесть бросков. Соответственно, выпадет она хоть раз с вероятностью:
1 - (5/6)6
Приведённые рассуждения позволяют нам вычислить и более общий случай: вероятность выпадения шестёрки хотя бы один за n бросков. Она равна:
1 - (5/6)n (назовём это соотношение «формула 1»)
Ну и до кучи вероятность появления одного из m объектов множества за n попыток:
1 - ((m-1)/m)n
Легко видеть, что зависимость у нас — степенная по отношению к количеству попыток. То есть, в течении первых нескольких попыток вероятность довольно быстро приближается к единице, после чего асимптотически к ней стремится, находясь всё время в непосредственной от неё близости.
Для одного броска кубика, вероятность, как мы помним, 1/6 ≈ 0.17. Для трёх — 0.42. Для шести — 0.67 и так далее.
Какой смысл этих чисел? Смысл их в том, что если мы проведём очень много экспериментов, заключающихся в n-кратном броске кубика (назовём это «серия»), то пропорция тех серий, в которых шестёрка встретилась хотя бы один раз, в отношении к общему количеству серий, будет примерно равна вычисленной нами в «формуле 1» вероятности.
То есть, для серий в шесть бросков, примерно в 67% случаев мы будем получать серию с как минимум одной шестёркой в ней. Причём, в 42% серий шестёрка будет встречаться в числе первых трёх бросков.
И вот на этом-то месте и начинаются рассогласования с интуицией. В наиболее примитивном случае человек ожидает, что шестёрка выпадет на шестой раз, поэтому ему кажется «чудесного везения» выпадение шестёрки на первых трёх бросках. Хотя, как мы уже знаем, 42% попыток будут давать именно такой результат.
Чуть более продвинутый гражданин уверен, что за три броска шестёрка должна выпадать в каждом втором случае (ну раз уж ему кажется, что за шесть бросков вероятность равна единице, то за три броска — наверняка будет одна вторая). Попытавшись считать количество успехов, он с удивлением обнаружит несколько более скромный результат (42% вместо пятидесяти), что, не исключено, отнесёт к «хроническому невезению».
Ещё более интересны подсказываемые интуицией случаи «чудесного везения», когда шестёрка выпадает несколько раз за одну серию. Тут человек обретает веру в свою «лёгкую руку», хотя данный результат — лишь случайное отклонение, вызванное малым количеством экспериментов.
Аналогичный предыдущему, но с обратным знаком, случай — невыпадение шестёрки за шесть бросков. Интуиция-то подсказывает, что за шесть бросков шестёрка уж точно должна выпасть. А она не выпадает — это непер. Причём, непер весьма вероятный: треть серий из шести бросков именно такими и будет — без единой шестёрки. Встреться они три раза подряд (а именно так и получится примерно в 4% случаев) и у несведущих появится повод для объявления себя неудачником.
Причём, всё это — только случаи неправильного вычисления вероятности. Куда более серьёзной является разница в «запоминаемости» исходов.
Человек учится на своих ошибках. И на своих успехах тоже. На некотором этапе обучения ошибок куда как больше, нежели успехов. Однако в такой ситуации успех должен куда сильнее быть отпечатан в сознании, нежели ошибки. Из-за этого, чисто эволюционного явления, люди имеют склонность лучше запоминать тот результат, который они хотели получить. То есть, в длинной серии из большой части неудачных бросков (ошибок) и малой части удачных (успехов) лучше запоминаться будут именно удачные. То есть, человеку будет казаться, что они были аномально часто. Особенно ярко это проявляется при непонимании понятия «вероятность» и, соответственно, неправильной (часто интуитивной) её оценке.
Практически все случаи «ясновидения» базируются именно на вот таком вот принципе (остальные являются просто грамотно или не очень грамотно поставленными фокусами).
Как-то раз я был свидетелем «телепатического эксперимента». Один человек из группы становился к ней спиной, другой участник поднимал левую и правую руку, первый должен был «прочесть мысли» группы, которая в этот момент усиленно «думала о правильной руке», и повторить подъём. После этого первого человека сменяли на другого и праздник продолжался.
Легко догадаться, что вероятность угадывания — одна вторая. Поэтому я сразу спросил, сколько экспериментов ориентировочно планируется провести, и написал на бумажке чисто вероятностное количество угадываний, вместе с доверительным интервалом. После чего принялся считать количество совпадений и количество экспериментов. Само собой, угадал — написанное мной на бумажке число совпало с расхождением на единицу. То есть, моя магия, ха-ха, оказалось сильнее.
Количество угадываний, ясное дело, составляло примерно половину экспериментов, то есть, являлось результатом чисто случайного процесса. Но самое интересное: ни один из участников эксперимента в это не поверил. Всем казалось, что угадывали значительно чаще, нежели ошибались. Ещё бы — совпадение с тем, что ты в данный момент усиленно думаешь, куда как ярче воспринимается, чем «досадная ошибка». Вдобавок экспериментаторы болеют за текущего «телепата», что ещё сильнее усугубляет перекос впечатлений.
«Ясновидящий», например, для своих пророчеств выбирает явление, которое происходит с давно уже подмеченной регулярностью. Например, аварии самолётов. Узнав, сколько самолётов в год терпит аварию, оный «пророк» подбирает частоту оглашения своих пророчеств так, чтобы она несильно отличалась от известной ему частоты. Само собой, авария, по времени примерно совпадающая с написанной в пророчестве, воспринимается обществом, как результат прозрения. СМИ этот эффект подогревают. Если каким-то чудом ясновидящий промазал слишком сильно (аварии ведь не через равные промежутки времени бывают), то результат просто замалчивается. Никакой рекламы, никакого вспланетного осуждения, ничего. Одно только «всем свойственно ошибаться» и «метод, конечно, не абсолютно точный, ведь свобода воли, все дела». В результате складывается иллюзия аномально высокого процента угадываний на фоне их априорной вероятности. Хотя всё «ясновидческое пророчество», собственно, уже содержалось в статистике аварий. «Пророк» привнёс одну только рекламу. Которая на почве безграмотности граждан дала неплохой урожай.
Однако тут описан слишком сложный случай. Обычно всё делается ещё более топорно. Берётся целое множество событий, каждое из которых не особо вероятно, но в совокупности вероятность их весьма высокая. Составляется «пророчество», которое настолько расплывчато, что под него можно притянуть любое событие из выбранного множества, после чего «пророчество» оглашается. Понятно, что если не с первой попытки, то с третьей, «всё сбудется». При мнимой маловероятности конкретной реализации же гражданам кажется, что «это не может быть случайной догадкой». Хотя предсказывалось-то не одно только это событие, а довольно большой их класс. Вероятность реализации одного события из которого совсем даже не мала.
Имеет место быть и «бытовое ясновидение». Основанное, во-первых, на описанных выше неверных оценках вероятности угадать, во-вторых, на разном эмоциональном эффекте от успеха или ошибки, и, в-третьих, что самое главное, на крайне большом количестве экспериментов. Оный «эксперимент» ставят миллиарды людей ежедневно и повторяют их на следующий день. И на следующий. И так далее. При таком наплыве экспериментаторов, даже крайне маловероятное, но возможное событие, хоть кто-то, да предскажет. Из чего, конечно, потом раздувается сенсация локальных, а то и глобальных масштабов.
Как правильно всё это оценивать? Вопрос непростой, но мы на него уже частично ответили. Осталось добавить только одно: способ построения вероятностной модели.
В случае с кубиком априорных знаний нам вполне хватает, чтобы построить вероятностную модель без сбора предварительной статистики. Но такие случаи бывают крайне редко. Обычно детали процесса не известны или известны не целиком. Либо же деталей настолько много, что мы не в состоянии учитывать их все. Собственно, именно для этого все эти вероятностные методы и вводятся: для описания систем, в которых мы видим закономерности, но не в состоянии отследить их на детерминистическом уровне. Если не в состоянии, то хотя бы как-то отследим. Например, вычислим частоту, с которой это явление происходит.
Итак, для начала мы делаем продолжительные наблюдения за явлением, считая при этом количество удачных исходов и общее количество исходов. При достаточно длинной статистике и при наличии, скажем так, некоторой на ней равномерности по отношению к явлению, мы можем принять за вероятность данного явления статистически посчитанную его частоту.
Принятую таким образом вероятность мы проверяем на новых, не учтённых в статистике, по которой строилась вероятность, экспериментах. Если и на них частота благоприятных исходов (X) оказалась достаточно близкой к вероятности, мы считаем вероятность подтверждённой.
Надо понимать, что такое подтверждение — условно. Если вдруг нам массово начнут встречаться достаточно длинные серии экспериментов, на которых частота исхода отличается, то вероятность наша, значит, не годится для их описания. Надо, значит, снова исследовать. Именно исследовать, а не орать на всех углах о чуде.
Пророк, таким образом, только тогда пророк, когда делает серии прогнозов, частота успеха (то есть, правильного предсказания исхода X) на которых отличается от нами подсчитанной вероятности более чем на доверительный интервал в лучшую сторону. Только в таком случае можно утверждать, что его догадки не случайны. В ином случае столь же часто будет догадываться любой, всегда называющий исход X в качестве прогноза. А в ряде случаев — любой, кто делает прогноз случайным образом. Если повышенная частота правильных прогнозов в предсказаниях «пророка» не наблюдается, имеет место быть иллюзия или мошенничество.
Далее. Ни в коем случае нельзя давать оценку частоты успехов без тщательного их фиксирования и последующего подсчёта — психологические факторы и интуиция почти наверняка вас обманут при оценках «навскидку по памяти».
Нельзя делать выводы по короткой серии пар прогноз исхода / реальный исход, даже если на ней успехов очень много — такой результат весьма вероятен даже при абсолютно произвольных прогнозах, при упорном же повторении наиболее вероятного прогноза вероятность короткой серии успехов ещё выше. Тем более, нельзя ориентироваться по единственному успеху.
Статистика начинается с двух экспериментов.
Для любых оценок в обязательном порядке следует считать не только вероятность каждого события множества, но и вероятность успешного предсказания одного из них за первую же попытку и за серию попыток.
Хотя всё это чревато полной утратой веры в чудеса. Не даром «ясновидцы» и «телепаты» так не любят учёных, причём, даже тех, которые изо всех инструментов приносят с собой только ручку и бумажку. Карма учёного, сограждане, она очень, очень сильно вредит всему паранормальному. Буквально-таки на нет его сводит.