Спортивный анализ с Pandas

Спортивный анализ с Pandas

Автор: Костя Афонин
Дата публикации: 05.27.2021
Рейтинг автора: 4.7/5

Как рассчитать коэффициент на футбольный матч? Это проще, чем вы думаете. Навыки кодирования не требуются!

6 апр.2020 г. · читается 6 мин.

Вы когда-нибудь задумывались, как рассчитываются шансы на футбольные матчи? На чем основаны эти шансы 2,2 против 3,1? Я ожидал сложной процедуры, но, к моему удивлению, вероятности и шансы можно вычислить без написания кода. Я использую панды в приведенных ниже примерах, потому что я хорошо разбираюсь в них, но вы можете сделать то же самое в Excel или даже с помощью калькулятора.

Вот несколько ссылок, которые могут вас заинтересовать:

Некоторые из приведенных выше ссылок являются партнерскими ссылками, и если вы перейдете по ним, чтобы совершить покупку, я получу комиссию. Имейте в виду, что я связываю курсы из-за их качества, а не из-за комиссии, которую я получаю с ваших покупок.

Я много пишу об анализе данных с помощью pandas. Взгляните на мою серию панд:

Серия анализа данных Pandas

Кураторский список статей о пандах из Советы и уловки, Как НЕ руководствоваться советами, связанными с анализом больших данных.

Как рассчитать вероятности?

Вероятность определенного количества голов рассчитывается с помощью распределения Пуассона, названного в честь французского математика Симеона Дени Пуассона.

Распределение Пуассона - это дискретное распределение вероятностей, которое выражает вероятность того, что заданное количество событий произойдет в фиксированный интервал времени, если эти события происходят с известной постоянной средней скоростью и независимо от времени, прошедшего с последнего события зеркало 1win россия.

Давайте переведем это на язык непрофессионала. Дискретное распределение вероятностей дает вероятности от 0 до 1 для дискретных событий, таких как количество голов в примере с футболом. Футбольный матч имеет фиксированный временной интервал (90 минут игры), и голы забиваются с известной постоянной средней скоростью (мы можем вычислить ожидаемое количество голов). Цель также не зависит от предыдущей цели.

На изображении ниже представлена ​​функция массы вероятности (PMF) для распределения Пуассона, которая показывает вероятности событий с 1, 5 и 10 ожидаемым числом появлений. Говоря упрощенно, футбольная команда, которая в среднем забивает 1 гол, имеет:

  • 36% вероятность не гола,
  • 36% вероятность 1 гола,
  • 18% вероятность забить 2 гола и т. Д.

Эль Класико - Кто должен победить?

Давайте посчитаем вероятности потенциального матча между извечными соперниками «Барселона» и «Реал Мадрид». Игра будет проводиться на Сантьяго Бернабеу, а это значит, что Реал Мадрид будет играть дома.

Прежде чем мы сможем использовать распределение Пуассона для оценки вероятностей, нам нужно рассчитать ожидаемое количество голов, которые каждая команда может забить в матче.

Ожидаемое количество голов, которые может забить каждая команда, рассчитывается путем определения силы атаки и защиты команды.

Я составил набор данных из данных онлайн-статистики испанской Ла Лиги за сезон 2019/2020. Есть два набора данных, один для домашних и один для выездных матчей, где:

  • P - количество сыгранных игр,
  • GF - количество забитых мячей,
  • GA - количество пропущенных голов.

Сила атаки

На первом этапе расчета силы атаки мы вычисляем среднее количество голов домашних и гостевых команд в лиге. Это общее количество забитых голов, разделенное на общее количество матчей на своем поле и на выезде.

Среднее количество голов, забитых дома: 1,50.

Среднее количество забитых мячей на выезде: 1,02.

На втором этапе нам нужно определить, насколько сильна сила атаки команды. Мы вычисляем среднее количество голов, забитых командой, и делим его на среднее количество голов за сезон.

Помните, что матч состоится на Сантьяго Бернабеу, поэтому «Реал» играет дома, а «Барселона» - на выезде. «Реал» забил 27 голов и провел 13 домашних матчей. Сила атаки для Реала - 1,37.

«Барса» забила 18 голов и провела 13 выездных матчей, так что сила атаки 1,34.

Сила защиты

Сила атаки фокусируется на забитых голах, а сила защиты - на пропущенных. Средние значения просто инвертируются из приведенной выше силы атаки:

Среднее количество пропущенных голов: 1,02.

Среднее количество пропущенных мячей на выезде: 1,50.

Соперники смогли забить 9 голов «Реалу» в 13 домашних матчах. Сила защиты дома «Реала» составляет 0,67, а сила защиты «Барсы» на выезде - 0,96.

Сколько голов может забить Реал Мадрид?

Сложив это число, мы можем рассчитать ожидаемое количество голов за «Реал Мадрид». Мы просто умножаем силу атаки «Реала» на поле с силой защиты «Барсы» на выезде со средним количеством голов при игре дома в ЛаЛиге.

Ожидается, что «Реал Мадрид» забьет 2,01 гола.

Сколько голов Барселона может забить?

Используя ту же процедуру, что и выше, только поменяйте дом на «Нет». Мы умножаем силу атаки «Барсы» на выезде на силу обороны «Реала» со средним количеством голов при игре на выезде в ЛаЛиге.

Ожидается, что «Барселона» забьет 0,93 гола.

Использование распределения Пуассона для прогнозирования результатов

Вы можете использовать онлайн-калькулятор для распределения Пуассона, чтобы определить вероятность события. Установите для Барсы среднюю частоту встречаемости 0,93 гола, затем установите количество повторов от 0 до 5. Я использовал панд для расчета вероятностей для нескольких исходов.

В таблице ниже показано, что у «Реала» шанс забить 2 гола составляет 26%.

Вероятности в приведенной выше таблице независимы, что означает, что мы можем умножить их и вычислить вероятности нескольких исходов. В строках указаны голы для Реала, а в столбцах - для Барсы. Результат 2: 0 для Реала имеет шанс 10%.

Чтобы рассчитать шансы, нам нужно рассчитать каждый исход с ничьей (0: 0, 1: 1 и т. Д.), И они суммируют эти вероятности. Шансы на ничью просты:

Чтобы рассчитать шансы на победу Реала, мы повторяем процесс для каждого исхода, в котором выигрывает Реал (1: 0, 2: 0 и т. Д.), И то же самое для Барсы.

Окончательные шансы:

  • Реальные победы: 1,6
  • Ничья: 4.85
  • Победы Барсы: 6,14

Обратите внимание, что эти коэффициенты указаны без букмекерской маржи.

Перед тем, как ты уйдешь

Следуйте за мной в Twitter, где я регулярно пишу твиты о Data Science и Machine Learning.

Популярные слоты