Investigadores utilizan un nuevo método de análisis de datos para simular el torneo 100 mil veces y definir al equipo con mayores probabilidades de ganarlo.
13/06/18 | Por Noticias TNE
El día de mañana termina la larga espera de cuatro años en el momento en que Rusia y Arabia Saudita den la patada inicial de la Copa del Mundo. Tratar de predecir quien será el campeón de la justa siempre ha sido un tema de interés, tanto para los aficionados como para las casas de apuesta. Es por esto que un equipo dirigido por Andreas Groll, profesor de estadística en la Universidad Técnica de Dortmund, ha combinado el machine learning y el análisis estadístico para pronosticar al más probable ganador de Rusia 2018.
Los datos colocan a la selección de España como la gran favorita para llevarse el trofeo con el 17.8% de probabilidades, seguido de Alemania con el 17.1% y Brasil con el 12.3%. No obstante, los investigadores comentaron que si Alemania y España se ven las caras a partir de los cuartos de final, los números se voltearían a favor de los germanos.
En cuanto a la participación de México, el estudio solamente le otorga el 41.5% de posibilidades de pasar de la etapa de grupos, lo cual lo estaría dejando fuera debido a que Alemania y Suecia tienen mayores oportunidades de progresar con el 86.5 y 54% respectivamente. Si el Tri llegara a avanzar más allá de la primera ronda, se le concede un 13.9% para llegar al tan anhelado quinto partido y tan sólo un 0.2% para ser campeón en Rusia 2018.
El equipo simuló el torneo 100 mil veces utilizando datos de los cuatro mundiales pasados (2002, 2006, 2010 y 2014), factores económicos como el PIB de los países, el ranking de equipos nacionales de la FIFA, características de los propios equipos como su edad promedio o número de jugadores que participaron en la Champions League. Incluso se toma en cuenta las posibilidades fijadas por los corredores de apuestas.
El sistema empleó un método llamado bosque aleatorio (random forest approach), recientemente desarrollado para analizar grandes conjuntos de datos. Para hacer sus pronósticos, este método utiliza un árbol de decisiones complejas, donde se estima un posible resultado en cada ramificación.
Sin embargo, la técnica del árbol de decisiones arroja resultados distorsionados en las últimas etapas del proceso debido a que las decisiones pueden verse seriamente afectadas por datos escasos y propensos a una gran variación, un problema conocido como sobreajuste. Los investigadores solventaron este inconveniente al calcular el resultado de ramificaciones aleatorias, cada vez con un conjunto diferente de datos seleccionados al azar.
En palabras más sencillas, el random forest approach construye múltiples árboles de decisión y los combina para obtener una predicción más precisa y estable.
¿Podrá una computadora ser tan precisa como el famoso pulpo Paul, quien predijo la victoria española en Sudáfrica 2010? El 15 de julio sabremos la respuesta.
Te puede interesar también: