Una visita más drástica al formato de los torneos

0
153
views

Ben Steenheusein, estadista y fundador de DatDota suele escribir piezas muy buenas en su espacio en Medium. La última, muy interesante, analiza estadísticamente la “fiabilidad” de los formatos de torneos y pone en discusión qué tanto afectan al circuito profesional. Por ello, me he tomado la molestia de traducir el artículo y hacerlo disponible

He escrito una buena cantidad de cosas acerca de los formatos de torneos en el pasado: más que todo criticando eventos con formatos pobres o simplemente irracionales. Para mí, esto es más bien natural: los formatos de torneo dictan demasiado el resultado de lo que debe ser un evento y temporada competitivos; por lo que implementar formatos ineficientes, irracionales o injustos es un ataque directo a la integridad competitiva de Dota 2.

  • Una de las partes fundamentales del problema que tenemos entre manos es que hay múltiples grupos de personas impactados por los torneos, cada uno con sus propias prioridades:
  • Los equipos quieren formatos que les permitan probar su valía, pero al mismo tiempo que no tengan demasiados juegos para no pasar la mayor parte del torneo jugando series que tendrán poco impacto en su progresión.
  • Los organizadores de torneos quieren minimizar los costos y maximizar su audiencia (tanto en vivo como online). En la mayoría de casos quieren limitar el número de días en escenarios en vivo a una cantidad razonable.
  • Los fans quieren la mayor cantidad posible de equipos jugando en vivo y no solo online, pero tampoco quieren pasar una gran cantidad de tiempo viendo el evento (no quieren días de play-off ultra largos, que hacen tedioso seguir el evento).

La mayor preocupación para mí (y esencialmente lo que me impulsó a escribir este articulo) es que los equipos/managers/jugadores (id est, la gente en realidad más interesada en querer formatos justos) son personalmente atacados por fans irracionales por querer mejorar este aspecto fundamental del circuito de torneos, incluso cuando hablan de un torneo en el cual no se ven involucrados.

Así que veamos la información que tenemos acerca del Dota Pro Circuit hasta ahora. Después de algunas cancelaciones y de que Valve revoque el status de Major de un evento tenemos 22 eventos en el calendario del DPC: 13 Minors y 9 Majors. Con el DAC recién finalizado y la StarLadder a la vuelta de la esquina, el público tiene información respecto al formato de 17 de esos eventos.

De manera similar a mi anterior análisis de formatos, asociaré una función de puntuacion similar para la calidad del formato al darle un ranking a los equipos de manera ordinal (castigando ligeramente aquellos formatos que no resuelven todas las posiciones – si los equipos en 7mo y 8vo lugar terminan como ‘7mo-8vo’). Este planteamiento calcula un valor de error basado en la siguiente premisa: “en promedio, cuán frecuentemente un equipo valorado en un puesto X por habilidad, obtuvo un mejor puesto que un equipo con puesto Y (por habilidad), para todo Y > X”. Tambien he cambiado ligeramente la función de error, por lo que los valores nuevos son solo valores de error base (o sea que un menor valor significa que el formato es ‘mejor’). Adicionalmente hay una segunda métrica para los formatos: “% de aciertos en el top 4”, el cual es un porcentaje de qué tan frecuentemente los (verdaderos) equipos top-4 yendo a un torneo terminan como los equipos en el podio.

Tomé cada formato del DPC y corrí un set de equipos con skill linealmente distribuido en cada uno 10⁵ veces. También puse algunos formatos base como diversos casos de Eliminación Simple. Cada enfrentamiento fue simple, por lo que no consideré rivalidades no-transitivas (A>B, B>C, C>A).

Finalmente, quise modelar otro aspecto de la calidad de los formatos: qué tan resistente es a malos seedings iniciales. Para lograr esto, modelé un valor de percepción dentro de cada simulación para cada equipo que estaba basado en el rating entre equipos (team[i] – team[i-1]) multiplicado por la distribución normal (0,1). Esto significa que un equipo fuerte al que los organizadores podrían infravalorar a la hora del seeding (o equipos más débiles que los organizadores puedan sobrevalorar) serán manejados dentro de esos modelos de simulación. EN un formato con rondas suizas aleatorizadas, esto tendría un impacto nulo; pero en un formato como eliminación simple esto tendría un impacto moderadamente largo.

Clic para agrandar la tabla

Como se esperaba, el recientemente culminado Dota Asia Championships ha tenido el mejor formato de la temporada hasta ahora en términos de valores de error (tanto con intervalos de error de percepción de 0 y 50). Adivina correctamente el top-4 un poco más de la novena parte del tiempo, el segundo mas alto solo debajo de Eliminación simple por Bo3. La eliminación simple por Bo3, sin embargo, baja de 21.2% a 12.4% si le asociamos intervalos de percepción de error de 50, lo que nos muestra que el formato depende drásticamente de tener seeds iniciales adecuadas; y, dado que hay tan pocos juegos, hay una gran varianza asociada a cada juego.

The Summit 8 fue una gran sorpresa: es el mejor formato de 9 equipos de la temporada (y también vence a todos los otros formatos de 8 equipos). Como explicamos abajo, cierta ventaja en este formato viene del hecho de que son 9 y no 8 equipos; pero también porque cada equipo debe tener un equipo muy fuerte, un equipo al medio y un equipo débil (los equipos están ligeramente ‘cargados’ en el modelo). Esto significa que, para que una sorpresa ocurra en el groupstage, por lo general se requiere que el equipo del medio venza al superior (por lo general con una sorpresa del equipo más débil también) y, como cada equipo juega 6 bo1’s, esto es muy poco común. La parte más difícil de adivinar el top-4 en este formato es sencillamente asegurarse de que el cuarto mejor equipo logre superar las wildcards y llegue al top 4.

Captain’s Draft 4.0 es estadísticamente el peor formato hasta el momento en la temporada: es solo ligeramente mejor en promedio que un torneo aleatorizado de eliminación simple en Bo1’s (las tasas de error para eso son 12.06 y 12.08 con percepción 0/50 respectivamente). Mi única explicación para tener un valor de error menor con una percepción más alta es que es simplemente varianza (10⁵ pruebas no son taaantas pruebas) o (más probable) que mis seedings esperados dentro de los mapas de grupos fueron pobres y que un mejor mapeo existe (por lo cual un mapeo ligeramente más aleatorizado/modificado se desempeñaría mejor).

En términos de ‘acertar el top-4’, la Bucharest Major fue un fracaso. Parte de esto se reduce a la alta varianza de la fase de grupos de rondas suizas Bo1. Solo un ~4.57% de las simulaciones vio el top-4 siendo el acertado, y esto se redujo marginalmente a 4.53% con alta percepción (lo que habla bastante bien de la ‘resistencia’ del formato de rondas suizas). Un formato de eliminación simple Bo1 (pero con un seeding perfecto) hubiese acertado el top-4 el 5.97% de las veces.

El formato de las temporadas 8 y 9 de la DreamLeague es en sí mismo un benchmark, dado que es un formato de eliminación doble de solo 8 equipos. Nótese que los eventos de 16 equipos han obtenido puntuaciones más altas en parte porque es ligeramente más fácil para los formatos largos lograr estas puntuaciones. En el ejemplo debajo que muestra las matrices de ejecución perfecta de eliminación simple de 8 equipos vs eliminación simple de 4 equipos; el formato con 8 equipos contiene 25% de equivalencias, mientras que la versión de 4 equipos contiene solo  ~17%. Esto significa que es más difícil para los formatos que tienen más clústers (lo que pasa normalmente para los últimos lugares en la mayoría de eventos) tener un buen puntaje, por lo que más equipos significa más clústers únicos.

Matrices objetivo (‘perfectas’) para torneos de eliminación simple con 8 y 4 equipos

¿Hacia dónde ir con esto?

Algo que esperaba lograr para este artículo (pero que luego me di cuenta de que necesitaría su propia entrada) fue normalizar el valor de error para formatos con diferentes números de equipos. Un esbozo primitivo para esta idea es lo siguiente: que un formato de eliminación simple con 8 equipos es igualmente ‘justo’ que uno con 16 equipos (con un seeding consistente); tal como lo es una eliminación doble de 16 equipos vs una eliminación doble de 8 equipos. Usando simulaciones de n-equipos m-eliminación con n y m variantes, podemos mostrar de una manera más bien segura una reducción de dimensionalidad, por lo que todas las puntuaciones de calidad de formato normalizadas son comparables (en dicha dimensión base).

Aparte de eso, esto sirve como una buena forma de hacer benchmark a eventos futuros (los formatos propuestos que se me han comentado para algunos eventos son francamente ridículos), además de evaluar cambios sugeridos a los formatos:

  • ¿Qué tal si ESL hubiese escuchado y tuviese una llave de 16 equipos con doble eliminación?
  • ¿Qué tal si la DAC hubiese desechado las partidas de desempate y simplemente hubiese movido a los equipos en los puestos 9 al 12 a la loser’s bracket?
  • ¿Qué tal si ningún evento usase jamás la métrica de ‘3 puntos por ganar un Bo2 2 a 0’?

Eventos que tengan buenos resultados bajo estas métricas no deberían dormirse en sus laureles: antes bien, deberían buscar mejorar y buscar formatos cada vez mejroes. Los formatos de torneos no necesitan ser todos iguales, pero los eventos deberían experimentar con formatos que sean como mínimo razonables y sensatos para los equipos participantes.

Dado que se escribieron grandes cantidades de código para este artículo (alrededor de 1000 líneas) y es posible que me haya equivocado en algo, aquí hay un github para revisar todo el código.

Saludos,
@Noxville

DEJA UNA RESPUESTA

Por favor escribe tu comentario:
Por favor introduce tu nombre aquí