Previsões da Copa do Mundo de 2018 com Big Data, que vai ganhar o que e quando?
NotíciaA final da Liga dos Campeões não foi apenas um jogo empolgante, mas também uma virada em potencial: o atacante do Liverpool Mo Salah, jogador do Ano, ganhador da Bota de Ouro e o jogador mais conhecido do Egito, teve seu ingresso para a Copa do Mundo. em dúvida depois de um desafio agressivo de Sergio Ramos deixou ferido.
As implicações deste ataque poderiam ter sido enormes: se Salah não podia jogar pelo seu país (acontece que ele fez o quase impossível e está em forma), isso poderia ter afetado as chances do Egito na Copa do Mundo, e enquanto o Egito É improvável que esteja incomodando as rodadas posteriores da competição, como uma borboleta batendo as asas do outro lado do mundo, o desempenho do Egito poderia impactar como as outras equipes de seu grupo fazem - e, finalmente, afetar qual país consegue levantar a troféu.
Dito isto, a queda potencial de Salah é apenas um dos literalmente milhões de pontos de dados. Um dos milhões de fatores que podem afetar o resultado da competição.
Como podemos entender o que esperar, então? Existe alguma maneira de prever como as equipes irão se comportar? O Big Data, que já transformou inúmeras outras indústrias, também permite uma compreensão mais profunda do belo jogo? Poderia prever quem vai ganhar a Copa do Mundo?
Os pontos de dados
Opta Sports e STATS são duas empresas que tentam responder a perguntas como esta. Como empresas de dados esportivos, suas missões são coletar dados e dar sentido a eles para seus clientes, o que inclui equipes esportivas e federações, bem como mídias que estão com fome de insights de dados (ahem).
“É muito fácil pensar que mais dados são bons, mas até você saber como você vai usá-lo e o que você pode aprender com ele, às vezes pode ser dado pelo bem dos dados.”
Paul Power, STATS.com
O que eles realmente coletam, então? O gerente de marketing da Opta, Peter Deeley, explicou que, para cada partida de futebol, sua empresa coleta cerca de 2.000 pontos de dados individuais, concentrados principalmente em “na bola” ações. Uma equipe de três analistas - um para cada lado e alguém para checar momentos complicados, se sentará no hub de dados da empresa em Leeds e gravará essencialmente tudo que acontece em campo: cada passe, cross e shot, bem como as posições no campo onde cada interação ocorreu.
Os dados são entregues aos clientes ao vivo, e é por isso que, por exemplo, o especialista inglês Gary Lineker (e ex-jogador da Inglaterra) é capaz de dizer aos telespectadores sobre estatísticas como posse de bola e chutes a gol no meio tempo..
O Stats.com faz o mesmo tipo de coisa - e Paul Power, um cientista de dados da empresa, fez questão de me contar como não são apenas humanos que são usados para a coleta de dados, mas novas tecnologias de visão computacional..
Quando se trata de registrar com precisão a posição de cada jogador em campo, sua empresa usa câmeras posicionadas ao redor da borda para descobrir, evitando que os jogadores usem balizas de rastreamento sob suas camisas, como aconteceu em esportes como o Rugby Union..
Mas por que ficar com os humanos? Não foi possível usar a visão computacional para registrar todos deste tipo de dados? “As pessoas ainda são melhores por causa das nuances que os computadores não conseguirão entender,” argumenta Paul.
Ele dá o exemplo e se um jogador é encurralado e chuta a bola para fora por desespero, mas felizmente a bola é então recebida por um jogador da mesma equipe. Para uma máquina, isso pode parecer simplesmente um passe longo, já que as máquinas não podem resolver o contexto do que está acontecendo, ou a aparência de pânico no rosto do jogador - ele registraria um passe longo, enquanto tecnicamente o evento é tecnicamente algo else: uma folga. O que significa que sem um humano para fazer essas chamadas, os dados registrados poderiam ser menos precisos.
A abordagem da Opta
Sabemos que ambas as empresas têm muitos dados - mas quem eles acham que vai realmente ganhar a Copa do Mundo? Embora ambas as empresas gerem muitos dados detalhados para seus clientes, curiosamente, STATS e Opta divergiram quando se trata de modelar o torneio deste verão..
No caso da Opta, Peter me explicou que o modelo da Copa do Mundo não leva em conta a miríade de dados individuais dos jogadores. Em vez disso, a Opta escolheu apenas observar o desempenho das equipes nacionais específicas em um nível de equipe. Por exemplo, avaliar as chances do Egito com base no desempenho da equipe egípcia no passado e sem levar em conta a situação de lesão de Mo Salah..
“Os cientistas de dados da Copa do Mundo analisaram o desempenho histórico de diferentes países, que diferença faz se você está jogando como a nação anfitriã, que diferença faz você jogar em seu continente ?.
Peter Deeley, Opta
“Os cientistas de dados para a Copa do Mundo olharam o desempenho histórico de diferentes países, que diferença faz se você está jogando como a nação anfitriã, que diferença faz você estar jogando em seu continente? [E] que diferença faz? faz se você ganhou as últimas Copas do Mundo,” Peter explica.
Os cientistas de dados puderam então ajustar o modelo executando centenas de milhares de vezes para fazer melhorias interativas, ajustando o peso relativo de cada fator no algoritmo..
Isso é uma surpresa, como você assumiria quanto mais dados melhor, mas Peter acredita que esse modelo ainda pode fornecer boas previsões.
“Uma Copa do Mundo é feita apenas a cada quatro anos, então você descobrirá que um jogador de qualidade decente, jogando em um país que geralmente joga em Copas do Mundo, só jogará em dois torneios da Copa do Mundo - você não terá tantos dados sobre que os jogadores tenham impacto na equipe mais ampla, dentro da configuração internacional.” ele diz.
E ele acredita que esses dados de nível de equipe são suficientes: “A Itália venceu em 2006 - eles não eram favoritos e a qualidade de sua equipe era boa, eles não eram um time que tinha uma superestrela de nível Cristiano Ronaldo.”
Ele continua explicando: “É realmente interessante, com as Copas do Mundo, é verdade que as equipes que historicamente se saem bem continuam indo bem. Alemanha, nas últimas três Copas do Mundo, pelo menos, chegou às semifinais.
"Mesmo que você possa argumentar contra o time deles desta vez não é tão bom quanto da última vez, eles ainda têm o histórico de serem campeões do mundo, de uma equipe que geralmente tem um bom desempenho - e é em seu continente. significa que eles têm uma boa chance em geral, não independentemente de seu time, mas eles têm um histórico de bom desempenho em torneios.”
“É muito fácil pensar que mais dados são bons, mas até você saber como você vai usá-lo e o que você pode aprender com ele, às vezes pode ser dado pelo bem dos dados.”, ele diz.
O modelo STATS
A STATS modelou a Copa do Mundo de maneira diferente. Ao contrário de seu rival, ele leva em conta os dados individuais do jogador para o que chama “E se?” Analytics.
De acordo com Paul, isso significa que STATS pode efetivamente usar dados de jogadores individuais para calcular não apenas como uma equipe irá se comportar, mas também quantificar o impacto da troca de jogadores dentro e fora do time. No caso de Mo Salah, a STATS afirma que seu sistema seria capaz de determinar o impacto no Egito se ele está apto para jogar ou não.
“Você pode encaixar essas situações diferentes e isso seria capaz de gerar um resultado e essa medida seria o número de gols marcados ou concedidos, ou simplesmente ganhar a probabilidade: como esse jogador aumenta ou diminui as chances? ", Explica Paul..
“Podemos ver isso, executar as simulações e isso realmente nos dirá: Mo Salah pode valer 0,3 de um gol, ou se ele não estiver jogando e outro jogador entrar, isso reduz a probabilidade de vitória em 3% ou 10%. ou pode realmente aumentá-lo, dependendo da equipe que eles estão realmente jogando contra.”
(Imagem: © Getty Images)Por que a STATS acredita que a abordagem individual funciona melhor do que as equipes??
“Todo mundo sabe se você está sentindo falta dos seus craques, isso vai impactar no desempenho - você não precisa de uma rede neural complexa para lhe dizer,” diz Paul. “Se você está perdendo isso no seu conjunto de dados, isso vai distorcer suas probabilidades e suas previsões”.
“Sabemos que, adicionando esses recursos adicionais aos jogadores, obtemos melhores impactos, porque o que podemos fazer melhor é modelar as relações diretas entre os indivíduos e, embora seja um esporte de equipe, sabemos que certos indivíduos têm uma influência maior. sobre o resultado do que alguns outros.
"Se você está perdendo um lateral-direito, por exemplo, isso pode ser um problema menor do que perder um meio-campista central, então você tem que dar conta disso e, como resultado disso, estamos realmente confiantes no modelo." que nós geramos.”
Diga-me quem vai ganhar, caramba
Agora chegamos à importante questão: qual país os dois modelos prevêem vencer? Em ambos os casos, como nerds de stats apropriados, eles forneceram previsões probabilísticas que contêm mais nuances do que você, Dave, que jura cegamente que a Alemanha vai ganhar de novo porque ele tem um bom pressentimento sobre eles..
Perguntei à STATS por suas previsões e, infelizmente, apesar de a empresa estar disposta a me informar sobre todos os dados a que tem acesso, e como seria Na verdade, fazer uma previsão, foi-me dito que eles não estarão publicando suas previsões este ano. Por quê? Por medo de estar errado? Não, a resposta é muito mais direta: essa é uma informação valiosa, e eles só querem espalhar o dinheiro para clientes pagantes.
Temos, no entanto, uma previsão da Opta. Ele classifica os vencedores perenes da Copa do Mundo Brasil (apenas não mencione 2014) como os campeões mais prováveis mais uma vez - dando a eles 14,2% de chance de ganhar. Isso significa que, se você disputar a Copa do Mundo com as mesmas equipes 20 vezes, você espera que o Brasil vença por volta de três vezes. Como seu companheiro Dave, Opta também gosta da Alemanha - dando a eles uma chance de 11,4% de mais uma vez levar para casa o troféu..
Outra empresa que gosta de prever e tem uma quantidade assustadora de precisão em seus resultados é a EA Sports. Nas últimas três Copas do Mundo, ele previu corretamente o eventual vencedor da Copa do Mundo..
Usando os dados detalhados que tem sobre os jogadores e rankings da equipe no FIFA 2018 e seu complemento da Copa do Mundo, ele realizou uma simulação do torneio e a França foi a vencedora final, derrotando a Alemanha na final. Dado que previa a Alemanha e a Espanha para as Copas do Mundo de 2014 e 2010, respectivamente, este poderia ser um bom grito.
Depois, há a Blue Yonder, uma empresa famosa por usar a inteligência artificial para prever o fluxo e refluxo da gestão de estoques em alguns dos maiores supermercados do mundo. Recentemente, virou a mão para prever a Copa do Mundo. Esquerda sim, mas sua tecnologia analisou todos os jogos internacionais de futebol desde 1872, com mais de 1 milhão de simulações da Copa do Mundo e acredita que o Brasil é o favorito para vencer a Rússia, com 22,5% de chance de vencer..
E a Inglaterra? A má notícia para Gareth Southgate é que a Opta dá a sua equipe uma baixa chance de 1,9%, enquanto a Blue Yonder aumenta um pouco para 5,7%.
Se a Opta e a Blue Yonder estiverem certas, é muito provável que possamos esperar perder ainda mais um desempate por grandes penalidades. Suspiro.
Cobertura da TechRadar na Copa do Mundo é trazida para você em associação com a Honra.