Topo

Histórico

Salada de Dados

Final de Game of Thrones prova que análise de dados nem sempre acerta

Letícia A. Pozza

17/05/2019 04h00

SPOILERS, SIM TODOS.

Finalmente é chegado o último episódio de Game of Thrones. E a gente está como? Bom, isso depende do seu nível de envolvimento com os livros e de sua expectativa em relação as famosas "viradas de jogo" que o George R. R. Martin, criador do universo, nos apresentou constantemente. Já ouvi pessoas felizes com o caminho que o seriado está levando e já ouvi muita gente indignada, mas não estou aqui para opinar sobre o final, apenas para dizer que: Game of Thrones é o legítimo caso em que a ciência de dados simplesmente não funciona.

Não são poucos os casos de pessoas que tentaram, inutilmente, prever quais personagens morreriam nas próximas temporadas ou nos próximos episódios. Eu encontrei umas 10 versões diferentes de abordagens e tentativas de compreender por meio de inúmeros padrões quais os personagens iriam nos fazer chorar e urrar de raiva por ter partido.

Vi abordagens estatísticas, em que se tentava compreender quais indicativos aumentam a chance de um personagem morrer. Ao analisar 27 características individuais dos livros (título, gênero, cultura, idade, se fazia parte da nobreza, presença no livro, número de pessoas mortas relacionadas ao personagem…) de 2 mil personagens, identificaram que os traços mais relevantes são:

  1. Número de personagens mortos relacionados;
  2. Aparição no livro "A Feast for Crows";
  3. Aparição no livro "A Dance with Dragons";
  4. Gênero do personagem
  5. Aparição no livro "A Game of Thrones";
  6. Se pertence à nobreza
  7. Aparição no livro "A Storm of Swords"
  8. Título (status social) do personagem
  9. Casa a qual o personagem pertence
  10. Aparição no livro "A Clash of Kings"
  11. Popularidade do personagem

Ou seja, por essa abordagem, tanto a Cersei quanto a Daenarys deveriam ter morrido antes de a temporada 6 ir ao ar.

Encontrei outras abordagens, como a do pesquisador e PHD Milan Janosov, que buscou prever quem morreria ao analisar a relação entre personagens, levando em conta o encontro deles nos episódios (toda vez que um personagem se encontra em um dos episódios é criado um link entre eles, formando a rede abaixo – as cores representam as suas diferentes casas).


Clique na imagem para ampliar

Como podemos ver Tyrion tem o papel de conector com a casa Targaryen, assim como Sansa liga os Stark à casa Lannister. Janosov, então, utilizou as variáveis dos nós de 94 personagens vivos e 61 mortos para treinar um modelo que buscava compreender quem morreria. Basicamente, a pergunta que ele fez foi: quais das pessoas mortas possuem características de rede similares as que já morreram? No final, o resultado foi a lista abaixo, ordenadas da maior para a menor probabilidade.

Dos dez primeiros previstos, cinco estão vivos e cinco estão mortos. Neste caso, jogar a moeda ou realizar um modelo preditivo tem a mesma chance. Dos 35, 15 ainda estão vivos, ou seja, temos um índice de acerto de 68%, o que não é um modelo horrível, mas é provavelmente o quanto acertaríamos se chutássemos quais estariam vivos até o último episódio (eu erraria a Cersei — aliás, achei a morte dela muito sem graça).

Tem este outro site, que fica no ar o tempo todo e está sempre buscando a probabilidade de alguém morrer, mas não explica muito como chegou nos resultados, e teve valores muito similares a todos os outros (errou com Jaime, Cersei, Missandei e Varys). Ou seja, seja boa ou ruim a ciência, no caso de Game of Thrones, não fez nenhuma diferença.

Enfim, foram dez anos de inúmeras tentativas de predição, de análises frustradas e de padrões irracionais. Mas acredito que existem alguns aprendizados importantes nessa jornada:

  1. O histórico e a fonte de dados que utilizamos faz toda diferença na hora de analisar alguma informação, e quando as condições de mercado mudam bruscamente, utilizar o passado como referência pode não fazer mais sentido: o que é correto? Utilizar o livro, o seriado ou as wikipages (páginas de fãs que descrevem a série)? Em algum momento, paramos de ter os livros para acompanhar a história, e passamos a ter somente o seriado como referência. Mas ainda assim, várias pessoas utilizaram o livro como fonte para prever quem seria eliminado na corrida pelo trono. O problema, neste caso, é que não sabemos quanto o escritor George R. R. Martin, que ditava as principais regras até o último livro (5ª temporada), ainda está presente na elaboração dos episódios. Se as regras do jogo mudam, nosso histórico e nossas fontes podem perder relevância.
  2. Quando uma das variáveis é a imprevisibilidade, basear-se no histórico não é o suficiente: um dos motivos pelos quais GOT tem tantos fãs é conseguir deixar todos incapazes de prever o que irá acontecer e como irá acontecer. São pouco relevantes as variáveis analisadas por todos os pesquisadores. Isso significa que provavelmente deveríamos estar olhando para o menos provável e não para o mais provável. Adicionar ao modelo a imprevisibilidade é peça fundamental para "mercados voláteis", como o de GOT. São cenários caóticos (sem padrão identificado), não sazonais (padrões que se repetem de tempos em tempos).
  3. Assim como em qualquer outro mercado, GOT nos mostra que a criatividade humana é muito mais importante do que o modelo matemático mais complexo que existe: como já citei, o que mais nos faz gostar de GOT é a sua capacidade de nos surpreender. E isso tudo vem da mente de seu criador, não da opinião pública (um dos motivos pelos quais muita gente não gostou dos últimos episódios, a ponto de ter gente chamando a última temporada de "fanservice"), não do seu próprio histórico, ou de uma fórmula de produção cinematográfica, mas que não entrega ou engaja em enredo (eu falei que não ia dar minha opinião, mas olha ela aqui…). Neste caso, e em muitos outros, nenhum modelo substitui a capacidade humana de transformação de informação em um enredo incrível como o que o George R.R. Martin criou.

E aí vem o maior aprendizado de todos: a ciência de dados visa minimizar o risco, mas ela não passa de uma grande massa de probabilidades que devem ser testadas e contextualizadas para que tenham valor. E neste caso, o empreender ou CEO criativo que souber utilizar uma informação simples, possivelmente estará sempre a frente do empreendedor mediano que possui o modelo mais robusto do mercado.

Como diria Arya Stark (tenho certeza que foi isso que ela quis dizer): hoje não, ciência de dados.

Sobre a Autora

Letícia A. Pozza é cientista de dados criativa que atua como consultora em grandes organizações no Brasil e fora, auxiliando-as a se tornarem mais orientadas por dados.

Sobre o Blog

Assim como a salada, a probabilidade de você gostar do assunto dados é muito baixa. Mas não tem como fugir: a quantidade de dados disponíveis é cada vez maior e o universo dos dados logo será o seu. Melhor é a gente aprender a entender e gostar disso o quanto antes, certo? Aqui, vamos discutir uma miscelânea de assuntos conectando Big data, ciência de dados, cultura analítica e como isso impacta o seu dia a dia. Vem comigo! Quem sabe eu não te faço gostar de salada também?