Salada de Dados http://saladadedados.blogosfera.uol.com.br Aqui, vamos discutir uma miscelânea de assuntos conectando Big data, ciência de dados, cultura analítica e como isso impacta o seu dia a dia. Vem comigo! Quem sabe eu não te faço gostar de salada também? Wed, 12 Jun 2019 16:40:19 +0000 pt-BR hourly 1 https://wordpress.org/?v=4.7.2 Ciência de dados: livros recomendados por quem é craque na área http://saladadedados.blogosfera.uol.com.br/2019/06/12/ciencia-de-dados-livros-recomendados-por-quem-e-craque-na-area/ http://saladadedados.blogosfera.uol.com.br/2019/06/12/ciencia-de-dados-livros-recomendados-por-quem-e-craque-na-area/#respond Wed, 12 Jun 2019 16:40:19 +0000 http://saladadedados.blogosfera.uol.com.br/?p=266 Vira e mexe alguém me pede recomendações de livros para começar a conhecer o universo dos dados com o pé direito. Em vez de contar os meus favoritos, resolvi  consultar profissionais de diversos níveis da área para entender quais os livros foram impactantes para eles no seu início de carreira — ou quais são os queridinhos que sempre recomendam. Abaixo, as publicações indicadas e, melhor, porque foram citadas.

1. Storytelling com dados – Cole Nussbaumer Knafllic

“Hoje estudo muito na internet sobre técnicas avançadas, de acordo com o que estou buscando no momento. Se for livro técnico, desde a faculdade me guio muito pelo ‘Artificial Intelligence, a modern approach’, de Stuart J Russel e Peter Norvig, que é como me guio para desenvolver e pesquisar novos modelos. Mas para um livro mais introdutório, o ‘Storytelling com Dados’ aborda algo que não consigo ver em blogs ou web aulas, envolvendo muito bem a teoria sem deixar de lado a prática.”
Luan Corumba, Coordenador de Ciência de Dados para Prevenção a Fraudes no Santander

2. O sinal e o Ruído – Nate Silver

“Fui muito impactado pelo livro do Nate Silver, em que pude entender melhor porque ainda precisamos evoluir bastante o nosso entendimento sobre modelos preditivos e suas dificuldades/limitações em um problema real e de natureza complexa. Não é um livro técnico, mas um livro de profundo aprendizado da jornada de modelagem preditiva para os problemas reais do mundo.”
Eduardo Magalhães, Head of Data Science e AI na IHM Stefanini

“É legal por criticar as previsões e mostrar que algoritmos não resolvem problemas magicamente.”
Pedro Venturini, Analista de Dados na Cappra Data Science

3 Dear Data & Observe, Collect and Draw – Giorgia Lupi e Stefanie Posavech

“O ‘Dear Data’ foi um excelente livro, pois acho que nada melhor que um livro sobre small data para representar que nem só de big data vive a ciência de dados. E que é possível fazer ciência de dados só com papel (postal, na verdade) e canetas coloridas. Giorgia e Stefanie criaram informações sobre elas mesmas em visualizações lindas de dados, que permitiu que, mesmo separadas por um oceano, as duas se entendessem e se conhecessem  mais a cada postal. E ainda lembrar que podemos ser analíticos olhando para nossos dados também, otimizando nossas decisões pessoais, nos entendendo melhor, olhando para nossos padrões.”
Natalia Gruber, Cientista de Dados na Cappra Data Science

“Sou muito fã do ‘Observe, Collect and Draw’. Já no primeiro dia de leitura de algumas páginas, pude fazer no meu dia a dia alguns experimentos do livro. Por exemplo, pude enxergar padrões de comportamento de algumas reuniões de trabalho usando a abordagem que o livro ensina. Muito inspirador e um incentivo a várias possibilidades nunca antes imaginadas.”
Eduardo Magalhães, Head of Data Science e AI na IHM Stefanini

5. Rápido e devagar –  Daniel Kahneman

“É bem legal para entender a nossa cabeça e começar a desenvolver um mentalidade analítica sobre tudo.”
Pedro Venturini, Analista de Dados na Cappra Data Science

“Muito mais do que pensar em cases, precisamos entender por que tomamos decisões. Não é sobre conhecimento técnico de programação ou de estatística, mas, sim, de modelagem, sobre considerarmos como as pessoas se comportam. Vejo que pensamos em soluções técnicas, mas esquecemos de olhar como as pessoas pensam para criarmos soluções que representem o mundo real.”
Maurício Diello Guggiana, cientista de dados na Cappra Data Science

6. Estatística: o que é, para que serve e como funciona – Charles Wheelan

“Uma boa iniciação estatística.”
Dierê Fernandez, cientista de dados consultora

“Esse livro me fez encarar os dados de uma forma muito mais material. Nele, aprendi a traduzir a linguagem dos dados para a linguagem humana e saber como seguir as trilhas dentro deles. Se eu puder incluir outro, seria a apostila feita pelo meu professor da universidade. Ele soube mostrar a estatística como um canivete com inúmeras ferramentas. Fazendo com que eu me preocupasse mais nas ferramentas a escolher do que sair testando tudo no escuro: Apostila Estatística Clássica – do professor Filipe J Zabala.”
Carlo José, Data Engineer Intern na Hogarth Worldwide

8. Armas de Destruição em Massa – Cathy O’Neil

“Precisa ser somente um? Eu tenho vários pra recomendar! Segue a lista para quem quiser se aprofundar. Infelizmente alguns são somente em inglês: ‘Architects of Intelligence’, ‘Algorithms of Oppression’, ‘Why Information Grows’, ‘The Efficiency Paradox’ e de ‘The Tyranny of Metrics’. Existe muito buzz e publicidade sobre as novas técnicas, ferramentas e abordagens na área de dados. Por outro lado, há pouco espaço para reflexões críticas sobre suas aplicações, externalidades e efeitos. Estes livros abordam, de maneira equilibrada, os dois ‘lados da moeda’, isto é, as vantagens e desvantagens das tecnologias que tem potencial para transformar o mundo como conhecemos.”
José Borbolla Neto, coordenador dos cursos de dados da Digital House Brasil e consultor

9. Algoritmos para viver – Brian Christian e Tom Griffiths

“Entender que os dados já fazem parte da nossa vida há muito tempo pode nos auxiliar a compreender como incluir essa visão nos negócios.”
Letícia Pozza

10. O poder dos números – Dimitri Maex

“Foi o primeiro livro que li e foi, definitivamente, o mais direto, simples e rapidamente aplicável. Mesmo antes de big data e ciência de dados virarem palavras da moda, ele já trazia uma visão muito clara das dificuldades da área e da aplicação/uso no dia a dia.”
Letícia Pozza

“É o mais prático de todos, bem direto.”
Pedro Venturini, Analista de Dados na Cappra Data Science

11. Data Science para Negócios – Tom Fawcett, Foster Provost e outros

“Abriu minha mente. Ele aborda de forma abrangente e fácil vários tipos de algoritmos para resolver problemas de negócio distintos e sem ser muito técnico. Pra quem tá começando, é muito bom.”
Bruno Américo, System Business Analyst na CWI Software

12. Data Smart. Usando Data Science Para Transformar Informação em Insight – John W. Foreman

“Traz aplicações de modelos com uma linguagem de negócios e bem simples. Já recomendei para varias pessoas que estão começando em data science, e foi bastante enriquecedor para eles.”
Dierê Fernandez, cientista de dados consultora

13. O poder do hábito – Charles Duhigg e Rafael Mantovani

“Fala de cases bem conhecidos e sobre como utilizar dados de forma bem direta.”
Maurício Diello Guggiana, cientista de dados na Cappra Data Science

14. Moneyball, o Homem que Mudou o Jogo – Michael Lewis

“Dados sob uma perspectiva diferente – a do esporte. Uma ótima forma de compreender que não existe local para ser criativo e aplicar seu conhecimento de dados.”
Maurício Diello Guggiana, cientista de dados na Cappra Data Science

E aí, algum outro livro para adicionarmos para essa lista?

]]>
0
A maior base de dados que existe não está na internet http://saladadedados.blogosfera.uol.com.br/2019/06/05/a-maior-base-de-dados-que-existe/ http://saladadedados.blogosfera.uol.com.br/2019/06/05/a-maior-base-de-dados-que-existe/#respond Wed, 05 Jun 2019 07:00:02 +0000 http://saladadedados.blogosfera.uol.com.br/?p=257

Hoje não vim postar dicas, referências ou passos para o sucesso, mas, sim, uma reflexão. Não tenho uma solução para isso, apenas uma ideia que me tem feito pensar — e eu prometo que vou conectar ao tema dados em algum momento.

Nos últimos quatro anos e oito meses eu fiz parte da disseminação de conhecimento sobre a ciência de dados no Brasil. Co-criei muitas empresas e produtos novos de dados, desde o primeiro laboratório de dados abertos, aos primeiros cursos sobre formação de cientistas de dados, lideranças analíticas e líderes executivos. Junto a um time muito capacitado e do qual tenho profunda admiração, desenhamos soluções que mudaram estruturas organizacionais inteiras, processos, políticas, formas de pensar e formas de executar.

Juntos, deixamos de falar de big data e passamos a falar de cultura analítica. Juntos, desmistificamos o conceito tido somente como tecnológico, trazendo questionamentos de negócios e humanos, entendendo que a responsabilidade de execução e de decisão é nossa, e que cabe somente a nós trazermos a pauta para todos os níveis organizacionais. Juntos, tornamos conceitos complexos em acessíveis e provamos que ciência de dados é para todos, sim. Não somente surfamos a onda da ciência de dados no Brasil, acredito que somos parte importante do motivo dessa onda ter chegado a tantas pessoas, possibilitando que várias enxergassem novos mercados de atuação e novas oportunidades de negócios.

Erramos muito nesse caminho, também. Ser empreendedor de um tópico significa caminhar onde poucos foram, chegar em ruas sem saídas ou dar de cabeça na parede várias vezes até aprender. Mas o mais legal de trabalhar um tópico em evolução é compreender que o erro faz parte desse aprendizado, e passamos a ter uma relação diferente com ele. E hoje, saio dessa organização muito feliz, sabendo que passamos tantos desses aprendizados para todos os outros membros da equipe que vieram depois. Você já deve ter passado por esse sentimento, da mesma forma, e espero que eu vá passar por ele em vários outros momentos da vida, afinal de contas, a mudança e a evolução pessoal devem ser constantes.

Mas no meio dessa necessidade de desapego – em que deixo uma equipe e muitos projetos, mas levo comigo o conhecimento de ter passado por tudo isso para a minha próxima jornada – me questiono quanto desse meu conhecimento realmente foi passado adiante. Quanto dos erros, quanto dos acertos, quanto da experiência, da inquietação, da tranquilidade, do formato, do jeito, dos meios, dos modos, dos modelos, das ferramentas, dos diferentes mercados, das diferentes vivências, aborrecimentos e felicidades que estão gravadas no meu cérebro eu consegui transmitir e passar para todos que seguem? Espero que muito, mas acredito que muito pouco. Não acredito que o que vivi é maior do que o que outros vivem ou viverão, mas acredito que trilhar um caminho a partir de outro como guia é sempre uma forma de aprendizado transformadora.

E aí eu me dou conta de que a maior base de dados e de conhecimento que podemos ter dentro de uma organização é aquela que é levada junto das pessoas da nossa equipe quando elas vão embora. E que se não criarmos métodos e artifícios de disseminação do conhecimento e da troca de experiências e vivências, assim como temos bases de dados que não se conversam em áreas diferentes, criamos silos de bases de conhecimento. E na verdade, parece simples e óbvio, mas é geralmente feito o oposto: guardo a informação, pois faz eu me sentir mais importante, único e insubstituível (e convenhamos, ninguém é). Em algum momento deixamos de creditar o conhecimento pautada na experiência do indivíduo, empírico e heurístico e passamos a creditar somente o científico e o tácito.

E isso tem tudo a ver ciência de dados e com cultura analítica, em todas as esferas. Hoje, precisamos ter “conhecimento político” para conscientizar lideranças da importância do uso e compartilhamento dos dados. Precisamos de “conhecimento emocional e empático” para aprender sobre os problemas das pessoas que estamos resolvendo nas bases de dados analisadas. Precisamos de “conhecimentos de processos” para aprender como conectar informações e segmentos distintos para gerar novas oportunidades. Precisamos de “conhecimentos didáticos” para saber a melhor forma de contar um algoritmo complexo para alguém tomar a melhor decisão a partir dele. E precisaremos entender tudo isso para ensinar máquinas a realizar as tarefas que não queremos mais realizar.

E essa base de conhecimento mal começamos a explorar. É uma base individual, que se reunida, seria a maior base de dados existente, e que quanto antes reconhecermos sua importância, mais cedo teremos insumos para poder analisar e disseminar, sem que isso se perca.

O conhecimento que adquiri até aqui não se perde, levo comigo e se multiplica a partir de novas experiências que viverei a partir de agora, mas me comprometo a compartilhar o máximo dele que eu conseguir, pois sei do privilégio que tenho ao ter acesso a tantas mentes brilhantes e trabalhos incríveis na área e fora dela.

O que você está fazendo para compartilhar o que você sabe?

]]>
0
Final de Game of Thrones prova que análise de dados nem sempre acerta http://saladadedados.blogosfera.uol.com.br/2019/05/17/final-de-game-of-thrones-prova-que-analise-de-dados-nem-sempre-acerta/ http://saladadedados.blogosfera.uol.com.br/2019/05/17/final-de-game-of-thrones-prova-que-analise-de-dados-nem-sempre-acerta/#respond Fri, 17 May 2019 07:00:24 +0000 http://saladadedados.blogosfera.uol.com.br/?p=240

SPOILERS, SIM TODOS.

Finalmente é chegado o último episódio de Game of Thrones. E a gente está como? Bom, isso depende do seu nível de envolvimento com os livros e de sua expectativa em relação as famosas “viradas de jogo” que o George R. R. Martin, criador do universo, nos apresentou constantemente. Já ouvi pessoas felizes com o caminho que o seriado está levando e já ouvi muita gente indignada, mas não estou aqui para opinar sobre o final, apenas para dizer que: Game of Thrones é o legítimo caso em que a ciência de dados simplesmente não funciona.

Não são poucos os casos de pessoas que tentaram, inutilmente, prever quais personagens morreriam nas próximas temporadas ou nos próximos episódios. Eu encontrei umas 10 versões diferentes de abordagens e tentativas de compreender por meio de inúmeros padrões quais os personagens iriam nos fazer chorar e urrar de raiva por ter partido.

Vi abordagens estatísticas, em que se tentava compreender quais indicativos aumentam a chance de um personagem morrer. Ao analisar 27 características individuais dos livros (título, gênero, cultura, idade, se fazia parte da nobreza, presença no livro, número de pessoas mortas relacionadas ao personagem…) de 2 mil personagens, identificaram que os traços mais relevantes são:

  1. Número de personagens mortos relacionados;
  2. Aparição no livro “A Feast for Crows”;
  3. Aparição no livro “A Dance with Dragons”;
  4. Gênero do personagem
  5. Aparição no livro “A Game of Thrones”;
  6. Se pertence à nobreza
  7. Aparição no livro “A Storm of Swords”
  8. Título (status social) do personagem
  9. Casa a qual o personagem pertence
  10. Aparição no livro “A Clash of Kings”
  11. Popularidade do personagem

Ou seja, por essa abordagem, tanto a Cersei quanto a Daenarys deveriam ter morrido antes de a temporada 6 ir ao ar.

Encontrei outras abordagens, como a do pesquisador e PHD Milan Janosov, que buscou prever quem morreria ao analisar a relação entre personagens, levando em conta o encontro deles nos episódios (toda vez que um personagem se encontra em um dos episódios é criado um link entre eles, formando a rede abaixo – as cores representam as suas diferentes casas).


Clique na imagem para ampliar

Como podemos ver Tyrion tem o papel de conector com a casa Targaryen, assim como Sansa liga os Stark à casa Lannister. Janosov, então, utilizou as variáveis dos nós de 94 personagens vivos e 61 mortos para treinar um modelo que buscava compreender quem morreria. Basicamente, a pergunta que ele fez foi: quais das pessoas mortas possuem características de rede similares as que já morreram? No final, o resultado foi a lista abaixo, ordenadas da maior para a menor probabilidade.

Dos dez primeiros previstos, cinco estão vivos e cinco estão mortos. Neste caso, jogar a moeda ou realizar um modelo preditivo tem a mesma chance. Dos 35, 15 ainda estão vivos, ou seja, temos um índice de acerto de 68%, o que não é um modelo horrível, mas é provavelmente o quanto acertaríamos se chutássemos quais estariam vivos até o último episódio (eu erraria a Cersei — aliás, achei a morte dela muito sem graça).

Tem este outro site, que fica no ar o tempo todo e está sempre buscando a probabilidade de alguém morrer, mas não explica muito como chegou nos resultados, e teve valores muito similares a todos os outros (errou com Jaime, Cersei, Missandei e Varys). Ou seja, seja boa ou ruim a ciência, no caso de Game of Thrones, não fez nenhuma diferença.

Enfim, foram dez anos de inúmeras tentativas de predição, de análises frustradas e de padrões irracionais. Mas acredito que existem alguns aprendizados importantes nessa jornada:

  1. O histórico e a fonte de dados que utilizamos faz toda diferença na hora de analisar alguma informação, e quando as condições de mercado mudam bruscamente, utilizar o passado como referência pode não fazer mais sentido: o que é correto? Utilizar o livro, o seriado ou as wikipages (páginas de fãs que descrevem a série)? Em algum momento, paramos de ter os livros para acompanhar a história, e passamos a ter somente o seriado como referência. Mas ainda assim, várias pessoas utilizaram o livro como fonte para prever quem seria eliminado na corrida pelo trono. O problema, neste caso, é que não sabemos quanto o escritor George R. R. Martin, que ditava as principais regras até o último livro (5ª temporada), ainda está presente na elaboração dos episódios. Se as regras do jogo mudam, nosso histórico e nossas fontes podem perder relevância.
  2. Quando uma das variáveis é a imprevisibilidade, basear-se no histórico não é o suficiente: um dos motivos pelos quais GOT tem tantos fãs é conseguir deixar todos incapazes de prever o que irá acontecer e como irá acontecer. São pouco relevantes as variáveis analisadas por todos os pesquisadores. Isso significa que provavelmente deveríamos estar olhando para o menos provável e não para o mais provável. Adicionar ao modelo a imprevisibilidade é peça fundamental para “mercados voláteis”, como o de GOT. São cenários caóticos (sem padrão identificado), não sazonais (padrões que se repetem de tempos em tempos).
  3. Assim como em qualquer outro mercado, GOT nos mostra que a criatividade humana é muito mais importante do que o modelo matemático mais complexo que existe: como já citei, o que mais nos faz gostar de GOT é a sua capacidade de nos surpreender. E isso tudo vem da mente de seu criador, não da opinião pública (um dos motivos pelos quais muita gente não gostou dos últimos episódios, a ponto de ter gente chamando a última temporada de “fanservice”), não do seu próprio histórico, ou de uma fórmula de produção cinematográfica, mas que não entrega ou engaja em enredo (eu falei que não ia dar minha opinião, mas olha ela aqui…). Neste caso, e em muitos outros, nenhum modelo substitui a capacidade humana de transformação de informação em um enredo incrível como o que o George R.R. Martin criou.

E aí vem o maior aprendizado de todos: a ciência de dados visa minimizar o risco, mas ela não passa de uma grande massa de probabilidades que devem ser testadas e contextualizadas para que tenham valor. E neste caso, o empreender ou CEO criativo que souber utilizar uma informação simples, possivelmente estará sempre a frente do empreendedor mediano que possui o modelo mais robusto do mercado.

Como diria Arya Stark (tenho certeza que foi isso que ela quis dizer): hoje não, ciência de dados.

]]>
0
Oculus Quest pode ser grande passo para o Facebook ver dentro de sua casa http://saladadedados.blogosfera.uol.com.br/2019/05/03/oculus-quest-pode-ser-grande-passo-para-o-facebook-ver-dentro-de-sua-casa/ http://saladadedados.blogosfera.uol.com.br/2019/05/03/oculus-quest-pode-ser-grande-passo-para-o-facebook-ver-dentro-de-sua-casa/#respond Fri, 03 May 2019 16:12:57 +0000 http://saladadedados.blogosfera.uol.com.br/?p=226

Para que possamos chamar um grande grupo de dados de big data, não adianta termos somente a velocidade e o volume de dados. Precisamos, também, ter variedade. O que a ciência de dados vem proporcionando nos últimos anos é a possibilidade de testarmos as nossas hipóteses e as nossas simulações em um volume de dados muito maior. E a tecnologia nos permite coletar essas informações das formas mais inusitadas, inclusive replicando determinados cenários e situações para avaliar nossa reação a elas.

Imagine que queremos analisar a reação de pessoas a determinadas estímulos, como por exemplo, a diferença de reação a cenas de filmes de terror, de amor, ou de comédia. Ou ainda compreender quais as sensações físicas que uma pessoa com fobias de palhaço ou de aranhas pode ter ao se deparar com aquilo que mais teme? É exatamente aí que podemos contar com as novas tecnologias para aumentar a variedade de dados que temos e gerar novas formas de captar e analisar dados das pessoas: com a realidade virtual (RV) e com a realidade aumentada (RA).

A RV abre toda uma nova possibilidade de dados: só com o uso dos óculos já conseguimos perceber nossas reações a partir de nossos movimentos. Dê mais alguns anos e faremos isso pelas nossas pupilas, suor das mãos, respiração, batimentos cardíacos, tom de voz, rapidez na resposta do corpo e, por que não, sinapses mentais. Eu sei, eu sei, conseguir mensurar nosso cérebro ainda é algo um pouquinho distante, pois são máquinas gigantescas que fazem isso hoje. Mas todos os outros, nem tanto.

Essa semana, no F8, a equipe do Facebook lançou dois novos óculos de realidade virtual: Oculus Rift S e Oculus Quest, ambos vendidos a US$ 399. Pode parecer um valor muito alto, mas é o quanto pagamos por um smartphone de última geração. Não estamos longe de dizer que teremos um desses óculos em nossa casa. E com o Quest, em nossas bolsas. E o que isso significa em termos de coleta de dados? Perguntei a opinião do Rodrigo Terra, sócio-fundador e COO da ARVORE, empresa de RV responsável por jogos como Pixel Ripped 1989:

“Com o lançamento do Oculus Quest, eu fico pensando que logo eles conseguirão saber como é o ambiente privado de todas as pessoas, pois ao colocar o óculos, eles mapeiam o espaço à nossa volta, fazendo o paralelo entre o mundo ‘real’ e o ‘virtual’. Assim, terão uma noção muito mais nítida de reprodução tridimensional de qualquer ambiente que aquela pessoa estiver. E isso é muito valioso para além dos algoritmos de identificação que são treinados hoje apenas com fotos ou vídeos, pois em alguns segundos teremos o mapeamento de um espaço em tempo real, com identificação de objetos, de pessoas, volume, e com um nível de detalhamento incrível.

Se eles estão pensando nisso, e eu acredito que devem estar, o que antes o Facebook tinha, como uma foto do meu aniversário, agora tem mais detalhes e mais informações de formatos de rosto, de corpo e de movimento, algo que uma foto tirada de determinado ângulo não teria. E com o Quest, passamos a ter isso em todos os lugares, pois ele pode ser carregado na mochila.”

Mesmo Mark Zuckerberg e todos da sua equipe falando muito sobre privacidade nas plataformas (e deixando diversos pontos soltos), a empresa nem tocou no assunto sobre que tipo de dados o Facebook estaria coletando com essas novas tecnologias. Mas o que sabemos é que abre um leque enorme de possibilidades de novos tipos de dados que nem imaginávamos existir. A variedade e a variabilidade, em outra escala: a escala real.

Quando questionei o Terra sobre quais os tipos de sensores que já estão disponíveis nessas tecnologias, ele comentou:

“O grande objetivo desses headsets hoje é se tornarem mais baratos, principalmente o Oculus Quest. Além de se livrar de cabos, eles preferem tirar sensores em vez de colocar novas tecnologias que encarecem, pois o que realmente buscam é a massificação de mercado. Logo, são poucos os aparelhos que possuem eye-tracking (monitoramento do movimento dos olhos), que é o caso do lançamento da HTC Pro Vive Eye, que já vem com o monitoramento embutido, mas ainda não é um produto acessível a todos.

O que eu acredito, pessoalmente, é que uma vez eles se tornando baratos, voltaremos a ter a conexão desses aparelhos com outros aparelhos que usamos, como [a pulseira fitness] Fitbit. Essa conectividade das diversas tecnologias embarcadas é o que irá gerar um universo de dados biológicos mais precisos.”

Independente da quantidade de sensores disponíveis ou não, é um novo tipo de interação que traz todo um novo significado para o Big Data: escalas e espaços reais, com monitoramento em tempo real das mais diversas reações. E possivelmente, isso gerará toda uma nova discussão de regulações e privacidade envolvendo tecnologias pelas quais, mais uma vez, o Facebook é responsável. Será que dessa vez Zuckerberg vai buscar antever a necessidade dessa discussão ou vai esperar o público provocá-la?

]]>
0
Será que o futuro privado de Zuckerberg não deveria nos pagar pelos nossos dados? http://saladadedados.blogosfera.uol.com.br/2019/05/01/o-futuro-privado-de-zuckerberg-deveria-nos-pagar-por-nossos-proprios-dados/ http://saladadedados.blogosfera.uol.com.br/2019/05/01/o-futuro-privado-de-zuckerberg-deveria-nos-pagar-por-nossos-proprios-dados/#respond Wed, 01 May 2019 19:17:21 +0000 http://saladadedados.blogosfera.uol.com.br/?p=210

Mark Zuckerberg discursou sobre a nova missão do Facebook: um “futuro privado”, enfatizando mais segurança e mais conversas privadas. Mas talvez a empresa ainda precise deixar claro para o grande público como as informações são utilizadas hoje e que quem deveria ser pago por nossos dados somos nós mesmos

Nos últimos anos o conjunto de empresas que Mark Zuckerberg lidera tem rendido muitas controvérsias. O Facebook recebeu inúmeras acusações de uso indevido de informações pessoais, de falta de transparência nas regras de seus algoritmos para parceiros e de liberação de dados. Muitas vezes, esbarrou no limite de censura, escolhendo as informações que podem ser públicas ou não.

Em todos os casos e aparecimentos públicos, ao ser questionado sobre questões de segurança, Zuckerberg sempre manteve a mesma postura e a mesma resposta: “Minha equipe vai retornar com uma resposta assim que possível para esta questão”. Nessa hora, além de sempre imaginar alguém da equipe dele suando frio por que ia receber este pepino pra trabalhar, eu via um profissional aberto, porém, despreparado para responder questões tão complexas que só surgiram…bem, boa parte por causa dele.

Eu sempre brinco em palestras que eu não acredito que, quando criou o Facebook há mais de dez anos, ele imaginava o tamanho do problema que ele estava criando. Depois de três anos sendo foco de discussão de privacidade de dados e a um ano das principais leis entrarem em vigor para boa parte da população brasileira e europeia, Zuckerberg resolveu se posicionar.

Mais do que uma mudança de recursos da plataforma, Zuckerberg fala sobre uma mudança de posicionamento, da empresa, da marca e dele mesmo. Para essa mudança, ele lista seis princípios sob as quais a marca e os produtos vão passar a operar:

Interações privadas – criação de espaços para interações privadas em todas as plataformas, do WhatsApp ao Messenger, permitindo conversar sem que ninguém consiga ler o que está sendo trocado, ou podendo controlar exatamente o que está sendo trocado, com total transparência.

Criptografia de ponta a ponta – é um sistema de segurança que permite a transmissão de uma mensagem a um receptor sem que ela seja armazenada ou acessada por outra pessoa no meio do caminho, permitindo somente ao receptor da mensagem a sua leitura. É como se ela colocasse a informação “embaralhada” em um cofre, fosse transportada para outra pessoa, que tem a chave a e a “fórmula para desembaralhar”. Isso impede que o Facebook consiga ler suas mensagens ou entregá-las para qualquer autoridade ou governo. Essa é uma grande mudança, considerando que o Facebook tem essa tecnologia, por enquanto, apenas no WhatsApp e em uma área específica do Facebook Messenger.

Redução de permanência – reduzir o tempo que as informações ficam disponíveis nos bancos de dados da empresa. Essa questão não me surpreende, pois cada vez trocamos mais informações, tornando mais difícil para eles manter histórico de tudo (apesar de que temos evoluído cada vez mais nas tecnologias de compressão de dados) e nos últimos anos várias pessoas queriam saber se conseguiam apagar definitivamente as suas informações da plataforma.

Segurança em primeiro lugar – evitando que existam brechas de invasão e de segurança antes de operar os aplicativos. O que me fez pensar: por que já não tínhamos isso antes?

Interoperabilidade – uso de diversas plataformas em uma só. Ou seja, integrações entre Messenger e WhatsApp, bem como Facebook e Instagram. Este ponto é um dos mais controversos na minha opinião, pois significa que, para ter interoperabilidade, nós teremos que conectar todas as plataformas, distribuindo e conectando ainda mais as minhas informações para eles.

Armazenamento seguro de dados – não guardar ou gravar informações sensíveis dos usuários, como por exemplo, localização, orientação sexual, raça, informações de conta…

Além disso, ele falou muito sobre o uso de ferramentas de forma segura, como envio de dinheiro de uma pessoa para a outra, ou compartilhamento de informação sem que o sistema do Facebook consiga ler a mensagem. Basicamente, foram 40 minutos de promessas sobre uma nova forma de pensar, agir e construir produtos que as pessoas se sintam seguras, ouvidas, e que estejam nos conformes da lei de privacidade dos dados de seus países.

Muito bonito, daquele jeitão estranho do Zuck, mas o que precisamos nos perguntar e o que precisamos entender ainda? Bom, seguem alguns pontos que não ficam claros e eu ainda gostaria de entender:

1. O quesito transparência do Facebook ainda está longe de ser compreendido pela população. Um dos pontos citados é de que as informações só serão compartilhadas se alguém da conversa quiser compartilhá-la, dando total liberdade para que as pessoas decidam o que mostrar e o que não mostrar. Mas convenhamos, dos 2 bilhões de pessoas usando as plataformas de mensagens, quantas delas realmente sabem o que é feito com os dados delas hoje? E quando isso mudar, como iremos garantir que as pessoas compreendam quando a ferramenta estará com a criptografia liberada e quando ela não estará? Tanto quanto permitir recursos que façam isso, precisamos conscientizar as pessoas sobre o uso de dados pessoais.

2. Onde fica a venda de publicidade baseada em perfis e o quanto a empresa está disposta a perder de rentabilidade para atingir os objetivos de transparência? Facebook, Instagram e WhatsApp são monetizados através da venda e do uso de dados pessoais para publicidade. Em nenhum momento Zuckerberg expõe seu plano para os parceiros publicitários. Mas adianto que é muito difícil a marca deixar de ganhar dinheiro com publicidade porque deixou de guardar determinadas informações. A criptografia nas plataformas não significa que eles não saberão que você vai casar, por exemplo. Significa que eles ficaram mais precisos em determinar quem você é, e possivelmente, que vai ser cada vez mais difícil “enganar” o algoritmo seguindo páginas de assuntos muito diferentes, pois a conexão de todas as plataformas em uma só facilitará a compreensão de seu comportamento em um local só.

3. Como e com quem fica o controle de informações e quais são as regras do que podemos ou não postar nas redes sociais. A fala do responsável pelo Instagram foi muito voltada ao controle de bullying, isto é, à regulação da informação que circula nas redes sociais, buscando trazer ferramentas que permitam ao usuário não sofrer com ataques de “graça”. Um dos pontos de maior ataque público a Zuckerberg é sobre diversidade e opinião. Discurso de ódio é algo que precisa ser regulado, sem dúvida, mas em algum momento a hiper-regulação pode virar um controle da informação disponibilizada para as pessoas, podendo aumentar ainda mais as bolhas sociais que iremos viver.

4. Em quanto tempo começaremos a cobrar a empresa esse tipo de atitude em vez de só ouvir um posicionamento muito bonito? Várias vezes Zuckerberg cita que sabe que isso não acontecerá da noite para o dia e que a construção será coletiva (com especialistas e grupos de diversos países envolvidos). Mas o quanto realmente o futuro pode ser privado, ou quanto ele está criando falsas sensações de proteção e um posicionamento que irá tirá-lo da lista negra dos seus acionistas?

Não me leve a mal: acho este movimento incrível e necessário, mas sinto que ainda estamos longe de ter maturidade para buscar a transparência que foi vendida nesta semana. Como consumidora dessas plataformas, mesmo tendo maior clareza do que é público ou privado, ainda não sabemos como as informações são utilizadas hoje. Não acredito ser possível “pausar” o que estamos fazendo, mas também não podemos levar mais dez anos para concluirmos que quem deveria estar sendo pago pelos nossos dados, nesse tempo todo, éramos nós. E pra deixar o clima mais feliz, segue o meu meme favorito de 2018.

E aí, o que você achou do discurso do Zuck?

]]>
0
Abandone o gráfico pizza: como contar boas histórias a partir dos dados http://saladadedados.blogosfera.uol.com.br/2019/04/28/abandone-o-grafico-pizza-como-contar-boas-historias-a-partir-dos-dados/ http://saladadedados.blogosfera.uol.com.br/2019/04/28/abandone-o-grafico-pizza-como-contar-boas-historias-a-partir-dos-dados/#respond Sun, 28 Apr 2019 07:00:03 +0000 http://saladadedados.blogosfera.uol.com.br/?p=191 Uma história ruim bem contada vai mais longe do que uma história muito boa difícil de compreender. Na escola, sempre lembramos daquele professor que tem didática e que nos explicava algo de forma simples e lúdica, em vez daquele que só utiliza o livro como apoio e pouco se esforçava para nos ajudar a compreender a origem e a necessidade de uma fórmula de Báskara (que muita gente diz que nunca usou para nada, mas várias outras usam no dia a dia!).

Muito mais do que uma “soft skill”, a habilidade de contar histórias, ou o storytelling, se transformou em uma necessidade. E para os dados, não poderia ser diferente.

Poucas pessoas sabem, mas o meu dia a dia é 50% feito de contar histórias. Traduzir um método e um assunto complexo para contar em uma palestra para um público diverso, apresentar o planejamento de uma área de dados para um grupo de diretores impacientes e críticos, apresentar as descobertas de mais de mil cruzamentos de dados que a equipe do projeto realizou em 30 minutos, planejar o conceito de um laboratórios de dados, escrever sobre visualização de dados de forma lúdica… todas são atividades do meu dia a dia que mais me exigem capacidades de contar histórias do que de ciência de dados. E uma das competências que eu vejo que é muito importante de desenvolver e que faz toda a diferença na hora de contar histórias é a de saber visualizar as informações de forma simples e lógica.

Uma boa visualização de dados pode significar a diferenciação do seu projeto frente ao de um concorrente, ou a compreensão de uma pessoa que não é especialista no assunto para saber como usar aquilo no dia a dia. Em vez de páginas e páginas que nos levam a conclusões voltadas a pessoas da área, ignorando o grande público, imagine se todos as publicações acadêmicas fossem infográficos. Quem sabe não consumiríamos muito mais assuntos científicos no dia a dia dessa forma?

Para mim, visualização de dados e storytelling são uma forma de democratizar e disseminar a informação, tornando-a consumível por todos e não somente para alguns. E elas são a perfeita mistura entre o jornalismo, o design e a ciência. E é exatamente pelo fato de que exigem diversos conhecimentos para que se tenha uma visualização de dados excelente que não é algo fácil de ser realizado com maestria.

Visualizar dados de forma incrível é hard skill, não soft: num cenário ideal, eu preciso de alguém que entenda a informação de forma aprofundada (matemático/estatístico/pesquisador); de um tradutor para o contexto (administrador/economista); de alguém que estude a melhor forma de visualizar (designer), e de que alguém que encontre uma história impactante (jornalista/comunicador). Se você vai colocar isso tudo em um dashboard (painel) automatizado, ainda coloque um ou mais tipos de desenvolvedores nessa sua lista de profissionais. Visualizando isso tudo, as habilidades de uma visualização de dados incríveis fica assim:

F*da, né? Então por que ainda tratamos disso de forma tão simplista nas empresas?

Mais do que isso: se pararmos para pensar, todo e qualquer dado é um evento no tempo. E quando olhamos os dados ao longo do tempo, temos uma história. Por trás de cada história e evento, existem uma ou mais pessoas. Cabe a nós contar a história delas da melhor forma possível.

“Mas Letícia, eu não tenho todos esses profissionais na minha empresa, como eu começo?” Te dou algumas dicas de ouro, que eu costumo dar para quem quer começar a usar a visualização de dados e o storytelling de dados a seu favor.

Primeiro, pare de usar gráficos de pizza! Sim, você me ouviu direito, só pare. Eles não ajudam ninguém. Tem milhares de outras formas de visualizar informação que ajudam muito mais. Comece pelo objetivo de visualização, não pela visualização que “você gosta mais”. Vou deixar aqui alguns links que ajudam: DatavizCatalogue, DatavizProject.

Segundo, tenha certeza de que seus dados estão corretos. Uma pequena informação errada compromete todas as outras! Já fiz apresentações que tinha um número errado, pedi desculpas pelo tempo perdido daquelas pessoas, fechei o computador e voltei quando tive certeza de que tudo estava correto. Não adianta insistir no erro, volte depois.

Terceiro, largue a ferramenta. É isso mesmo: saia da ferramenta, pois ela te deixa presa aos modelos que estão disponíveis e você não conseguirá evoluir. Vá para o papel e desenhe aquilo que você quer contar. Quantas vezes for necessário. Tem um livro-jornal incrível sobre como observar, coletar e desenhar informações da Giogia Lupi e da Stefanie Posavec. Como designers de informação, elas acreditam que desenhar é uma forma de manifestar os pensamentos de forma lógica, buscando a melhor forma de traduzir o que está desorganizado na nossa cabeça.

E mesmo que você seja ruim de desenho, pense que será um exercício que te exigirá uma capacidade de abstração enorme, o que é ótimo! Eu desenho tudo, até mesmo gráficos de linhas e de barras. E o processo é incrível: tenho a sensação de que tudo fica mais claro a medida que vou colocando no papel. Abaixo coloco alguns desenhos inspiradores para você.

Quando você estiver confortável com a forma de mostrar os dados, busque ferramentas que lhe apoiem no processo. E se preciso, combine mais de uma para impacto. Teste os dados nos formatos que você desenhou, e se necessário, ajuste. No final, o resultado pode ficar incrível, como é o caso do trabalho do Leandro Amorim para a DAPP, da FGV, com um simulador que mostra a análise demográfica do fluxo migratório em diversos países.

 

Por último, conte sua história para alguém que nunca ouviu aquele assunto. É bem importante essa etapa, pois precisamos, além de escrever e desenhar, falar em voz alta. Nos ouvir falando é algo que nos mostra mais claramente onde temos que melhorar, pois permanecer com a história na nossa cabeça não nos dá essa noção de realidade. Além disso, pense na forma que você vai contar e na lógica utilizada. Existem duas grandes formas de contar uma história – (1) iniciando do grand finale (a grande descoberta primeiro), ou (2) do objetivo até a descoberta, passando por todos os cruzamentos até chegar nos resultados finais. Pense em quem será seu público e qual a melhor forma de impactá-lo ao contar de uma forma ou de outra. Se possível, teste os dois.

Este é o clássico caso de que 20% do trabalho levam 80% do tempo: contar boas histórias com dados é um trabalho que demanda dedicação e comprometimento. E infelizmente, não é uma fórmula pronta que te levará ao sucesso; cada pessoa deve desenvolver a sua forma de fazer isso, mas só a prática e o teste levam à perfeição.

E um dia, quem sabe, você estará gerando arte a partir dos dados, como faz o francês Kirell Benzi, que une ciência de dados em arte em visualizações incríveis, dignas de galerias 😉

Abaixo, a visualização de mais de 8 mil nós em 13 grupos de indústrias a partir das patentes criadas e as publicações geradas a partir delas. A imagem revela as relações entre as patentes que protegem produtos –representadas por pequenas linhas brancas no alto– e os artigos científicos que essas patentes citam –as ramificações coloridas–, ou seja, a quantidade de ciência aplicada para se chegar a esses produtos.

 

]]>
0
A música pop está mais repetitiva? Os números não mentem http://saladadedados.blogosfera.uol.com.br/2019/04/20/a-musica-pop-esta-mais-repetitiva-os-numeros-nao-mentem/ http://saladadedados.blogosfera.uol.com.br/2019/04/20/a-musica-pop-esta-mais-repetitiva-os-numeros-nao-mentem/#respond Sat, 20 Apr 2019 07:00:00 +0000 http://saladadedados.blogosfera.uol.com.br/?p=166 Divulgação

Música chiclete é aquela que fica presa na cabeça por uma semana, até que você encontre outra para substituí-la e…começa tudo de novo. Mas você também não tem a percepção de que ao longo dos anos a música pop, que passa na rádio e estão nas paradas top da Billboard, em especial, tem se tornado mais repetitiva? Collin Morris resolveu sair da percepção e testar essa hipótese em 2017, provando que a música pop ficou mais repetitiva ao longo das décadas, sim. E não é pouco.

Através do uso de um algoritmo de compressão chamado Lempel-Ziv, um conceito que você deve utilizar o tempo todo e nem nota –  reduzindo arquivos para zip ou gerando gifs – ele testou a repetitividade de palavras dentro de uma música. Toda vez que uma palavra se repete dentro de uma música, ela é contada somente uma vez, deixando palavras que são somente diferentes ao final. Veja o algoritmo funcionando em um trecho da música “Cheap Thrills”, da Sia.

Dessa forma, ele consegue calcular o quanto uma música consegue ser “comprimida”, trazendo em uma escala um percentual de repetitividade – quanto maior o percentual, maior a quantidade de palavras repetidas aquela música tem e, consequentemente, menor a quantidade de palavras únicas.

Em uma outra forma de visualizar, ele descobriu que se colocarmos elas em matrizes e sinalizarmos a repetitividade da música, geramos uma identidade visual própria de cada composição, exemplificada na música “Barbie Girl”, do grupo Aqua.

Assim, ele criou um sistema chamado SongSim, que identifica as palavras repetidas na música, a partir da sua identidade visual, e mostra quantas vezes aquela palavra se repete, criando uma visualização única da música. Você pode, inclusive, customizar e colocar a música que você quiser visualizar.

E já que estamos no clima, coloquei duas músicas diferentes da Anitta: “Vai Malandra” (com Mc Zaac, Maejor feat. Tropkillaz, Dj Yuri) e “Você Mentiu” (com Caetano Veloso). Você consegue identificar qual a mais repetitiva?

A música da Sia exemplificada acima, por exemplo, reduz para até 76,2% do seu tamanho original quando testada no algoritmo. Mas isso é muito ou pouco? Bom, só temos como saber quando comparamos com diversos outros exemplos. E foi exatamente isso que o Morris fez: ele analisou 15 mil músicas, de 1958 a 2017, da Billboard Hot 100, uma tabela musical padrão dos Estados Unidos que avalia a lista das cem músicas mais vendidas fisicamente e digitalmente no decorrer de uma semana, publicada pela revista Billboard.

E o que ele descobriu?

Bom, primeiro que em média todas as músicas pop são reduzidas para até 50% do seu tamanho e que existem músicas que conseguem ser comprimidas em até 98% da sua composição original, como “Around The World”, do Daft Punk (1997), reduzindo de 2,610 caracteres para 61! Se olharmos a distribuição de todas as músicas que ele analisou em um gráfico, fica assim:

O eixo X representa o índice de redução, sendo que quanto mais para a direita uma música, mais ela foi comprimida e mais ela é repetitiva. A música bem da direita é a do Daft Punk, que acabamos de citar. E o que mais observamos? Que existem 20 músicas que são MUITO repetitivas, muito além do da média. Chamamos isso de outliers, ou “pontos fora da curva”. São aqueles elementos que são tão exacerbados que eles distorcem a visualização dos dados.

E quais músicas são essas? Segue a lista abaixo:

E aí, alguma das suas músicas favoritas estão na lista das mais repetitivas?

Além disso, Morris testou as top 100 músicas ao longo das décadas em repetitividade e as comparou com as top 10.

E essa eu acredito que é a sua maior descoberta: as músicas top 10 da Billboard chegam a ser 22% mais repetitivas do que todas as outras. E ao longo das décadas esse valor e a distância só aumentaram!

Enquanto nas décadas de 1960 a 70 os valores ficavam entre 35% e 50% em média, entre 80 e 90 passamos a ter mais da metade da música se repetindo e ficando cada vez menos diversa dentro de seus trechos. Nos anos 2000 as top 10 chegam próximas aos 57% de compressão, batendo seu recorde em 2014, o ano mais repetitivo da história do pop.

E quem é responsável por essa loucura? Bom, analisando os artistas individualmente, podemos ver que tem uma pessoa que não só aprendeu a fórmula, como se beneficia muito bem dela: Rihanna. Na análise de Morris, a Rihanna é a artista com a maior média de repetitividade da história. E não é a toa que as suas músicas estão sempre nas primeiras mais ouvidas pela Billboard.

Ou seja, nas últimas duas décadas, podemos ver que quanto mais repetitiva a música for, maiores as chances de ela estar entre as top 10 da Billboard. Será que descobrimos que a fórmula para o sucesso da música pop é a sua falta de complexidade textual?

E mais do que isso, será que a indústria não é apenas um reflexo dos nossos hábitos, uma vez que nós nos tornamos mais influenciados por músicas mais repetitivas, criando uma fórmula que incentiva esse tipo de consumo e logo, esse tipo de produção? Bom, essa é uma hipótese que ainda não temos resposta e que teremos que analisar muitos dados para conseguir responder!

Para acessar a pesquisa completa do Morris, clique aqui.

]]>
0
Salas secretas de guerra são mito ou realidade? http://saladadedados.blogosfera.uol.com.br/2019/04/12/salas-secretas-de-guerra-mito-ou-realidade/ http://saladadedados.blogosfera.uol.com.br/2019/04/12/salas-secretas-de-guerra-mito-ou-realidade/#respond Fri, 12 Apr 2019 07:00:50 +0000 http://saladadedados.blogosfera.uol.com.br/?p=148

A cena está bem gravada no seu cérebro: várias telas enormes na parede mostrando gráficos, dados e informações que parecem ultrassecretas diante de pessoas sentadas tomando decisões que parecem muito importantes. Você já viu isso inúmeras vezes em filmes, realistas ou não. Em pauta, discussões sobre invasões alienígenas ou a dominação do mundo.

Mas você já parou pra pensar se essas salas são mesmo verdadeiras? E outra: para que servem?

As salas de controle ou de guerra surgiram durante a guerra para reunir pessoas com conhecimentos diversos em torno de uma única mesa. O objetivo? Acelerar a tomada de uma decisão e o consenso entre o grupo. Ou seja, com as pessoas certas e as informações corretas, em teoria, poderíamos tomar melhores ou mais acertadas decisões.

Mas já faz um bom tempo que este conceito vem sendo aplicado por empresas: Gatorade, Netflix, Google, Coca-Cola, Rede Globo são alguns dos exemplos que aplicam este formato para agilizar a geração de insights a partir de informação e ação efetiva.

O que essas empresas fizeram foi, basicamente, conseguir disponibilizar o tempo, a informação, o espaço e os recursos necessários para que se crie sinergia entre diferentes visões de negócio. Elas compreenderam que, em casos em que a decisão precisa ser rápida, são empecilhos a burocracia interna e a separação física.

É como se você tivesse que preparar uma refeição e todos os ingredientes estivessem espalhados pelos cômodos da sua casa. E cada integrante da família soubesse apenas a quantidade adequada para um dos ingredientes. Para piorar, essas pessoas poderiam estar em casa ou não. Essa é a relação de um processo burocrático, demorado e hierárquico, que pode levar semanas para decidir as coisas mais simples.

É nessa hora que alguém costuma perguntar: “Mas, Letícia, você já visitou alguma dessas salas de comando?”.

Sim, já coordenei e planejei a construção de três delas, com formatos e propósitos diferentes.

Outras questão que poderia surgir: “E elas são tão legais quanto a dos filmes?”. Nah… isso é coisa de filme mesmo 😛

Geralmente é uma sala equipada com algumas telas mostrando informações e cheia de pessoas. Não é que a empresa inteira está dentro de uma sala!

E aí é que mora nosso primeiro problema: se não está claro o objetivo de uma sala de guerra, não sabemos quais informações serão importantes e quais não serão. Em geral, já consumimos mais informações do que precisamos no dia a dia, e achar que uma sala de comando terá todas as informações disponíveis é uma utopia desnecessária, que mais atrapalha do que ajuda.

Alguns objetivos comuns de salas de controle:

  • otimização de investimento em mídia (geralmente tratada como sala de performance);
  • para atingirmos um objetivo de venda momentâneo (como uma operação para vender mais em uma Black Friday);
  • para acompanhamento de operações (muito vista em salas de segurança);
  • para monitoramento de processos e prevenção de crises (vista em indústrias, por exemplo).

Cada uma dessas salas contém uma informação diferente, com um propósito de ação diferente. Além disso, precisa estar muito claro quem são as pessoas que tomam decisões de fato sobre aquelas informações e quem está lá somente atrapalhando. Afinal de contas, se colocarmos todo mundo dentro de uma sala de comando, criamos outro problema e não uma solução. E isso é muito comum dentro das empresas – um projeto fica “famoso” pois ele é interessante e vai mudar a forma como fazemos negócio e todos querem fazer parte – mas geralmente metade daquelas pessoas não está diretamente relacionado ao resultado obtido. Logo, por que estão envolvidas?

A Netflix utiliza sua sala de comando principalmente com o intuito de acompanhar o lançamento de novos seriados – como na foto eles estão observando o lançamento da segunda temporada de House of Cards (2014). No momento zero do lançamento eles buscam compreender, através dos dashboards, se alguém já começou a assistir.

Se ninguém estiver assistindo, pode ser um problema de tecnologia e os programadores responsáveis já estão na sala, a postos, investigando o que pode ter ocorrido. O mesmo vale para identificar se tem alguém que assistiu tudo muito rapidamente (o famoso binge watching, o objetivo final da Netflix em nos fazer ficar presos ao conteúdo do início ao fim) e neste caso, das 13 horas de conteúdo, alguém assistiu a temporada inteira em 13 horas e 3 minutos!

(Foto: Paul Sakuma Photography)

Precisamos entender que quando criamos novos formatos de operação em uma organização, não abandonados os antigos hábitos e burocracias automaticamente.

O formato de trabalho não garante a mudança de pensamento necessário a ser gerado nas pessoas para que possamos substituir processos burocráticos por processos ágeis, ideias em gavetas por ideias em ação, decisões orientadas pelas percepção por decisões orientadas por dados. Não é a toa que várias falham ou viram paisagem.

Novos formatos exigem novos processos, pessoas treinadas e políticas organizacionais que incentivem o movimento de mudança.

Afinal de contas, para que serve uma sala de comando se não para abrirmos as informações e deixarmos mais claro para as pessoas por que aquelas decisões são tomadas? Mas se a empresa não mudar a forma como lida com a abertura de dados e informações, tratando culturalmente a visão de transparência da informação, é como liberar alguém em um labirinto sem um mapa!

Outro exemplo é a sala de comando da Gatorade, o Mission Control. O objetivo inicial do projeto era acompanhar e monitorar as interações e mídias sociais da marca, tomando decisões sobre os seus influenciadores em tempo real. Ele funcionou muito como um projeto piloto para a empresa compreender o seu potencial e expandir essa visão para outras marcas e aplicações e trouxe resultados muito satisfatórios em termos de engajamento com o público.

Mas isso exigiu abertura de um novo espaço, contratação e treinamento de pessoas, definição de informações a serem consumidas e propósito de consumo, tecnologias que serão disponibilizadas e mudanças das políticas que orientam a decisão no dia a dia.

Se der algum problema muito grande, essas pessoas tem autonomia para investigar os fatos e tomar decisões de forma ágil? E qual o melhor roteiro de investigação que elas devem seguir? Para quem elas reportam, se reportam para alguém? E qual o objetivo final que elas devem atingir para considerarmos isso um projeto de sucesso?

Assim como vi diversas que deram certo e ainda funcionam até hoje, temos inúmeras que não deram, pois a real é que é tão difícil fazer uma sala de comando funcionar quanto qualquer outra operação.

Não acredite em fórmulas prontas para salas de controle ou na ideia de que isso resolverá seu negócio e terá resultados imediatos. Mudanças de formato, por si só, são mudanças culturais. E cultura a gente não muda de uma hora pra outra.

Colocar pessoas em uma sala esperando que elas tomem decisões melhores sem um processo definido e objetivos claros é perder tempo, espaço e dinheiro.

]]>
0
Que loucura! Descobri que descendo de um rei a partir de um teste genético http://saladadedados.blogosfera.uol.com.br/2019/04/04/descobertas-de-um-dna-o-que-voce-pode-saber-atraves-da-analise-genetica/ http://saladadedados.blogosfera.uol.com.br/2019/04/04/descobertas-de-um-dna-o-que-voce-pode-saber-atraves-da-analise-genetica/#respond Thu, 04 Apr 2019 07:00:42 +0000 http://saladadedados.blogosfera.uol.com.br/?p=122

Todo e qualquer dado gerado na sociedade informa sobre algum comportamento humano. Da mesma forma, todas as informações sobre quem somos estão impressas em nosso DNA. São mais de 3 trilhões de sequências genéticas contidas em cada pessoa, e isso se equivale a 80 gigabytes de informação gerados por DNA analisado, e os computadores para conseguir processar tudo isso ainda são caríssimos e ocupam uma sala inteira.

Mas, quanto mais analisamos do nosso DNA e mais temos informações sobre hábitos do dia a dia, mais a medicina poderá evoluir para quem sabe, um dia, termos remédios fabricados especificamente para cada um de nós e para as nossas necessidades.

A possibilidade de analisar nosso DNA, antes mesmo de nascermos, traz uma mudança de cenário incrível, pois ao invés de descobrirmos que temos alguma doença quando os sintomas aparecem, teremos a possibilidade de compreender, muito antes, quais as variantes (mutações que carregamos em nossos genes que tem a probabilidade de se desenvolver em alguma doença ao longo da vida) estão presentes em nosso DNA ou não.

Aqui, o importante, além de saber o que existe, é entender o que não existe.

Mas, são necessários muitos outros fatores para o aparecimento de uma doença, e possuir uma variante não significa que você irá desenvolvê-la, só significa que você tem mais chances de passar isso adiante para seus filhos ou, ao manter hábitos não saudáveis e que “despertem” ela, que você pode vir a tê-la.

Confuso e um pouco desesperador, mas um conceito importante!

Recentemente, Nina Garcia, editora-chefe da Elle, sabendo do seu histórico familiar com o câncer de mama, analisou seu DNA e encontrou mutações nos genes BRCA1 e BRCA2 que ao interagirem, aumentam as chances de câncer de mama e de ovário. Após vários outros testes, Garcia decidiu por uma dupla mastectomia preventiva (remoção e reposição das mamas), para buscar evitar passar por esta situação no futuro. Garcia, obviamente, é uma pessoa com privilégios e tem a possibilidade de intervenções como esta para prevenir que algo aconteça. Mas sabemos que essa não é a realidade de todos.

Além disso, existem algumas outras doenças, como a diabetes tipo II, que por mais que você saiba que você possui altas chances de ter, você não pode fazer muita coisa a não ser consumir pouco açúcar e manter hábitos mais saudáveis como um todo ao longo da vida. Ou seja, saber de antemão que você tem chances de algo, não lhe permitem, ainda, livrar-se delas.

Afinal de contas, edição de DNA em um corpo já existente ainda é coisa de filme.

Para entender um pouco mais sobre o tipo de resultado que se pode ter e quais informações são analisadas, eu realizei um desses testes (existem várias empresas no mercado que fazem isso!) e vou contar como foi essa experiência.

Como funciona a análise do seu DNA

O valor de um teste desses varia muito do local onde será feito e da complexidade da análise, podendo variar de US$ 100 a US$ 1.000. Fiz o teste nos Estados Unidos, com uma empresa chamada 23&me, e eles realizam um tipo de análise chamada genotyping, que é um pouco diferente do sequenciamento completo.

Isso significa que apenas 0,02% do meu DNA foi analisado, pois eles só sequenciam alguns pares de DNA, buscando elementos específicos e já comprovados importantes. É como se você tivesse milhares de dados na sua empresa, mas escolhesse olhar para o faturamento, por que sabe que aquilo é mais importante naquele momento.

Para realizar, você solicita pelo site e recebe uma caixinha pelo correio, em que você precisa cuspir (sim, salivar mesmo), em um potinho. Após cuspir no potinho, você envia ele de volta pelo correio e algumas semanas depois recebe a confirmação por email.

Sim, é simples assim. Você paga, cospe e tem seu DNA analisado.

Para eles, obviamente não é tão simples, todos nós temos uma divisão de 50% do DNA que recebemos da mãe e 50% que recebemos do pai. Existem 2 tipos de informações diferentes que são liberadas: dados sobre a sua ancestralidade (de onde veio o seu DNA) e dados sobre a sua saúde (quais as mutações e variantes que você possui ou não).

Através da separação desses haplogrupos, eles buscam o encaixe do seu DNA, compreendendo o que veio de cada lado e como ele é composto. Para dados de saúde, são utilizadas as perguntas que são respondidas pelos participantes e estudos que foram realizados com base na composição de DNA de outras pessoas. Ou seja, na medida em que eles vão gerando novas descobertas sobre novos genes e mutações, você vai sendo atualizado sobre o seu próprio DNA.

Abaixo, os meus resultados.

Minha árvore genealógica, de acordo com meu DNA

Lembrando que eu não informei nada além do meu email (não preciso dar nome, CPF, nada disso, somente email e cuspe!), e eu diria que tem várias questões que me surpreenderam na minha composição ancestral.

Sou de uma família de imigrantes italianos, que, como muitos outros, vieram para o Sul do Brasil fugindo da Segunda Guerra Mundial. Logo, não é de se suspeitar que o teste identificou que eu dividido 36,6% com meus ancestrais italianos. Mais especificamente, ele identificou que minha família é do sul da Europa.

Como estamos falando de um período em guerra, a mistura entre nacionalidades era grande naquela época, o que faz com que ele use o termo “broadly” para dizer que não é possível identificar exatamente de onde eles vieram, mas que é de uma região “ampla” da Europa.

Outra questão muito legal da análise é que ele consegue identificar o momento em que eu possuía alguém 100% nascido de uma única população. Ou seja, eu provavelmente tenho um tataravô 100% italiano e outro 100% francês e alemão que nasceram entre 1870 e 1930.

E antes disso, minha família vem de gregos, balkans, britânicos e irlandeses. O que 100% explica por que eu não bronzeio no sol! Brincadeiras a parte, é muito bacana poder entender o caminho percorrido pela nossa família, pois nada disso é simples de buscar, uma vez que são pessoas que tiveram que sair da sua terra por situações de guerra.

Além disso, se você deixar a informação liberada no sistema (aberta a outras pessoas que também realizaram o testes), ele lhe mostra outras pessoas que dividem DNA com você e possivelmente são seus parentes. Ninguém da minha família no Brasil fez o teste, mas ele identificou 114 pessoas que dividem de 1 a 2% do meu DNA (primos de terceiro e quarto graus), na Alemanha e na Itália.

E se eles possuam o DNA de alguma figura histórica famosa, ele traça a árvore até essa pessoa, como no meu caso, em que ele identifica que por parte de mãe eu tenho relação direta com o rei Richard III. Loucura né?

E é claro, todos nós viemos em algum momento da África, então ele identifica de qual ancestral humano você veio e de parte da África a sua família saiu (até 180 mil anos atrás!).

Minha saúde e meus gostos, de acordo com meu DNA

Sobre as descobertas de saúde, antes de você poder acessar a informação você deve passar por um pequeno vídeo que explica que por mais que você carregue determinadas variantes em seus genes, isso não significa que você irá ter essas doenças. Eu tenho 2 variantes, como são chamadas. Uma com baixo risco e outra com alto risco de desenvolver algo no futuro.

No gene HFE eu carrego a variante H63D, que está ligada com alta absorção de ferro no organismo. É uma condição genética, que no futuro pode resultar no desenvolvimento de hemocromatose e causar danos às juntas e alguns órgãos, como fígado, pele, coração e pâncreas. Motivo para desespero? Não, não tenho ninguém na minha família que tenha tido (que eu saiba) e eu sigo uma vida bastante saudável. Mas, devo sim, fazer exames para verificar o nível de ferro no sangue de tempos em tempos.

Além disso, ele classifica como “baixo risco”, pois eu só possuo uma das duas variantes analisadas. Ou seja, precisamos evoluir neste ponto cientificamente para poder dizer se o risco é alto ou não.

Já nos genes F5 e F2, eu carrego o Fator V Leiden e Prothrombin G20210A, que são ligados à trombofilia hereditária, que é uma predisposição ao desenvolvimento de coágulos danosos, que se formam comumente nas pernas e podem ir ao pulmão. Estas são classificadas como “risco levemente alto”. Junto a isso, o teste mostra que obesidade e muito tempo sem se movimentar podem aumentar as chances de desenvolvê-la.

São compiladas ainda diversas análises baseadas em combinação do seu DNA e perguntas que são realizadas aos participantes. Eu já respondi 270 perguntas realizadas e toda semana sai um questionário novo, com novas informações e dúvidas, que vão alimentando o banco de dados deles.

A partir disso, recebo informações que podem ser confirmadas ou não, como: minha composição muscular dificilmente faz parte de atletas de elite (bem possível), tenho baixas chances de ser viciada em café (médio, meu vício é chimarrão mesmo), possivelmente intolerante à lactose (pode me fazer mal quando estou mal do estômago), baixa propensão a ter espinhas (verdade), propensão à misophonia (100% odeio barulho de pessoas mastigando, 100% verdadeiro).

É uma forma interessante de conhecer um pouco mais sobre o grupo de pessoas que possui comportamento semelhante ao nosso e que fazemos parte.

Saber ou não saber, eis a questão

Com esses testes ficando cada vez mais baratos, resta saber se queremos saber de antemão os possíveis problemas aos quais seremos expostos ao longo da vida, ou iremos aderir ao ditado de que a “ignorância é uma benção”. Talvez se soubermos lidar com essas questões desde cedo e se tivermos acesso e medicamentos projetados para nós será mais simples evitá-los, logo, será mais uma rotina, como olhar nosso celular quando acordamos.

E talvez hoje, essa relação nos assuste tanto pelo fato que ainda é muito difícil poder antecipar 100% daquilo que iremos enfrentar, pois não temos acesso a tratamentos personalizados e potencialmente curar uma doença como o câncer de mama signifique passar por procedimentos muito invasivos, como a remoção das mamas.

Agora imagine se algum dia essas informações forem pré-requisitos para realizar o nosso plano de saúde. Você faria o teste para poder pagar menos pois você quase não tem nenhuma pré-disposição genética? E seria justo cobrar mais de quem tem?

E imagine o potencial disso associado ao uso das informações que iremos coletar dos nossos corações e da quantidade de atividades que executamos todos os dias, uma vez conectados por smartwatches?

Por hora, fiquei bastante feliz com meu resultado e buscarei aderir a hábitos que não aumentem minhas chances de desenvolver as doenças. Eu escolho saber. Espero que a escolha seja sempre nossa.

]]>
0
O lado sombrio das mídias só existe por que nós o alimentamos http://saladadedados.blogosfera.uol.com.br/2019/03/27/o-lado-sombrio-das-midias-sociais/ http://saladadedados.blogosfera.uol.com.br/2019/03/27/o-lado-sombrio-das-midias-sociais/#respond Wed, 27 Mar 2019 07:00:47 +0000 http://saladadedados.blogosfera.uol.com.br/?p=98 No princípio era tudo mato… Aí, veio o algoritmo, que impulsiona o que engaja. Se o que engaja é conteúdo perturbador, como faz?

 

Tanto o Facebook quanto o Youtube (Google) se consideram plataformas de tecnologia, não de mídia. Isso pode parecer muito lógico, pois eles são plataformas de disponibilização do conteúdo e de recomendação de conteúdo, bem como de entrega de mídia. Mas ao mesmo tempo significa que eles não se responsabilizam (ou se responsabilizam muito pouco) pelo que está sendo mostrado na plataforma.

E aí reside nosso principal problema. Desde 2016, são inúmeras as acusações de vídeos não relacionados ou não apropriados que são diariamente disponibilizados e vistos na plataforma.

A cada ano essas empresas buscam melhorar a validação daquilo que é disseminado na rede, tirando do ar milhões de vídeos perturbadores e de desinformação, mas nunca é o suficiente: a medida em que eles aprendem como melhorar o que deve ser retirado do ar, as pessoas aprendem como enganar o algoritmo.

Isso significa que crianças podem estar assistindo vídeos da Peppa Pig, recomendados para a idade delas (e no Youtube Kids, canal específico e curado para crianças) e de repente foram parar em um vídeo em que ela assassina e come o pai, ou é torturada em uma sala do dentista (ficaram meses na plataforma e foram retirados do ar com milhares de visualizações).

Ou, que você está buscando informações sobre o seu eleito e não sabe que boa parte do conteúdo que você está consumindo é falso e criado para disseminar informações falsas (fake news, como em um gráfico muito famoso na época das eleições do Trump, que mostrou que o consumo de notícias falsas foi maior que o de notícias verdadeiras).

Ou ainda, que você está olhando o Facebook e de repente aparece o vídeo de um adolescente invadindo uma sinagoga na Nova Zelândia atirando em todos pela frente (assim como o caso da Nova Zelândia, poderíamos ter passado por isso no Brasil há duas semanas). Antes de ser possível retirar do ar, o vídeo já havia sido disponibilizado em diversas outras mídias.

Existe todo um submundo de notícias falsas e de conteúdos perversos em todas as mídias sociais. Semana passada conversando com um amigo ele falou que o condomínio dele possui 2 grupos do WhatsApp: um geral e um só para os homens. No início o objetivo era reunir o grupo do futebol, mas não deu 1 semana eles estavam compartilhando todo tipo de pornografia: da zoofilia a fotos que beiram a maioridade. E não estou dizendo que é algo dos homens, por favor, é apenas um exemplo.

A desinformação é um problema tão grande que na semana passada a boneca MoMo estava aterrorizando diversos pais, e a notícia, rapidamente espalhada pela plataforma, era falsa.

Responsabilidade compartilhada

A medida que algo toma relevância, ele é evidenciado e espalhado de forma exponencial. Uma simples busca por termos que parecem muito inofensivos pode gerar resultados perturbadores. Informações tiradas de contexto ou exacerbadas assustam e dão espaço para a ignorância.

E, pior que isso: nosso cérebro foi codificado para prestar mais atenção em notícias ruins e alarmantes.

Vivemos em um pedaço muito pequeno do mundo, curado e filtrado especificamente para nossas características e personalidade. As plataformas são responsáveis por eliminar conteúdos falsos, de discurso de ódio, de violência e que violam a integridade pessoal ou expõem a privacidade das pessoas (não vou nem falar de pessoas especializadas em roubar e espalhar nudes). Mas, com a quantidade de informações que existe, não há algoritmo que previna o que o humano consegue fazer.

Somos, ainda, muito mais inteligentes do que a máquina, tanto para o lado positivo quando negativo. E a linha entre esses dois nunca esteve tão tênue. Cabe a nós evitar que seja um caminho sem volta. O lado sombrio das mídias só existe por que nós o criamos e alimentamos.

Crescimento exponencial

Lembra de como era o Youtube há 14 anos atrás? Você pode não se lembrar, mas em algum momento foi possível assistir a todos os vídeos postados no Youtube em um dia (há uns 10 anos atrás). Em algum ponto era possível zerar o conteúdo do Facebook e estar atualizado de toda sua rede de amigos. Mas essa não é mais a nossa realidade.

Hoje, para você ter uma ideia, são mais de 4,5 milhões de vídeos assistidos a cada 60 segundos e 300 horas de conteúdo novo disponibilizados na plataforma (432 mil horas por dia). Isso significa que se você quisesse assistir a todo o conteúdo postado hoje, você levaria 50 anos para fazê-lo.

E mais maluco do que tudo isso é você acreditar que tem uma criança de 6 anos, chamada Ryan, que faturou US$ 22 milhões em 2017 fazendo “unpacking” de brinquedos (ele abre brinquedos novos na frente da câmera), pois tem mais de 18 milhões de pessoas inscritas em seu canal do Youtube. Agora quando seu filho fala que quer ser YouTuber não parece algo tão ruim, não é mesmo?

Tudo isso pra dizer que temos muito mais informação disponível do que conseguimos consumir. E isso nos gera:

  1. uma constante ansiedade por não conseguir consumir tudo (diversos estudos sobre saúde mental mostram que isso virou um problema);
  2. a necessidade de filtrar a informação para as pessoas.

Algoritmos de recomendação

A filtragem serve para entregar o conteúdo certo para a pessoa certa. E ela é possível por que a partir do momento em que você entra na mídia o algoritmo está guardando informações sobre você e aprendendo seus gostos, interesses e desinteresses (falei mais sobre isso aqui!).

Cada clique é um indicador se aquele tipo de conteúdo vai fazer você ficar mais ou menos tempo assistindo vídeos. E desde 2015, ao ser adquirido pelo Google, o YouTube roda com um algoritmo do Google Brain, empresa de inteligência artificial.

O algoritmo identifica perfis que possuem padrões de comportamento similares aos seus e entrega sugestões de vídeos baseadas nessas análises. Mas por ser um algoritmo muito complexo (assisti um entrevista com um dos desenvolvedores responsáveis e ele falou que o algoritmo possui facilmente mais de 1 milhão de linhas de código) nem sempre as regras são muito claras.

E esses espaços cinzas – relações que o algoritmo faz que não conseguimos identificar antes que elas aconteçam – tem gerado recomendações de vídeos que são relacionados pelo conteúdo que mostram, mas que não são adequados para a idade ou para o público por conter violência, discurso de ódio e imagens perturbadoras, muitas vezes criados por robôs e não por pessoas.

Então sabe aquela sensação de que você entrou no YouTube para buscar como fazer um enfeite de Páscoa e magicamente se passaram 2 horas e você já assistiu 15 vídeos diferentes sobre todos os tópicos da Páscoa, e não sabe como foi parar em um vídeo de Natal?

Este é o famoso buraco negro da internet e é exatamente nisso que eles se tornaram especialistas. Eles não produzem conteúdo (muito pouco), mas são especialistas em fazer você ficar conectado no conteúdo disponível — afinal, é assim que eles ganham dinheiro.

O que fazer?

“Bom, Letícia, mas se eu posso ajudar nisso, quero saber como”. Beleza, então vou deixar algumas dicas aqui embaixo do que fazer para não alimentar esse monstrinho chamado internet:

  1. Não compartilhe informações que você não tem certeza se são verdadeiras. Por mais que aquilo pareça muito perigoso ou muito alarmante, o ditado que fala que é “melhor avisar”, neste caso não é recomendado. Verifique a informação em jornais e fontes seguras e confiáveis.
  2. Acompanhe o tipo de conteúdo que seu filho consome das redes. Não deixe a criança 100% solta, conheça os canais que ela consome (prefira perfis oficiais a outros que não são regulados ou verificados) e confira o histórico de visualizações. É importante acompanhar ao que a criança está sendo exposta.
  3. Denuncie toda e qualquer informação que pareça falsa ou imprópria (tem um botão escondido em todas as postagens que você pode reportar que aquele conteúdo é abusivo). Exerça seu direito. Quando algo é reportado, as mídias verificam o conteúdo específico.
  4. Não dê engajamento e voz para quem busca disseminar conteúdos impróprios. Não assista vídeos de estupro, não busque por violência grátis: em tempo de mídias sociais visualização é aprovação, e aprovação leva à recomendação e disseminação.

Se você tiver dúvidas sobre os algoritmos e como evitar estes problemas, deixa nos comentários que eu respondo. Sua dúvida é importante e pode ser a do outro 😉

 

]]>
0