Envisioning Information: Narratives of space and time

Comentários sobre o livro

Capa do livro Envisioning Information

O livro, embora interessante, difere dos anteriores [1, 2 e 3] na objetividade e enfoque prático. Assim, mais do que orientar à produção de gráficos e imagens visualmente comunicativos, o texto apresenta muitas curiosidades e chama a atenção para detalhes que tornam a observação do mundo mais interessante. Seja pela exposição feita por Galileu sobre as luas de Júpiter, seja pelas características dos impressos com horários de trens e aviões ou, ainda, por analisar notações usadas para descrever passos de dança.

De qualquer modo, é uma leitura interessante para profissionais envolvidos na comunicação ou nas artes visuais.

Alguns destaques do texto:

  • Apesar da beleza e da utilidade do melhor trabalho, o design da informação despertou pouca atenção crítica ou estética: não há Museu de Arte Cognitiva.
  • Não importa o que aconteça, a premissa moral operacional do design da informação deve ser que nossos leitores estejam alertas e cuidadosos; eles podem estar ocupados, ansiosos para seguir em frente, mas não são estúpidos.
  • Dados espalhados por páginas e páginas exigem que os visualizadores confiem na memória visual – uma habilidade fraca – para fazer um contraste, uma comparação, uma escolha.
  • A quantidade de detalhes é uma questão completamente separada da dificuldade de leitura. A desordem e a confusão são falhas de design, não atributos de informação.
  • Na leitura, não lemos letras, mas palavras, palavras como um todo, como uma “imagem da palavra”. Estudos de oftalmologia mostram que, quanto mais as letras são diferenciadas umas das outras, mais fácil é a leitura.
  • A simplicidade é uma preferência estética, não uma estratégia de exibição de informações, não um guia para a clareza.
  • Entre os recursos mais poderosos para reduzir o ruído e enriquecer o conteúdo dos displays está a técnica de estratificação e separação, estratificando visualmente vários aspectos dos dados.

Outras citações

Medidas da variabilidade estão no cerne do raciocínio quantitativo.  – R. A. Fisher, fundador da estatística moderna, em 1925.

Não há nada tão misterioso quanto um fato claramente descrito. – Garry Winogrand, fotógrafo

Pintar bem é simplesmente isto: colocar a cor certa no lugar certo. – Paul Klee

Referência

  1. Tufte, Edward R. Data Analysis for Politics and Policy. Yale University. Prentice Hall. Inc., Englewood Cliffs. N.J. 1974. Meus comentários em: https://www.linkedin.com/pulse/data-analysis-politics-policy-d%C3%B3rian-bachmann/
  2. Tufte, Edward R. Data Analysis for Politics and Policy. Yale University. Prentice Hall. Inc., Englewood Cliffs. N.J. 1974. Meus comentários em: https://www.linkedin.com/pulse/data-analysis-politics-policy-d%C3%B3rian-bachmann/
  3. Tufte, Edward R. Data Analysis for Politics and Policy. Yale University. Prentice Hall. Inc., Englewood Cliffs. N.J. 1974. Meus comentários em: https://www.linkedin.com/pulse/data-analysis-politics-policy-d%C3%B3rian-bachmann/

O livro

Tufte, Edward R. Envisioning Information: Narratives of space and time. Graphics Press. Connecticut. Sixth printing, February 1998.

Big Data e o RH

Teclado de computador sob um retângulo onde está escrito Big Data.
Imagem de Gerd Altmann por Pixabay

Big data é o termo que descreve o grande volume de dados – estruturados e não estruturados – que não consegue ser tratado pelos softwares tradicionais.

Portanto, o termo se refere ao processamento de volumes colossais de dados, o que exige máquinas e algoritmos poderosos. Mas, além da quantidade de dados, o Big Data se diferencia pela capacidade de processar dados não estruturados, como continuamente produzidos em grandes quantidades por sensores digitais, equipamentos de gravação de áudio e vídeo, dispositivos de computação móvel, pesquisas na Internet, redes sociais, tecnologias de mídia e assim por diante.

Explicando: As antigas planilhas do RH tinham campos preenchidos com informações específicas de cada colaborador, como: nome, data de nascimento, etc. Então uma pesquisa para, por exemplo, saber a idade média dos colaboradores era fácil. Mas essas fichas também tinham um espaço para observações. As análises das informações anotadas ali só podiam ser feitas por humanos, por não estarem “estruturadas” ou em um formato padronizado. A mesma informação poderia ter redações diferentes quando anotada por pessoas diferentes. Por exemplo:

• Teve afastamento pelo INSS por 25 dias.

• Ela tirou licença médica de 25 dias.

• Faltou vinte e cinco dias por motivos de saúde.

As ferramentas de Big Data são capazes de interpretar essas várias redações e entender que se trata da mesma informação.

Mas não assuma que todo problema analítico é um problema de big data. Entenda primeiro a causa básica dos problemas e, em seguida, selecione as tecnologias analíticas certas para resolvê-los. Muitos problemas podem ser resolvidos sem grande armazenamento de dados ou análise de big data. Nenhum tipo de análise é melhor que o outro. Cada um faz coisas diferentes, resolve problemas diferentes e requer diferentes softwares e arquiteturas [1].

Embora o termo big data seja relativamente novo, o ato de coletar e armazenar grandes quantidades de informações para análises é antigo. O conceito ganhou força no começo dos anos 2000, quando o analista Doug Laney articulou a definição mais aceita de big data em três Vs [2]:

Volume. Organizações coletam dados de fontes variadas, incluindo transações financeiras, mídias sociais e informações de sensores ou dados transmitidos de máquina para máquina. No passado, armazená-los teria sido um problema — mas novas tecnologias (como o Hadoop) aliviaram esse fardo.

Velocidade. Os dados são transmitidos numa velocidade sem precedentes e devem ser tratados em tempo hábil. Etiquetas RFID, sensores e medidores inteligentes estão impulsionando a necessidade de lidar com torrentes de dados praticamente em tempo real.

Variedade. Dados são gerados em inúmeros formatos — desde estruturados (numéricos, em bases de dados tradicionais) a não-estruturados (documentos de texto, e-mail, vídeo e áudio).

O Big Data é a matéria-prima do processo da People Analytics. Serve para obter insights que levam a decisões melhores e ações estratégicas de negócio.

Dados não estruturados compõem mais de 90% dos dados gerados em todo o mundo, por isso é mais importante do que nunca examiná-los como parte da estratégia de dados de sua empresa. Bernard Marr

Referências:

  1. SAS. What Kind of Big Data Problem Do You Have? Disponível em: https://www.sas.com/pt_br/whitepapers/what-kind-of-big-data-problem-107085.html. Acesso em 25.03.20.
  2. SAS. Big Data: What it is and why it matters. Disponível em: https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html. Acesso em 25.03.20.

Post publicado em agosto de 2019 e atualizado em maio de 2020.

Pesquisas – Melhores empresas para trabalhar

Exame - Melhores empresas

Como são as duas pesquisas de “melhores empresas para trabalhar” no Brasil?

No que diz respeito à coleta de dados, as metodologias das duas pesquisas são semelhantes. Mas que tipo de empresa é a “melhor para trabalhar”, segundo essas pesquisas?

A Pesquisa GPTW/Época parte de um modelo em que um bom ambiente de trabalho é descrito como um lugar no qual você confia nas pessoas para quem trabalha, tem orgulho do que faz e gosta dos colegas. De acordo com esse modelo, o funcionário de qualquer organização desenvolve três relações básicas no ambiente de trabalho: a primeira com a direção da companhia em todos os níveis (Confiança, subdividida nas categorias Credibilidade, Respeito e Imparcialidade), a segunda com a própria tarefa, o trabalho da equipe e a contribuição da empresa para a comunidade (Orgulho), e a terceira com os colegas (Camaradagem). Cada uma dessas cinco categorias (Credibilidade, Respeito, Imparcialidade, Orgulho e Camaradagem) tem peso semelhante no questionário, respondendo por aproximadamente 20% cada uma.

E na Pesquisa USP/Exame?

Na Pesquisa USP/Exame, realizada pela primeira vez em 2006, o modelo teórico é decorrente das pesquisas realizadas pela Fundação Instituto de Administração da USP (FIA-USP) há mais de 20 anos. Reduz-se o peso dado para Satisfação e Motivação como parâmetro principal da relação das pessoas com a empresa e incorpora-se o tema da Identidade, ou a identificação dos funcionários com os valores da empresa e a estratégia do negócio. Além disso, dois indicadores ganham mais peso: 1) Liderança e 2) Aprendizado e Desenvolvimento. Assim, a categoria Identidade tem um peso de 14,1% na nota final de percepção dos funcionários; a categoria Satisfação e Motivação, 46,9%; a categoria Liderança (que demonstra como os funcionários avaliam seus chefes segundo a habilidade para se comunicar, criar compromissos e promover aprendizado, bem como a demonstração de confiança, capacidade de atuar com justiça e de promover o desenvolvimento, além de ser coerente em seu discurso e suas atitudes), 23,4%; e a categoria Aprendizado e Desenvolvimento, 15,6%. Em relação às práticas de gestão de pessoas, a Pesquisa USP analisou seis fatores: remuneração e benefícios; carreira profissional; educação; responsabilidade social e ambiental; integridade física, psíquica e social; e saúde. Isso resulta no Índice de Qualidade na Gestão de Pessoas, que vai de zero a cem pontos.

Fonte: HSM Management Update. Nº 54 – Março 2008.

The Signal and the Noise – Resumo do livro

The signal and the Noise

Fazendo uso de exemplos fundamentados na política norte-americana, nos jogos de baseball, em projeções econômicas e na probabilidade de ocorrências de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsão de resultados.

Enquanto as eleições americanas são tema de conhecimento comum, as muitas considerações sobre beisebol – esporte pouco conhecido entre nós – podem ser enfadonhas; o capítulo sobre a bolha do pôquer foi, ao menos para mim, intragável.

Ainda assim, para os curiosos sobre o tema da análise e interpretação de dados, é um livro instigante e interessante. Mas, o foco do autor está nas muitas histórias interessantes e pouco contribui com ferramental para separar os sinais dos ruídos, como por exemplo o Controle Estatístico de Processos CEP, ferramenta apenas citada no texto.

Algumas observações selecionadas:

A verdadeira era da informação começou em 1440, com a invenção da imprensa por Johannes Guttemberg. Antes, uma página de livro manuscrito custava cerca de 20 dólares, limitando o acesso ao conhecimento.

É importante lembrar que os modelos são simplificações da realidade e devem ser usados com cuidado.

Um sinal é uma indicação de uma verdade subjacente por trás de uma estatística ou problema preditivo, enquanto ruídos são padrões aleatórios que podem facilmente ser confundidos com sinais. O sinal é a verdade. O ruído é o que nos distrai da verdade.

O objetivo de qualquer modelo de predição é capturar tantos sinais quanto possível e tão poucos ruídos quanto puder. Armstrong argumenta que “quanto mais complexo o modelo, piores são as previsões”. É uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatística, a confusão de tomar ruídos como sinais é denominada overfitting. Modelos puramente estatísticos, com grande número de variáveis e uma pequena quantidade de eventos para sua validação, geralmente levam ao risco de overfitting. Esse risco é consideravelmente menor quando se usa modelos físicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade é reconhecer a influência que nossas premissas têm em nossas previsões.

A estatística tem sido parte dos esportes desde há muito tempo. O primeiro conjunto de informações – com cinco informações sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto é categorizar as informações, geralmente em um pequeno número de categorias, pois isso facilita o entendimento.

A inspeção visual de um gráfico que mostra a interação entre duas variáveis geralmente é um caminho mais rápido e confiável para identificar outliers nos dados do que um teste estatístico.

Predizer o passado é um oximoro e obviamente não pode ser contado entre os sucessos.

A estatística é uma das habilidades fundamentais necessárias à ciência dos dados.

Uma previsão científica exige um resultado probabilístico, ou seja, nas previsões é importante informar também a incerteza. Coisa comum nas pesquisas eleitorais, porém rara nos resultados de outras previsões. Laplace via a probabilidade como um meio caminho entre a ignorância e o conhecimento.

A heurística do “acompanhe a maioria, especialmente quando não sabe nada melhor” normalmente funciona bem.

Consenso não é sinônimo de unanimidade, mas um grande acordo obtido após um processo de deliberação. É, portanto, uma alternativa à votação.

Informação só se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês)

Nota: Já está disponível em português.

Os custos da má informação

Cost

Na era da informação, em que colher dados e gerar gráficos se tornou muito barato, cabem algumas questões para os dirigentes das organizações:

  • Quanto tempo é perdido procurando informação necessária em uma grande quantidade de informação irrelevante?
  • Quanto tempo é desperdiçado gerando relatórios que ninguém lê?
  • Quanta decisão errada é tomada porque gerentes e diretoria são distraídos por informações supérfluas e inúteis?

A verdade é que é fácil identificar os custos para melhorar o sistema de informações da organização, mas o desperdício resultante das questões levantadas já faz parte dos processos e da cultura da empresa e são consideradas normais. Portanto, não chamam a atenção nem são objeto de maiores cuidados. Entretanto, tais custos da má informação são significativos e podem representar uma desvantagem competitiva.

Nota: Este texto foi inspirado em artigo de Christer Idhammar publicado na Pulp & Paper International. Set/2014 p. 10.

Estatísticas versus Indicadores

introstatslogocropped

Na gestão de RH são geradas diversas estatísticas que descrevem o conjunto dos empregados, como:

  • Idade média
  • Tempo na empresa
  • Escolaridade
  • Gênero, etc.

Estes parâmetros são úteis, mas não devem ser confundidos com indicadores. Indicadores são variáveis para as quais são estabelecidos objetivos (metas) que, uma vez alcançados, trarão algum benefício ao negócio. Assim, se o percentual de mulheres na equipe é pequeno e acredita-se que uma maior participação feminina trará uma vantagem competitiva, então pode ser estabelecida a meta de, por exemplo, contar com um mínimo de 30% de mulheres até o final do próximo ano. Desse modo, o Percentual de Mulheres passa a ser um indicador ao qual deve ser associado um Plano de Ações que descreve o que será feito para que a meta seja alcançada. Também deve ser planejada uma sistemática de verificação periódica (análise crítica), para que os gestores possam acompanhar o progresso e identificar eventuais necessidades de ajustes.