Big data é o termo que descreve o grande volume de dados – estruturados e não estruturados – que não consegue ser tratado pelos softwares tradicionais.
Portanto, o termo se refere ao processamento de volumes colossais de dados, o que exige máquinas e algoritmos poderosos. Mas, além da quantidade de dados, o Big Data se diferencia pela capacidade de processar dados não estruturados, como continuamente produzidos em grandes quantidades por sensores digitais, equipamentos de gravação de áudio e vÃdeo, dispositivos de computação móvel, pesquisas na Internet, redes sociais, tecnologias de mÃdia e assim por diante.
Explicando: As antigas planilhas do RH tinham campos preenchidos com informações especÃficas de cada colaborador, como: nome, data de nascimento, etc. Então uma pesquisa para, por exemplo, saber a idade média dos colaboradores era fácil. Mas essas fichas também tinham um espaço para observações. As análises das informações anotadas ali só podiam ser feitas por humanos, por não estarem “estruturadas†ou em um formato padronizado. A mesma informação poderia ter redações diferentes quando anotada por pessoas diferentes. Por exemplo:
• Teve afastamento pelo INSS por 25 dias.
• Ela tirou licença médica de 25 dias.
• Faltou vinte e cinco dias por motivos de saúde.
As ferramentas de Big Data são capazes de interpretar essas várias redações e entender que se trata da mesma informação.
Mas não assuma que todo problema analÃtico é um problema de big data. Entenda primeiro a causa básica dos problemas e, em seguida, selecione as tecnologias analÃticas certas para resolvê-los. Muitos problemas podem ser resolvidos sem grande armazenamento de dados ou análise de big data. Nenhum tipo de análise é melhor que o outro. Cada um faz coisas diferentes, resolve problemas diferentes e requer diferentes softwares e arquiteturas [1].
Embora o termo big data seja relativamente novo, o ato de coletar e armazenar grandes quantidades de informações para análises é antigo. O conceito ganhou força no começo dos anos 2000, quando o analista Doug Laney articulou a definição mais aceita de big data em três Vs [2]:
Volume. Organizações coletam dados de fontes variadas, incluindo transações financeiras, mÃdias sociais e informações de sensores ou dados transmitidos de máquina para máquina. No passado, armazená-los teria sido um problema — mas novas tecnologias (como o Hadoop) aliviaram esse fardo.
Velocidade. Os dados são transmitidos numa velocidade sem precedentes e devem ser tratados em tempo hábil. Etiquetas RFID, sensores e medidores inteligentes estão impulsionando a necessidade de lidar com torrentes de dados praticamente em tempo real.
Variedade. Dados são gerados em inúmeros formatos — desde estruturados (numéricos, em bases de dados tradicionais) a não-estruturados (documentos de texto, e-mail, vÃdeo e áudio).
O Big Data é a matéria-prima do processo da People Analytics. Serve para obter insights que levam a decisões melhores e ações estratégicas de negócio.
Dados não estruturados compõem mais de 90% dos dados gerados em todo o mundo, por isso é mais importante do que nunca examiná-los como parte da estratégia de dados de sua empresa. Bernard Marr
Referências:
- SAS. What Kind of Big Data Problem Do You Have? DisponÃvel em: https://www.sas.com/pt_br/whitepapers/what-kind-of-big-data-problem-107085.html. Acesso em 25.03.20.
- SAS. Big Data: What it is and why it matters. DisponÃvel em: https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html. Acesso em 25.03.20.
Post publicado em agosto de 2019 e atualizado em maio de 2020.