Mito: Por causa da tecnologia digital e da computação em nuvem, as empresas evitam gerar lixo documental ou resíduos produzidos em relação ao armazenamento de informações. As organizações se livram das pilhas de lixo que incluem DVDs ou Blu-Rays multimídia, faturas, contratos, relatórios, propostas, orçamentos e correspondência comercial.
Na realidade, o desperdício acontece mesmo com a tecnologia digital. As pessoas criam vários tipos de desperdício de dados, incluindo dados desnecessários que ocupam espaço de armazenamento, dados não classificados que podem ser úteis, mas esquecidos (e difíceis de localizar), dados duplicados e dados destinados a determinados usuários, mas são subutilizados ou não são usados os supostos usuários. Estes são desperdício de dados caro que podem ser abordadas pelas seguintes práticas recomendadas.
1. Adquira o sistema e as ferramentas certas para lidar com eficiência com grandes quantidades de dados
As organizações que trabalham com coleta e análise de dados devem garantir a eficiência na maneira como armazenam, gerenciam e descartam dados. Os desenvolvedores de IA ou aprendizado de máquina, em particular, precisam de uma maneira eficiente de classificar e gerenciar dados, pois coletam e analisam constantemente uma variedade de informações. Deve haver um sistema que facilite a localização, recuperação e, posteriormente, a exclusão de dados para liberar espaço de armazenamento para mais dados. A ausência disso pode levar a redundância de armazenamento, armazenamento contínuo de dados desnecessários ou indesejados e dificuldades na localização de dados.
Existem diferentes abordagens para lidar com dados, como data warehousing e o uso de data lakes. Existem também várias soluções de armazenamento, gerenciamento e análise de dados. Exemplos disso são Druid, ClickHouse, Cassandra, Prometheus e Elasticsearch. Essas abordagens e soluções apresentam diferentes prós e contras, por isso é importante avaliá-las meticulosamente.
Comparações detalhadas ou guias como este artigo sobre Apache Druida vs Clickhouse pode ser útil na escolha das ferramentas e estratégias certas a serem implementadas. Diferentes organizações têm necessidades diferentes, enquanto diferentes soluções de armazenamento e análise de dados também têm funções e recursos variados. É importante verificar se a solução escolhida atende aos requisitos específicos de uma organização.
2. Invista em um sistema eficiente para erradicar e prevenir o ROT
ROT refere-se a dados redundantes, obsoletos e triviais. De acordo com a empresa de segurança de dados ManageEngine, pelo menos 30% dos dados nas organizações podem ser considerados ROT. Isso representa um grande desafio para o gerenciamento de dados, pois não apenas adiciona custos desnecessários de armazenamento de dados; também torna difícil encontrar e utilizar dados específicos de forma eficiente quando eles são necessários.
Todos os dados existentes devem ser examinados para determinar se ainda devem ser mantidos ou apagados permanentemente. Em seguida, os restantes dados úteis ou potencialmente úteis podem ser inventariados e classificados/catalogados. Se for difícil determinar se um grupo específico de dados deve ser excluído, eles podem receber sua própria categoria ou local de armazenamento que pode ser facilmente revisitado posteriormente.
Ter um sistema de gerenciamento de dados eficiente, no entanto, não se trata apenas de hardware e software. Um componente crucial que deve ser levado em consideração são as pessoas que criam, usam e gerenciam os dados em uma organização. Eles precisam ser devidamente orientados ou treinados sobre os papéis que desempenham na eliminação e prevenção de dados ROT.
3. Estabeleça políticas claras de organização e retenção de dados
Accenture diz que quase 80% dos dados corporativos não são estruturados. Isso significa que os dados mantidos não têm classificação lógica. Diferentes tipos de dados para diferentes usos são armazenados arbitrariamente em vários locais. Alguns funcionários podem ter alguma forma de classificação ou organização, mas os esquemas que empregam são inconsistentes.
A falta de organização ou estrutura de armazenamento de dados é um dos maiores motivos pelos quais alguns dados se tornam redundantes e difíceis de localizar. A redundância desperdiça espaço de armazenamento não apenas no local, mas também na nuvem. Ao examinar coleções de arquivos para localizar dados específicos, há poder de computação envolvido e tempo e esforço desnecessários desperdiçados.
Para evitar ineficiências e desperdícios, é aconselhável estabelecer políticas claras de organização e retenção de dados desde o início. Ele ajuda a definir os detalhes sobre quais dados armazenar, onde armazená-los, como classificar os dados e por quanto tempo manter os dados armazenados. Também ajuda a tornar uma política adicionar metadados a todos os arquivos armazenados para auxiliar na descoberta e avaliação de dados. Ter uma política clara e abrangente sobre organização e retenção de dados também tem o benefício adicional de facilitar a automação e cumprir as regulamentações de dados.
Além disso, ajuda a adotar o conceito de “fonte única de verdade”. Isso significa ter um repositório central ou índice de todos os dados em uma organização. Isso garante que cópias duplicadas desnecessárias sejam evitadas e também facilita a localização de dados sempre que necessário e a avaliação dos dados para retenção ou exclusão.
4. Familiarize-se adequadamente com as leis ou regulamentos de dados
Algumas organizações mantêm os dados pelo maior tempo possível porque não têm certeza do que as leis e os regulamentos exigem. Esses regulamentos incluem aqueles definidos pelo IRS e FTC, padrões ISO, padrões do setor como os do CCPA e PCI-DSS e políticas internas da empresa, como requisitos de retenção de registros de funcionários e esquemas de controle de versão.
Nos Estados Unidos, várias leis federais e estaduais têm mandatos de retenção de dados. O Federal Information Security Management Act (FISMA), por exemplo, obriga contratados e agências federais a manter seus dados armazenados por pelo menos três anos. A Comissão Nacional de Energia (NERC) exige que as entidades relacionadas à energia retenham dados por três a seis meses. A Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA) impõe um mínimo de pelo menos seis anos de exigência de arquivamento de informações de saúde para entidades relacionadas à saúde.
Para organizações que operam em diferentes partes do mundo, é necessário familiarizar-se com as diferentes leis e regulamentos de países específicos. Na Suíça, por exemplo, todos os dados comerciais devem ser retidos por 10 anos após o final de um exercício financeiro. Além disso, o Marco Regulatório Internacional para Bancos (Basileia III) exige que os bancos mantenham um histórico de dados de três a sete anos.
O desperdício de armazenamento de dados não é uma questão trivial
O desperdício de armazenamento de dados não se limita aos custos digitais. Também pode ter um impacto offline. De acordo com um Conselhos sólidos para uma sessão de perguntas e respostas do Green Earth, 0.2 tonelada de dióxido de carbono é gerada todos os anos para cada 100 GB de dados armazenados na nuvem. Isso significa que salvar dados desnecessariamente na nuvem se traduz em emissões que poderiam ter sido evitadas.
Assim como outras formas de desperdício, o desperdício de armazenamento de dados é evitável ou pelo menos redutível. Garantir o armazenamento de dados eficiente e seguir as práticas recomendadas pode reduzir significativamente o desperdício indesejado de armazenamento de dados, incluindo seus efeitos correspondentes offline.
Imagem: P
Deixe um comentário
Tem algo a dizer sobre este artigo? Adicione seu comentário e comece a discussão.