误区:由于数字技术和云计算,企业避免产生与信息存储相关的文件垃圾或废物。 组织开始处理大量垃圾,包括多媒体 DVD 或蓝光、发票、合同、报告、提案、预算和商业信函。
实际上,即使使用数字技术,也会发生浪费。 人们会产生各种数据浪费,包括占用存储空间的不必要数据、可能有用但被遗忘(且难以定位)的未分类数据、重复数据以及针对某些用户但未被充分利用或根本未被使用的数据假定的用户。 这些是 代价高昂的数据浪费 这可以通过以下最佳实践来解决。
1. 获取正确的系统和工具以有效处理大量数据
从事数据收集和分析业务的组织应确保他们存储、管理和丢弃数据的方式的效率。 人工智能或机器学习开发人员尤其需要一种有效的方法来分类和管理数据,因为他们不断收集和分析各种信息。 必须有一个系统可以轻松定位、检索和随后删除数据,以便为更多数据腾出存储空间。 缺少这些可能会导致存储冗余、不需要或不需要的数据的持续存储以及定位数据的困难。
处理数据有不同的方法,例如数据仓库和数据湖的使用。 还有各种数据存储、管理和分析解决方案。 例如 Druid、ClickHouse、Cassandra、Prometheus 和 Elasticsearch。 这些方法和解决方案各有利弊,因此仔细评估它们很重要。
像本文这样的深入比较或指南 Apache Druid 与 Clickhouse 在选择正确的工具和策略来实施时很有用。 不同的组织有不同的需求,而不同的数据存储和分析解决方案也有不同的功能和特性。 确定所选择的解决方案是否符合组织的特定要求非常重要。
2. 投资一个有效的系统来根除和防止 ROT
ROT 是指冗余、过时和琐碎的数据。 根据数据安全公司 ManageEngine 的说法,至少 组织中 30% 的数据可被视为 ROT. 这对数据管理提出了重大挑战,因为它不仅增加了不必要的数据存储成本; 它还使得在需要时难以有效地查找和利用特定数据。
应检查所有现有数据,以确定它们是否仍应保留或永久删除。 然后,可以对剩余的有用或可能有用的数据进行盘点和分类/编目。 如果难以确定是否应该删除特定的一组数据,可以为它们指定自己的类别或存储位置,以便以后轻松重新访问。
然而,拥有一个高效的数据管理系统不仅仅是硬件和软件。 应该考虑的一个关键组成部分是在组织中创建、使用和管理数据的人员。 他们需要正确定位或培训他们在消除和防止 ROT 数据中所扮演的角色。
3. 建立清晰的数据组织和保留政策
埃森哲表示,几乎 80% 的企业数据是非结构化数据. 这意味着被保存的数据没有逻辑分类。 用于不同用途的不同类型的数据任意存储在不同的位置。 有些员工可能有某种形式的分类或组织,但他们采用的方案却不一致。
缺乏组织或数据存储结构是导致某些数据变得冗余且难以定位的最大原因之一。 冗余不仅会浪费本地存储空间,还会浪费云中的存储空间。 在检查文件集合以定位特定数据时,会涉及计算能力,并且会浪费不必要的时间和精力。
为避免效率低下和浪费,建议从一开始就建立清晰的数据组织和保留策略。 它有助于详细说明要存储哪些数据、将它们存储在哪里、如何对数据进行分类以及将数据保存多长时间。 它还有助于将元数据添加到所有正在存储的文件中以帮助数据发现和评估。 制定明确而全面的数据组织和保留政策还具有促进自动化和遵守数据法规的额外好处。
此外,它有助于采用“单一事实来源”的概念。 这意味着在组织中拥有所有数据的中央存储库或索引。 这样可以确保避免不必要的重复副本,并且还可以在需要时更轻松地查找数据并评估数据以进行保留或删除。
4. 熟悉数据法律或法规
一些组织尽可能长时间地保留数据,因为他们不确定法律和法规的要求。 这些法规包括 IRS 和 FTC 制定的法规、ISO 标准、CCPA 和 PCI-DSS 等行业标准,以及员工记录保留要求和版本控制方案等公司内部政策。
在美国,许多联邦和州法律都有数据保留要求。 一方面,联邦信息安全管理法 (FISMA) 要求承包商和联邦机构将其数据保存至少三年。 国家能源委员会 (NERC) 要求能源相关实体将数据保留三到六个月。 健康保险流通与责任法案 (HIPAA) 对与健康相关的实体规定了至少六年的健康信息存档要求。
对于在世界不同地区开展业务的组织,有必要熟悉特定国家的不同法律法规。 例如,在瑞士,所有业务数据都必须在财政年度结束后保留 10 年。 此外,国际银行监管框架(巴塞尔协议 III)要求银行保留三到七年的数据历史记录。
数据存储浪费不是一件小事
数据存储浪费不仅限于数字成本。 它也可能产生离线影响。 根据一个 绿色地球问答的合理建议,云中每存储 0.2GB 数据,每年就会产生 100 吨二氧化碳。 这意味着在云上不必要地保存数据会转化为本来可以避免的排放。
就像其他形式的浪费一样,数据存储浪费是可以避免或至少可以减少的。 确保有效的数据存储并遵循最佳实践可以显着遏制不必要的数据存储浪费,包括其相应的离线影响。
图片: Pixabay
发表评论
有话要说关于这篇文章? 添加您的评论并开始讨论。