什么是数据产品,什么不是数据产品?

今天讨论一下在数据应用无处不在的背景下,究竟什么是数据产品,什么不是数据产品?

核心观点

  1. 数据产品的核心在于可信赖性和价值实现: 一个真正的数据产品远不止是原始数据。它必须是可靠的、可信的,并且能帮助用户实现特定目标。 这要求数据产品具备一系列使其值得信赖的属性和能力。
  2. 明确的构成要素是数据产品的基石: 一个数据产品应包含数据本身、独立的部署能力(代码、基础设施)、元数据、数据质量指标,并且有明确的所有者。 此外,还需具备数据血缘信息和数据抽样能力,以增强透明度和易用性。
  3. 组织共识和标准化至关重要: 在组织层面建立对数据产品清晰、统一的定义,并让所有利益相关者就此达成一致,是成功实施数据产品策略和数据网格的前提。
  4. 数据目录和认证机制是提升数据产品价值的关键工具: 数据目录应作为发现和评估数据产品的中心枢纽。 引入认证机制,可以帮助用户区分高质量、可信赖的数据产品与普通数据资产,从而提高数据利用效率和决策质量。
  5. “数据即产品”的思维转变驱动所有权和持续改进: 将数据视为产品进行管理和运营,能够培养团队的产品思维,强化其对数据质量和价值的责任感和所有权,进而推动数据的持续改进和创新应用。

基础概念

  • 数据网格 (Data Mesh): 这是一种在大型企业中管理和扩展数据的新型方法。 传统集中式数据架构在数据量激增时容易形成瓶颈,数据网格通过将数据管理的责任分散到不同领域的团队,将数据视为有价值的“产品”,而非副产品,从而解决这一问题。 每个团队对其领域内的数据负责,目标是使数据更易于查找、使用和信任,同时保持可扩展性和效率。
  • 数据产品 (Data Product): 在数据网格中,数据以节点和连接的形式组织,这些节点即为数据产品。 它们是架构的“量子单元”,不仅包含数据本身,还包括独立部署所需的一切(代码、基础设施、元数据、数据质量指标)以及明确的所有权。 这种去中心化的所有权模式确保了每个数据产品都能自主运作,从而提高敏捷性和问责性。
  • 数据平台 (Data Platform): 共享的数据平台提供了一系列工具、服务和基础设施,作为坚实的基础,用以加速数据产品的开发。 它包括数据提取、存储、处理、转换、分析和服务等功能。
  • 数据目录 (Data Catalog): 数据目录是数据平台提供的一项数据消费能力。 它作为组织内的中央存储库,方便用户无缝地探索和访问数据产品。 用户可以通过这个友好的界面搜索、预览和评估可用的数据产品,了解其内容、质量和相关性。

什么“不是”数据产品

数据产品”这个术语目前有些被滥用。 早期定义(如“通过使用数据帮助实现特定目标的东西”)对于在大型组织内高效管理数据而言显得过于宽泛。

用导航应用举例:如果一个导航应用频繁出错,用户便不再信任它。 任何产品的核心价值在于其完成特定目标的可靠性和可信赖性。 同理,一个仅仅提供原始数据表和视图的数据仓库,虽然可以被视为广义上的数据产品,但如果用户无法判断其数据的准确性和完整性,或者在数据出错时无法识别,那么它就缺乏可信赖性。

在数据网格的语境下,“数据即产品 (data as a product)”的理念丰富了数据产品的定义。 现代意义上的数据产品,需要的不仅仅是数据本身,还需要:

  • 一套数据质量指标,如新鲜度、完整性、一致性和唯一性。
  • 可供探查的数据血缘 (lineage)
  • 易于理解的元数据 (metadata)
  • 明确的负责人 (accountable owner),以便在需要协调或获取更多信息时联系。

在源数据资产能够提供这些能力之前,它不能真正被视为一个“产品”。 信任和透明度是数据世界的关键。

所有权和问责制

当团队被鼓励展示其产品的质量时,他们自然会努力提升产品标准,从而驱动持续改进。 这种持续改进促使团队对他们提供的数据承担所有权和问责。

其他能力

除了上述能力,一个数据产品还必须是:可发现的 (discoverable)、可寻址的 (addressable)、可访问的 (accessible)、可互操作的 (interoperable)、有价值的 (valuable) 和安全的 (secure)。

建议

  1. 在整个组织内建立数据产品的明确定义:至关重要的是制定一个精确的数据产品定义,并在组织内统一应用。 一个全面的数据产品应包括:
  2. 所有者 (Owner): 消费者可以知道在出现问题或需要更多信息时联系谁。
  3. 全面完整的描述 (Comprehensive and complete description): 包括数据集及其所有属性,以便消费者理解数据的语义。
  4. 数据质量指标 (Data quality indicators): 消费者可以了解数据的准确性、完整性和新鲜度。
  5. 数据血缘 (Data lineage): 消费者可以知道这些数据来自哪里。
  6. 数据抽样 (Data sampling): 供快速探索,消费者可以在请求访问数据产品前“尝鲜”。
  7. 在数据目录中启用数据产品认证 (Enable a Data Product Certification within the Data Catalog):对于那些缺乏上述能力的数据集是否应该被允许放入数据目录? 答案可能因情况而异,但完全排除会阻碍数据可访问性。 然而,区分简单数据资产和可被视为“产品”的资产仍然至关重要。 一个有效的策略是在共享数据目录中引入“认证”标签。 该认证告知消费者,在目录中找到的某个数据资产具备了成为数据产品所需的所有元数据。 允许基于认证状态进行筛选,使用户能够做出明智决策,并将他们的期望与可用数据对应起来,从而提高清晰度和利用效率。

总结

  • 建立数据产品的明确定义,能鼓励团队遵循数据网格原则,尤其是在数据质量和所有权方面。
  • 对所暴露的数据持有“产品思维”,能引导团队从消费者视角看待其数据的价值。
  • 让消费者能够在共享目录中区分数据资产和数据产品,能确保数据的高效利用。

---

我是钱德勒(chandler_is_dreaming),拥有超10年全球顶尖企业数据运营与商业分析实战经验,曾任职于多家头部互联网及国际知名企业,历任商业运营总监、商业智能负责人、数据分析高级经理等职。具备丰富的数据分析实战经验,曾成功从0搭建团队、优化流程、推动数字化转型,最多管理60余人的数据团队,累计面试超300人,尤其擅长数据相关岗位(如数据分析师、商业分析师、运营分析师、数据产品经理等)的职业规划、简历优化、技能提升、业务思维、面试技巧等。

钱德勒,拥有超10年全球顶尖企业数据运营与商业分析实战经验,曾任职于Amazon等国际头部企业,历任商业运营总监、商业智能负责人、数据分析高级经理等职。具备丰富的数据分析实战经验,曾成功从0搭建团队、优化流程、推动数字化转型,管理60余人的数据团队,累计面试超300人,尤其擅长数据相关岗位(如数据分析师、商业分析师、运营分析师、数据产品经理等)的职业规划、简历优化、技能提升、业务思维、面试技巧等。

全部评论

相关推荐

评论
2
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务