tp安卓下载网址|数据治理
什么是数据治理? | IBM
什么是数据治理? | IBM
什么是数据治理?
了解数据治理如何确保企业从其数据资产中获得最大收益。
探索基于数据架构构建的平台
通过智能编目为 AI 激活业务就绪数据
什么是数据治理?
数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性。 这些流程确定数据所有者、数据安全措施和数据的预期用途。 总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。
大数据和数字化转型工作是数据治理计划的主要推动力量。 随着来自物联网 (IoT) 技术等新数据源的数据量的增加,组织需要重新考虑其数据管理实践,以扩展其商业智能。 有效的数据治理计划旨在提高数据质量,减少数据孤岛,确保合规性和安全性,并适当地分配数据访问权限。
数据治理和数据管理
数据管理的范围比数据治理更广泛。 它可以定义为采集、处理、保护和存储组织数据的实践,然后将其用于制定战略决策以改善业务成果。 这既包括数据治理,也包括数据生命周期管理的其他方面,例如数据处理、数据存储、数据安全等。 由于数据管理的这些其他方面也可能影响数据治理,因此这些团队需要协同工作以执行数据治理策略。 例如,数据治理团队可能会识别不同数据集之间的共性,但如果想要将这些数据集整合起来,他们需要与数据管理团队合作来定义数据模型和数据架构,从而促进这些联系。 再比如数据访问,数据治理团队可以围绕对特定类型数据(例如个人身份信息 (PII))的数据访问设置策略,但数据管理团队将直接提供这种访问权限,或者设置适当的机制以提供这种访问权限(例如,利用内部定义的用户角色来批准访问)。
数据治理的好处
实施数据治理框架可以增加组织内数据的价值。 由于数据治理有助于提高整体数据的准确性,它还会影响基于该数据的结果,包括较为简单的日常业务决策以及较为复杂的自动化计划。 一些关键好处包括:
扩大规模和提升数据素养 – 组织内有限的数据访问可能会限制创新,并在业务流程中产生对主题专家 (SME) 的依赖。 数据治理实践为跨职能团队创造了一条途径,使他们能够聚集在一起以形成对跨系统数据的共同理解(例如,协调与领域无关的数据差异)。 然后,这种共同理解可以通过数据标准体现出来,其中数据定义和元数据记录在一个集中的位置,例如数据目录。 反过来,这种文档又会成为自助服务解决方案(例如 API)的基础,这些解决方案支持整个组织中的一致数据和对数据的联合访问。
确保安全、数据隐私和合规 – 数据治理策略提供了一种方法来满足政府关于敏感数据和隐私的法规要求(例如欧盟通用数据保护条例 (GDPR) 和美国健康保险可移植性和责任法案 (HIPAA))以及行业要求(例如支付卡行业数据安全标准 (PCI DSS))。 违反这些法规要求可能导致高昂的政府罚款和引起公众的不满。 为避免这种情况,企业采用数据治理工具来设置护栏,防止数据泄露和数据滥用。
高质量数据 – 数据治理可确保数据完整性、数据准确性、完备性和一致性。 良好的数据可以让企业更好地了解他们的工作流程和客户,以及如何优化他们的整体业务绩效。 然而,绩效指标中的错误可能会将组织引向错误的方向,但数据治理工具可以纠正潜在的不准确之处。 例如,数据沿袭工具可以帮助数据所有者在整个生命周期中跟踪数据;这包括任何来源数据以及在任何 ETL 或 ELT 过程中应用的数据转换。 这样就可以仔细检查任何数据错误的根本原因。
促进数据分析 – 高质量的数据为更先进的数据分析和数据科学计划奠定了基础;这包括商业智能报告或更复杂的预测性机器学习项目。 只有当主要利益相关者信任底层数据时,才能对这些数据划分优先级;否则,它们可能不会被采用。
数据治理的挑战
尽管数据治理的好处显而易见,但数据治理计划要取得成功还需要克服许多障碍。 其中的一些挑战包括:
组织一致性:在数据治理计划开始时,最大的挑战之一是让整个组织的利益相关者围绕什么是关键数据资产以及它们各自的定义和格式达成一致。 监管政策可以针对基于客户数据的对话制定一些结构,但要对属于主数据管理 (MDM) 范围的其他数据集达成一致可能会更加困难,例如更特定于产品的数据。
缺乏相应的支持:有效的数据治理计划通常需要两个级别的支持 — 高管级别和个人贡献者级别 首席数据官 (CDO) 和数据管理员对于组织内数据治理的沟通和优先级划分至关重要。 首席数据官可以对数据团队进行监督和实施问责制,确保数据治理策略得到采用。 数据管理员可以帮助提高数据生产者和数据使用者对这些策略的认识,以鼓励整个组织遵守这些策略。
相关数据架构和流程 - 如果没有合适的工具和数据架构,企业将难以部署有效的数据治理计划。 例如,团队可能会发现跨不同职能部门的冗余数据,但数据架构师需要开发适当的数据模型和数据架构,以合并和集成跨存储系统的数据。 团队可能还需要采用数据目录来创建整个组织的数据资产清单,或者如果他们已经有了一个清单,他们可能需要建立一个元数据管理流程,以确保底层数据是相关且最新的数据。
IBM 解决方案
IBM Cloud Pak for Data
使用基于数据架构构建的平台,更快地预测结果。 无论数据位于何处,都可以收集、组织和分析数据。
IBM Cloud Pak for Data
IBM Watson Knowledge Catalog
在主动元数据和策略管理的支持下,通过智能编目为 AI 和分析激活业务就绪数据。
IBM Watson Knowledge Catalog
采取下一步行动
IBM Cloud Pak for Data 利用微服务及其领先的数据和 AI 功能,实现分布式系统数据智能集成的自动化,为企业提供全面的业务绩效视图。 这有助于更快地收集、组织和洞察企业数据,支持企业进行大规模决策。 数据管理团队相信,具有竞争优势的 IBM 安全框架能够保护他们的数据安全,确保遵守监管政策,降低合规性风险。 了解 IBM Cloud Pak® for Data 和 IBM Streams 如何帮助您了解和管理企业跨多个环境的数据治理。
了解有关 IBM Cloud Pak for Data 的更多信息
什么是数据治理? - 知乎
什么是数据治理? - 知乎首页知乎知学堂发现等你来答切换模式登录/注册数据挖掘数据大数据什么是数据治理?关注者541被浏览375,248关注问题写回答邀请回答好问题 13添加评论分享92 个回答默认排序亿信华辰已认证账号 关注数据治理是什么?为什么要实施数据治理?以及该如何开展数据治理工作,才能引领企业加快数字化转型,从而获取更大的业务价值。今天小亿就来为大家分享一下。什么是数据治理?1.定义DAMA国际数据管理协会对数据治理定义:数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。简单来说,数据治理就是实现数据价值的过程。通俗的理解就是让企业的数据从不可控、不可用、不好用到可控、方便易用且对业务有极大帮助的过程。这个过程怎么实现?通过采集、传输、储存等一系列标准化流程将原本零散的数据变成格式规范、结构统一的数据,同时对其进行严格规范的综合数据监控,保证数据质量;然后对这些标准化的数据进行进一步的加工分析,形成具有指导意义的业务监控报表、业务监控模型等,来帮助企业进行辅助决策。2.与数据管理、数据管控有何不同(1)数据治理数据治理面对的更多是战略层面、组织层面、制度层面的事务,是确立“什么样的决策需要在什么层级制定”。所以,数据治理是一个相对高阶的概念。对应的是一个“数据治理委员会”级别的机构,由这个委员会来建立数据治理的整体组织架构,定义责任主体,落实工作机制。(2)数据管理数据管理是操作和实施层面的概念,是通过一系列实际落地的办法去实现“治理”目标的具体过程。数据管理对应的是一个以“数据管理部”级别的职能部门+各个相关职能部门的矩阵化组织。通过内建组织机构和工作机制,有牵头、有配合、有主责、有落实,在各自的职能领域去完成数据管理的具体任务,包括企业级层面的数据标准化、数据资产管理,业务领域层面的数据规范化、数据质量改进等等。(3)数据管控数据管控是对“数据管理”要求在业务过程、产品设计、开发实现层面的具体实施。管控离不开“制度”+“规范”+“工具”+“考核反馈”,每一个管控机制,都应该有一个PDCA的管理循环。数据管控的落地,制度设计和规范定义层面,需要数据管理部门牵头推进,同时,也需要技术部门的工具和系统能力支撑,才能“管得了,管得住,管到位”。如上图,清洁源头数据就是一个数据治理目标,数据标准管理与数据质量管理就是帮助实现治理目标所制定的管理制度,在开发过程中的标准管控、在运行阶段的质量管控就是在实际工作当中实现标准、质量管理的具体措施和手段。为什么要实施数据治理?在我国,各行业的信息化发展和建设水平并不均衡,对于部分行业,信息化还处于刚刚起步的阶段。但我们可以从金融行业、通讯行业、地产行业、传统制造业以及农业领域总结出规律:企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大阶段,也由此导致了一些问题:1.数据质量参差不齐现在,企业越来越重视管理数据资产,但其实并不是所有数据都是数据资产,数据中也有垃圾数据。由于企业各个业务系统或模块都是按照各自的需要录入数据,业务系统不需要的信息就不录,没有统一的录入工具和数据出口,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。2.IT系统孤岛化,数据流通受阻目前,大多数企业的信息化建设初期缺乏整体规划,大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,于是数据的价值不能充分发挥。3.缺乏有效管理机制许多企业尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,比如平台间数据标准不一,缺少全局规范文档,信息无法对接应用等,在数据流转过程中,导致了大量的垃圾数据。以外,数据产权不明确,管理职责混乱,管理和使用流程不清晰,也是造成数据质量问题的重要因素。4.存在数据安全隐患近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。综上所述,看似表面的数据问题其实会对业务带来严重的影响。数据不真实、不准确、数据不透明、不共享都将增加企业经营风险、管理难度和复杂度。最终导致跨组织信息共享程度低、资源难于整合。而数据治理是所有数据应用的基础和根基,它的好坏直接影响数据应用过程中的价值体现。同时,数据治理也是一个组织进行数据资产沉淀的基础,直接决定了一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分发挥数据价值。数据治理的目标数据治理本身不是目标,它只是实现组织战略目标的一个手段,即通过有效的数据资源控制手段,进行数据的监督管理,以提升数据质量进而提升数据变现的能力和管理的效率。例如基于需求的智能制造、智慧市场监督管理、融合市民服务、一网通办等。从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,例如,集团企业总部和政府大数据管理局的目标是:制定数据政策、保障数据安全、促进数据在组织内无障碍共享,其重点目标是推进和保障数据战略的顺利实施。而企业和政府业务部门的目标是:通过提升信息管理能力,提升组织精细化管理水平,提高业务运营效率,增强组织决策能力和核心竞争力,从而为实现组织战略目标提供能力支撑,其重点目标是数据价值获取、业务模式创新和经营风险控制。数据治理包含哪些内容?数据治理并不是某一个系统应用,而是一个以系统工具为支撑、管理机制为基础的系统工程,只是各数据治理项目切入点有所不同,比如:①面向源端的业务系统去进行数据治理,可能解决的是流程-数据一体化治理的问题,保证各个业务系统和职能之间的流程贯通;②面向大数据平台的建设阶段或运营阶段的数据治理,这个时候更多考虑到的是数据之间的拉通,数据标准的统一,数据质量的监控,数据平台各层之间的数据血缘关系,数据流;③对于一些先进企业,他们的数据会涉及对外共享合作,那么,企业的数据治理机制也会发生改变。针对需要共享的数据,企业更多优先关注数据权属问题,同时,考虑如何通过多方计算,联邦学习等技术从数据安全的角度保证数据的共享。总的来说,数据治理的切入点分为:整体规划模式、面向业务分析模式、数据整合平台模式、大型应用建设模式、数据管理平台和工具模式等,如下图所示:虽然切入点不同,包含的内容也不尽相同,但是数据治理无非是对于企业级数据、某个业务主题数据、某系统数据等不同定位的业务数据进行有效管控,而且目前主流的数据管理方式是以元数据为核心的梳理,所以建设内容基本上也是在元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、数据生命周期、数据安全等不同方面进行自由组合,只是面向的数据范围不同而已。1.元数据元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。睿治平台中的元数据管理元数据分为业务元数据、技术元数据和管理元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,管理元数据为两者的管理提供支撑。(1)业务元数据业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问义务信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。(2)技术元数据它可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等;关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。技术元数据一般以已有的业务元数据作为参考设计的。(3)管理元数据管理元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的数据。管理元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业。2.数据标准良好的数据标准体系有助于数据的共享、交互和应用,可以减少不同系统间数据转换的工作。数据标准适用于业务数据描述、信息管理及应用系统开发,包括基础标准和指标标准(或称应用标准)。可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。睿治平台中的数据标准管理数据标准的主要由业务定义、技术定义和管理信息三部分构成。同时还需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。(1)业务定义业务定义主要是明确标准所属的业务主题以及标准的业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到定义统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。(2)技术定义技术定义是指描述数据类型、数据格式、数据长度以及来源系统等技术属性,从而能够对信息系统的建设和使用提供指导和约束。(3)管理信息管理信息是指明确标准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。3.数据质量高质量的数据是进行分析决策、业务发展规划的重要基础,只有建立完整的数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。睿治平台中的数据质量管理(1)制度和规范从技术层面上,应该完整全面的定义数据质量的评估维度,包括完整性、时效性等,按照已定义的维度,在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。(2)明确相应的管理流程数据质量问题会发生在各个阶段,因此需要明确各个阶段的数据质量管理流程。例如,在需求和设计阶段就需要明确数据质量的规则定义,从而指导数据结构和程序逻辑的设计;在开发和测试阶段则需要对前面提到的规则进行验证,确保相应的规则能够生效;最后在投产后要有相应的检查,从而将数据质量问题尽可能消灭在萌芽状态。数据质量管理措施,宜采用控制增量、消灭存量的策略,有效控制增量,不断消除存量。4.数据集成可对数据进行清洗、转换、整合、模型管理等处理工作。如:常用组件、输入输出、转换组件、数仓组件、脚本组件等,可高效快速完成数据的传输、清洗转换、装载落地等处理过程,保证数据可靠性,既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。5.主数据主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。要做的就是从各部门的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的管理,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据传送给企业内需要使用这些数据的操作型应用系统和分析型应用系统。主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。6.数据资产汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。睿治平台中的数据资产管理7.数据交换用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。睿治平台中的数据交换8.数据生命周期任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。睿治平台中的数据生命周期管理数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段)、销毁阶段三大阶段,管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。9.数据安全数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。数据安全管理主要有以下三个方面:睿治平台中的数据安全管理(1)数据存储安全包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。(2)数据传输安全包括数据的加密和数据网络安全控制,主要通过专业加密软件厂商进行规范设计和安装。(3)数据使用安全需要加强从业务系统层面进行控制,防范非授权访问和下载打印客户数据信息;部署客户端安全控制工具,建立完善的客户端信息防泄漏机制,防范将客户端上存储的个人客户信息非授权传播;建立完善的数据安全管理体系,建立数据安全规范制度体系,组建数据安全管理组织机构,建立有效的数据安全审查机制;对于生产及研发测试过程中使用的各类敏感数据进行严密管理;严格与外单位合作中的个人客户信息安全管理等。企业数据治理需要注意什么?数据治理是一个复杂的系统工程,涉及到企业和单位多个领域,既要做好顶层设计,又要解决好统一标准、统一流程、统一管理体系等问题,同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题,这时就要注意以下方面:1.跨组织的沟通协调问题数据治理是一个组织的全局性项目,需要IT部门与业务部门的倾力合作和支持,需要各个部门站在组织战略目标和组织长远发展的视角来看待数据治理。因此,数据治理项目需要得到组织高层的支持,在条件允许的情况下,成立以组织高层牵头的虚拟项目小组,会让数据治理项目事半功倍。2.投资决策的困难组织的投资决策以能够产生可预期的建设成效为前提,但往往综合性的数据治理的成效并不能立马体现,它更像一个基础设施,是以支撑组织战略和长期发展为目标,所以,导致此类项目无法界定明确的边界和目标,从而难以作出明确的投资决策。3.工作的持续推进数据治理是以支撑组织战略和长远发展为目标,应当不断吸收新的数据来源,持续追踪数据问题并不断改进,所以数据治理工作不应当是一锤子买卖,应当建立长效的数据改进机制,并在有条件的情况下,尽量自建数据治理团队。4.技术选型这几年随着大数据的发展,有针对传统数据库的,有针对大数据数据库的,再加上组织对自身数据资产情况没有一个清晰的认识,这也就导致了数据治理的技术选型困难。业界很多厂商都开发了相关软件工具,但多是单独功能呈现的软件,而亿信华辰睿治数据治理平台是由元数据管理、数据标准管理、数据质量管理、数据集成管理、主数据管理、数据交换管理、数据资产管理、数据安全管理、数据生命周期管理9大产品模块组成的功能齐全的数据治理工具:睿治数据治理平台架构图数据被认为是当今时代企业的核心资产,具有很高的价值。然而,数据本身并没有什么价值,或者说数据本身不会自动产生价值。一般来说,数据价值变现的方式有两种,一种是通过数据治理将数据资源转化为数据资产,再把数据资产链接到提供数据资产交易的平台上进行交易,让数据资产具有直接变现的能力;第二种是通过数据治理实现数据资产的汇集和预处理,在通过基于场景的算法将数据应用到业务中去,让数据产生洞察力,为管理和业务的创新提供支撑,让数据具备间接变现的能力。但以上两种方式都离不开数据治理,数据治理则是保障数据质量和实现数据价值的基础,其目的是输出高质量数据,并保证数据使用过程中的安全合规。除此以外,我们还需要注意数据治理是一个持续性的服务,而不是一个有着明确范围的一锤子买卖。不能只依靠发现问题之后去处理,更应有前瞻意识,时刻保持监督与检查。我们唯一能做的是根据业务发展和产品迭代状况,及时调整数据治理的规则。编辑于 2022-09-23 11:58赞同 45929 条评论分享收藏喜欢收起网易数帆已认证账号 关注一、什么是数据治理?那么到底什么是数据治理?数据治理的内容又包括哪些?数据治理是否有边界?它的边界又在哪里?这些都是企业在准备开始进行数据治理之前需要考虑清楚的问题。此外,企业在进行数据治理之时也经常容易走入误区,比如在项目初期就希望进行大而全的数据治理,往往因为缺失重点而导致事半功倍,又比如知道元数据、数据标准、数据质量在数据治理过程中的重要性,但是在实际交付过程中却发现难落地等等。所以在做数据治理之前,首先要了解数据治理,正所谓以汤止沸,沸乃不止,诚知其本,则去火而已矣。温馨提示:下文很长,您也可以阅读网易数帆整理的一图看懂“数据治理”知识图谱,里面有关于数据治理各个环节的简要介绍 1、DAMA国际数据管理协会(DAMA国际)在其《DAMA数据管理知识体系指南(DAMA-DMBOK2)》一书中将数据治理进行了定义,即在数据资产管理过程中行使权力和管控的过程,称为数据治理。并将数据治理作为数据管理十大知识领域的中心,负责知识领域的平衡和一致性。DAMA对于数据治理的定义显得较为抽象,但实际上去了解其中对于数据治理主要工作内容的定义,不难发现它是从数据战略,数据制度,数据架构、建模和设计等标准,以及数据监管合规、数据资产估值等维度进行描述。同时,DAMA-DMBOK2一书中还给出了数据治理实施和度量指标的相关指导和建议。可以说,DAMA从数据治理的定义、活动、工具和方法、实施指南以及度量指标给出了比较全面的解释,但是距离企业可落地的数据治理还是距离较远,更像是纲领性的介绍。此外,由于数据治理只是作为DAMA其中一部分,DAMA更加关注的是数据管理,因此对于如何进行数据标准的制定以及如何进行数据资产的评估都缺少具体的描述。2、DCMMDCMM(Data Management Capability Maturity Assessment Model,数据管理能力成熟度评估模型)是我国首个数据管理领域国家标准。数据管理能力成熟度评估模型给出了数据管理能力成熟度评估模型以及相应的成熟度等级,定义了数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准和数据生存周期等8个能力域。相较于DAMA,DCMM将数据标准作为数据管理中的独立一项内容,进行了明确的定义和能力等级说明。此外,还将数据开发、数据应用(包含数据服务、数据分析)等内容进行了相应定义和规范化说明。但是从整体上看,DCMM并没有提及数据资产相关的内容,缺少数据资产的评估。3、数据资产管理实践白皮书《数据资产管理实践白皮书》是大数据技术标准推进委员会、中国信通院云计算与大数据研究所联合业内知名企业共同编写的关于数据资产管理实践的白皮书。该白皮书聚焦于数据资产的管理,有别于DAMA和DCMM,更加强调数据的资产属性以及价值,给出了数据价值的广义定义以及数据价值的评估方法。4、数据标准管理实践《数据标准管理实践白皮书》也是由大数据技术标准推进委员会、中国信通院云计算与大数据研究所联合业内知名企业共同编写的关于数据标准管理实践的白皮书。该白皮书聚焦于数据标准,提出了数据标准是数据资产管理多个活动职能的核心要素,主要体现在数据质量管理、主数据管理、元数据管理、数据模型管理和数据安全管理几个方面。 二、数据治理的分类网易认为,数据治理是对企业全域数据资产实施有效管理的活动,根据数据治理的对象不同,数据治理可以分为面向业务系统的数据治理和面向分析系统的数据治理。主数据管理就是典型的面向业务系统的数据治理,它核心要解决的问题是跨业务、跨系统和跨流程的企业核心数据的一致性、正确性和权威性的问题。面向分析系统的数据治理,主要解决的是数据分析过程中,指标数据计算的口径一致性,数据质量,标准规范、成本优化以及安全管控问题。因为数据本身还是来源于业务系统,所以面向业务的数据治理是面向分析的数据治理的前提,如果业务系统的数据治理没做好,分析系统的数据治理就很难从根本上解决。数据中台其实跟传统的数据治理的概念并不相同,但是数据中台的核心思想是构建统一的指标管理体系和企业级公共共享的数据模型层,打破烟囱式的数据架构,本质还是面向分析系统的数据管理,所以从数据治理是企业所有数据管理活动的定义来看,也可以将数据中台的构建方法纳入面向分析系统的数据治理。三、数据治理能够解决什么样的问题?网易作为一家互联网公司,很早就在生产活动中应用数据的分析结果,助力业务的增长。随着业务规模的扩大,如网易考拉、网易云音乐、网易云课堂等多个业务线的孵化,同时也诞生了大量的集群,内部对于集群统一管理的呼声也日益变高。到了2018年,因业务规模的快速扩大,数据量的急速增长,相应的数据问题终于爆发,例如数据使用率低、数据经常违反常识、数据成本指数增长导致投入产出比低、数据安全风险日益突出等等,数据治理迫在眉睫。我们将上述问题进行归类,从数据的找不到、看不懂、信不过、管不住四个维度进行分析。1、找不到在网易内部,严选约有8万张表,音乐约有4万张表,对于数据分析而言,越往应用层,会存在很多大的宽表,一个表有上百个字段是一个非常正常的事情。对于数据使用者来说,从几万张表中找到自己需要的指标,犹如大海捞针,谁也不清楚系统中到底有哪些数据,也不知道如何去快速准确的找到这个数据。通过分析使用数据地图的用户,发现居然有90%以上的用户都是IT人员,而原本作为产品目标用户的业务人员却几乎无人使用。对于业务人员来说,想要的数据找不到就会要求数据开发人员进行新的开发满足他的需求,从而进一步加剧了烟囱式的开发。数据的找不到归根结底是数据元数据缺乏有效的管理以及数据的描述太苍白,业务人员无法从冰冷的数字中发现他所需要的那一个。2、看不懂元数据的不完整导致了业务人员无法轻易找到想要的数据,而找到之后看不懂便是另外一个问题。数据使用者不清楚这个数据的计算逻辑和上游的数据来源,不敢贸然使用,最后只能又找数据开发人员重新去开发一个。通常,我们按照元数据的用途可将元数据分为技术元数据、业务元数据以及管理元数据。技术元数据可以由数据开发人员在开发过程中直接获得,但是对于数据使用者来说更关心的是业务元数据以及管理元数据,业务元数据和管理元数据能够让使用人员更好的了解数据的实际应用场景。但是,这部分元数据是无法直接获得的,需要结合实际的业务场景去进行补录,因此这又引出了另外一个问题,在数据的元数据建设过程中,除了IT人员的参与,相关的业务人员也要投入进来。3、信不过质量是数据的生命线,没有质量保障的数据,不仅没有价值,还会产生错误的决策。我们在严选,就曾经出现过,因为开发修改了一个上游任务的数据计算逻辑,影响了下游一张涉及资损的表的数据正确产出,结果导致红包超发,产生了几十万的资损。这些血淋淋的教训,反复告诉我们,保障质量对于业务团队对数据的信任有多重要。数据违反常识是数据质量问题的一种表现,开发人员往往不理解数据背后的含义而无法从开发结果上判断数据是否满足业务方要求,导致数据质量的问题最后都在业务方使用过程中暴露出来,久而久之业务方对于开发团队的数据不再信任。4、管不住随着使用数据的人越来越多,企业面临的数据安全问题也日益严重,企业既想要员工多用数据,又要确保不同密级的数据被对的人所使用。不合理的数据权限及功能权限的分配会导致数据误删、数据泄密的问题经常发生,对于企业来说是无法接受的。此外,复杂的权限设置以及频繁的授权申请都会对数据的使用效率造成影响。一个业务运营,想要使用这张表,他首先要能够找到这张表的负责人,然后联系对其授权。这个过程往往要花费一天的时间。同时,作为授权方,数据负责人,往往也不清楚,我到底该不该把权限授予申请人,这就造成一个很尴尬的情况,就是权限流于形式,只要你能找到表的负责人,就可以获得这个表的访问权限四、传统数据治理面临的挑战......五、网易数据治理 2.0......六、数据治理 2.0 最佳落地实践......更多完整版内容,可以免费下载《网易数据治理白皮书》 发布于 2023-09-07 09:46赞同 101 条评论分享收藏
数据治理体系全面指南 - 知乎
数据治理体系全面指南 - 知乎首发于五分钟学大数据切换模式写文章登录/注册数据治理体系全面指南五分钟学大数据ai.fivedata.cn数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。1 数据治理到底是在做什么1.1 一个小故事在正文之前,我先介绍一个小故事。年底了,企业财务管理员小张需要统计公司的金融财务情况。忙碌了一年,公司老板亟需知道公司目前的运营状况。小张需要考虑哪几个点呢:“公司目前有哪些财产?这些财产从哪里来?用到了哪些地方?是否所有财产的使用均符合规范和制度?”幸好小张年初已经制定了一套管理标准。每笔财产的出入都有记录且严格把控使用情况,过程可追溯可审查。最后,小张得到了领导们的一致好评。1.2 数据治理做的事情故事中的小张监管着公司所有金融财产活动,确保财产使用的有序高效。这也是数据治理角色的类似功能。“数据治理的核心工作: 在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。”一般来说,数据从外部或者内部产生后,经过大数据手段处理,流转到不同的业务端,为企业的上层应用提供数据赋能。整个过程,如图所示。我们先做一些类似数据同步的工作将数据放入到大数据系统中数据进来后需要管理和存储,即参考建模理论和实际场景建设数仓经过主题规划、维度确定、标签计算输出等步骤处理数据输出到报表、应用端使用整体流程数据治理体系将全程监管。要确认进出系统的数据质量怎么样?是否可转化数据资产?数据血缘是否可追溯、数据安全等问题。“脏乱差的数据是无法使用的,甚至严重埋雷。”2 为什么要做数据治理有一些企业对这个问题的概念很模糊,认为目前的数据规模很小,人为可控,暂时不需要做数据治理。但是在实际使用中还是会遇到很多问题:数据监管力度不够,出现脏数据数据体系逐渐规模变大,管理混乱数据的血缘丢失,无法回溯旧、老的数据无论企业的数据规模如何,我认为还是提起做好数据治理的规划。考虑到成本的问题,可以分阶段进行。“为什么要进行数据治理:你的数据是否真的可用,缺失和异常值怎么办?数据从哪里来到哪里去,血缘信息是否丢失数据访问是否安全,明文标识还是加密?新的数据加工参考什么规范,维度和标签管理是否存在标准?”有剑在手不用和无剑可用是两回事。提前做好数据治理规划,会节省后续的改造成本,避免过程冗余重构或者推倒重来等情况的发生。数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。3 数据治理体系企业数据治理体系包括数据质量管理、元数据管理、主数据管理、数据资产管理、数据安全及数据标准等内容。1)数据质量一般采用业内常用的标准来衡量数据质量的好坏:完整性、准确性、一致性和及时性。完整性:数据的记录和信息是否完整,是否存在缺失情况准确性:数据汇总记录的信息和数据是否准确,是否存在异常或者错误一致性:多个业务数仓间的公共数据,必须在各个数据仓库中保持一致及时性:数据能及时产出和预警2)元数据管理元数据是关于数据的组织、数据域及其关系的信息,通俗理解,元数据就是描述数据的数据。元数据包含技术元数据和业务元数据。可以帮助数据分析人员清楚了解企业拥有什么数据,它们存储在哪里,如何抽取、清理、维护z这类数据,也即数据血缘。帮助构建业务知识体系,确立数据业务含义可解释性提升数据整合和溯源能力,血缘关系可维护建立数据质量稽核体系,分类管理监控3)主数据管理企业主数据指企业内一致并共享的业务主体,大白话理解就是各专业公司和业务系统间共享的数据。常见的主数据比如公司的员工、客户数据、机构信息、供应商信息等。这些数据具有权威性和全局性,可归约至公司的企业资产。一般主数据管理需要遵循如下几点:管理和监管各组织机构、子公司、部门对主数据的访问,制定访问规范和管理原则定期进行主数据评估,判断既定目标的完善程度组织相关人员和机构,统一完善主数据建设提供技术和业务流程支持,全集团集中统筹4)数据资产管理一般企业在数字化转型时都会考虑数据资产梳理。你的数据有没有被合理利用?如何产生最大价值?这是数据资产管理关心的核心工作。在构建企业资产时一般会考虑不同角度,即业务角度和技术角度,最后进行合并,输出统一的数据资产分析,并向外提供统一的数据资产查询服务。如何盘活数据,形成数据资产,提供完整的数据资产全景视图,可方便运营者全局、宏观地掌控企业资产动态。5)数据安全数据安全是企业数据建设必不可少的一环,我们的数据都存储在大大小小的磁盘中,对外提供不同程度的查询和计算服务。需要定时对数据进行核查、敏感字段加密、访问权限控制,确保数据能够被安全地使用。6)数据标准大白话理解,我们需要在组织内定义一套关于数据的规范,好让我们都能理解这些数据的含义。今天张三说这个客户号是办理银行卡的客户,明天李四又说是借贷过的客户。对比一看,两者的字段类型和长度一致,到底要采纳哪个意见呢?数据标准是保障数据的内外部使用和交换的一致性和准确性的规范性约束,通过统一规范,消除二义性。4 企业数据治理实施过程4.1 数据治理实施框架数据治理体系是为了规范业务数据规范、数据标准、数据质量和数据安全中的各类管理任务活动而建立的组织、流程与工具。通过一个常态化的数据治理组织,建立数据集中管理长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平。4.2 数据治理组织架构企业数据治理体系除了在技术方面的实施架构,还需要管理方面的组织架构支撑。一般在数据治理建设初期,集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。4.2.1 组织架构1)决策层提供数据标准管理的决策职能,通俗理解即拍板定方案。2)管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准事项,提交信息科技管理委员会审议3)执行层业务部门:负责业务线数据标准的制定、修改、复审,推广落实数据标准等科技开发:承担治理平台、数据标准、数据质量等实施工作;系统设计和开发工作中遵循数据标准科技运营:负责技术标准的制定和技术推广4.2.2 管理层职责1)项目经理确定项目目标、范围和计划制定项目里程碑管理跨项目协同2)专家评审组评审项目方案,确定方案的合理性3)PMO确保项目按计划执行管理项目重大风险执行跨项目协同、沟通组织项目关键评审3)数据治理专项组执行各项目的落地实施和运营推广,推动执行层的实施数据治理技术落地和项目进展。4.2.3 执行层职责数据架构师、数据治理专家和业务专员形成数据治理"铁三角",紧密协作,推进数据治理与数据架构落地。1)业务专员业务专员作为业务部门数据治理的接口人,在标准、质量、应用等领域组织业务人员开展工作定义数据规则保障数据质量提出数据需求2)数据治理专家数据治理专家作为数据治理组成员,负责设计数据架构,运营数据资产;牵头组织业务、IT达成数据治理目标。构建数据逻辑模型监控数据质量运营数据资产3)数据架构师数据架构师作为IT开发部门的专家,承担数据标准落地、模型落地的重任,协助解决数据质量问题。数据标准落地逻辑模型落地物理模型落地4.3 数据治理平台在确定了技术实施方案和组织管理架构,下面需要进行数据治理体系的落地实施。在大型企业中一般会开发一个完整的数据治理平台,囊括所有数据治理功能,对外提供平台服务。1)核心功能数据治理平台作为数据治理的产品体系,旨在保障数据平台的数据是安全、可靠的、标准的、有价值的。数据资产管理:提供面向用户的场景化搜素,提供全景数据资产地图,方便快速查找资产和资产分析数据标准管理:统一定制数据标准,提高包括字段、码值、数据字典管理,保障业务数据和中台数据的统一标准数据质量监控:提供事前、事中、事后的数据质量体系,支持数据质量监控规则配置、告警管理等功能数据安全:提供数据安全脱敏、安全分级和监控数据建模中心:统一建模,提供业务系统建模和模型管理2)元数据管理元数据管理系统作为数据治理平台的前端展示门户,帮助实现对数据资产的快速检索能力,提高数据使用有效性和效率。通过建立完整且一致的元数据管理策略,提供集中、统一、规范的元数据信息访问、查询和调用功能。3)数据质量数据质量监控:支持所有用户进行数据质量监控规则配置规则阻断:配置数据质量监控阻断规则,数据质量出现差异可实时阻断下游作业运行,屏蔽错误结果链路扩散。告警:数据质量出现预设偏差,及时发出预警通知及时修复4)数据标准支持定制统一的数据标准平台,包括字段标准管理,码值标准管理以及字典管理,业务源数据和中台数据统一标准。5)数据安全基于集团数据资产实现数据安全分级管理,自动识别安全信息;提供数据访问安全行为监测,及时识别访问风险。4.4 数据治理评估数据治理平台开发完成并运行,需要对整体数据治理体系的效果进行验证和评估。“1)数据是否可以消除"脏、乱、差"的现象2)数据资产是否最大价值化3)所有数据的血缘是否完整可追溯。。。”1)数据资产通过构建数据资产管理体系,实现资产全覆盖,并支持全局搜索和精准定位目标资产。实现全局搜索,面向用户提供场景化检索服务支持标签、数据地图、表名和字段名等多种检索维度支持进行数据地图,源业务数据字典的结果筛选比如支持PV/UV用户搜索和资产展示,明确服务目标2)数据标准新旧数据标准沉淀,打通了数据建模工具、数据标准库和词根标准库,落地数据标准和词根。实现数据标准库100%拉通智能识别数据标准和引用客户端同步更新数据标准、词根3)数据安全保持事前制度建设、事中技术管控、事后监控审计的原则建立全流程数据安全管控体系。基于以上数据安全管控体系,支持数据安全定级,构建灵活的数据安全共享流程。4)数据质量通过数据质量雷达图,定期进行数据和任务质量打分,综合考察数据质量效果。数据完整性:查看数据项信息是否全面、完整无缺失告警响应程度:日常管理、应急响应、降低影响;避免数据损毁和丢失监控覆盖程度:确保数据遵循统一的数据标准和规范要求作业稳定性:监控作业稳定性,是否存在作业异常等问题作业时效性:检查任务对应的数据项信息获取是否满足预期要求5 数据治理的几点误区1)数据治理是否要做得大而全“这是一个经典问题,一般对于不同阶段和规模的企业,数据治理的实施程度会有所不同。一般建议先根据自身的数据状况分阶段进行,避免盲目铺开规模,过程中可调整。”2)数据治理只是技术考虑的事情“正如文中所说,数据治理不仅仅是技术团队的事情,而是整个集团一起协作完成。其中就包括各业务线以及其他管理组织,没有一个好的实施方案和协作机制,往往事倍功半。”3)数据治理可以短期见效“数据治理是个长期过程,会跟随着企业数据的规模和数仓规划的变更同步调整,部分功能可能会在短期内卓有成效,完整体系搭建短期很难实现。”4)必须得有工具平台,才能开展数据治理“俗话说工欲善其事必先利其器,有好的工具当然是更好,前提是已经有了成熟的数据治理体系规划和策略。工具和技术手段目前市面上很成熟,先把理论给铺垫好。”5)数据治理感觉很模糊?不知道最后的落地结果“数据治理是一个长期工作,需要相关从业者根据企业的数据现状和管理模式去构建和调整,建议边做实践边总结归纳,小步慢跑是一个很好的方式。”--END--发布于 2022-09-24 09:49数据处理数据分析数据管理平台(DMP)赞同 343 条评论分享喜欢收藏申请转载文章被以下专栏收录五分钟学大数据专注于大数据技
一文给小白讲清数据治理 - 知乎
一文给小白讲清数据治理 - 知乎切换模式写文章登录/注册一文给小白讲清数据治理POINT小数点数据已认证账号点点说在前面:本篇文章来自用户画像pointer同时现任数据平台产品经理的李乐的分享。作者目前工作重点参与数据中台的指标系统建设,“数据治理的最终目标是提升数据的价值”,以终为始,本篇文章作者从问题出发,通过定义、举例、概念、流程、工具,深入浅出地为我们介绍了什么是数据治理,希望对你有所启发!文章来自公众号:乐说乐言前言最近有小伙伴在人人都是产品经理网站提了一个问题:1. 一句话描述什么是数据治理,通俗易懂,不要太偏技术。2. 数据治理包含什么3. 如何实施数据治理这篇文章,我就来跟各位聊聊,什么是数据治理。附:作者整理了一些实用的参考资料,需要的小伙伴可以私聊数苗哦。01 什么是数据治理不懂就搜,打开搜索引擎,你会看到以下内容:DAMA 和 DGI 都给出了比较精炼的定义和回答,但我第一次读的时候,我碰了新的问题,什么是数据资产?如何决策,要如何分工?注意最后的一段话:“数据治理的最终目标是提升数据的价值”,以终为始,我们可先将这个目标铭记在心中。小明看到自己喜欢喝的一款高端酸奶标价 8 元,他连忙拿了一瓶去买单。结果店员告诉他,本次活动第一瓶是原价,第二瓶才是 8 块的半价。上面的例子中,单纯一个数字,是没有意义的,必须要相应的解释,人们才能理解。“买满两瓶,第二瓶酸奶的单价是 8 块”,这才是真正完整的指标。用一个简单的公式给出指标的定义:指标 = 数字 + 解释其中解释包含两方面:1 ) 业务上的解释 2 ) 技术上的解释业务解释通常是图文,意在给指标使用者解释指标从何处来,怎么算。技术解释通常是用程序语言定义的计算逻辑,比如用 SQL 语句定义人数为 count(user_id),均价为 avg(price) 。其实理解了元数据,就能理解指标,大家可以参考文末的元数据文章。02 数据治理,什么是数据大家对数据不陌生,每天聊微信、刷抖音,睡觉的时候,智能设备还能继续收集并记录人体健康数据,现代人类每天都在产生无数的数据。但是你有没有了解过,到底什么是数据?数据的定义是什么?「数据」是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。抽象的概念太难理解了,接下来举个例子。我们现在经常看到的数据是这样的:表格中,“16656”、“李二狗”、“男”、“301”都是数据。但在,没有表头解释的情况下,“301”,到底是分数,还是宿舍号呢?这就涉及到了数据的解释。其实,完整的表格是这样的:这个例子中,学生信息有 4 项数据,每个数据都为了记录和鉴别,都其标准和规则。比如宿舍号,其的产生规则是“楼层+编号”,这产生的影响就是,宿舍号注定不会是负数或者小数。假设某学校的宿舍只有六层,那该校宿舍号的限定范围只能是 101~699 。每个学生在录取后,学籍系统会为每个学生产生唯一的学生 ID,以便区分学生。分配宿舍时,学生的这 4 项住宿信息要完整、准确、及时地记录到宿管系统中,且学生 ID,要与学籍系统保持一致。对于数据来说,有基本的几个要求:完整性、准确性、一致性、及时性。03 数据治理,什么是治理让我们将重点放到治理这个词上。联合国全球治理委员会(CGC)对治理的概念进行了界定,认为“治理”是指“各种公共的或私人的个人和机构管理其共同事务的诸多方法总和,是使相互冲突的或不同利益得以调和,并采取联合行动的持续过程”。这个委员会总结了治理的四个特征:图源自作者而基于概念和特征,有人总结了治理的基本职能:图源自作者总的来说,治理是一个朝着最终目标前进的动态过程。04 数据治理,包含什么1)数据治理流程我将借用生活的例子来讲解一下,帮助大家建立初步理解。从埋在土里到被端上餐桌,土豆流程大体如下:采集(人工或用机械将土豆挖出来)运输 & 存储(将土豆转运到仓库或者厨房)定标准(设定评选方法,确定切块的大小、切丝的长度)清洗 & 精加工(清洗泥土,削去表皮,按照标准切成方块、长条、土豆丝)烹饪 & 摆盘(厨师烹饪,出锅、摆盘、端上餐桌)数据治理的流程和土豆处理流程相似,将土豆替换成数据来理解。下面列举了网易和华为两家厂商的数据治理方案和产品的业务流程。1、网易的数据中台产品(网易数帆链接),基础流程如下:2、华为的数据治理产品(数据湖治理),主干流程如下:数据治理大体上包含了数据采集、数据存储、制定标准、处理加工、对外服务的过程。最终可以用一个更加抽象的流程进行概述:2)数据治理的工具为了达到开垦农田的目标,你是愿意选择刀耕火种还是机械化耕种呢?数据治理是一项复杂的工程,为了保障效率,许多工具被设计出来。我对这些工具进行了简单的归类:简单解释下。数据存储要提供“容器”,一切的治理动作都发生在其中。数据同步,则要提供“管道”服务,将数据导入到容器中。有了以上两个关键模块,数据治理核心工作才能开展:定标准、依托标准提质量;按照标准建模、按照模型补数据;将治理完的数据提供出去;对整个治理过程进行安全管控。通常,数据治理的结果,要得到应用和呈现。BI 工具中的各类图表可以将数据转变成更容易理解的表达方式,而更深层的应用,则是看不见的,比如基于用户行为数据的推荐系统。市面上各家厂商的产品,都会基于不同过程设计产品,实力强的厂家,则会给出整套数据治理解决方案,比如阿里dataphin、华为dgc、网易数帆等。END学以致用,祝各位都能用好指标,管好指标,共同创建美好的数据时代。POINT.小数点用户画像实战运营课程 (第十三期)正在预售如果你未来想成为商业分析、用户增长、数据产品、策略运营、策略产品、策略分析。那这个课程不容错过。8.21-8.22我们不见不散^_^发布于 2021-07-10 22:07数据分析赞同 1364 条评论分享喜欢收藏申请
什么是数据治理?- 数据治理介绍 - AWS
什么是数据治理?- 数据治理介绍 - AWS
跳至主要内容
单击此处以返回 Amazon Web Services 主页
联系我们
支持
中文(简体)
我的账户
登录
创建 AWS 账户
re:Invent
产品
解决方案
定价
文档
了解
合作伙伴网络
AWS Marketplace
客户支持
活动
探索更多信息
关闭
عربي
Bahasa Indonesia
Deutsch
English
Español
Français
Italiano
Português
Tiếng Việt
Türkçe
Ρусский
ไทย
日本語
한국어
中文 (简体)
中文 (繁體)
关闭
我的配置文件
注销 AWS Builder ID
AWS 管理控制台
账户设置
账单与成本管理
安全证书
AWS Personal Health Dashboard
关闭
支持中心
专家帮助
知识中心
AWS Support 概述
AWS re:Post
单击此处以返回 Amazon Web Services 主页
免费试用
联系我们
re:Invent
产品
解决方案
定价
AWS 简介
入门
文档
培训和认证
开发人员中心
客户成功案例
合作伙伴网络
AWS Marketplace
支持
AWS re:Post
登录控制台
下载移动应用
什么是云计算?
云计算概念中心
分析
什么是数据治理?
创建 AWS 账户
什么是数据治理?
什么是分析治理?
为什么数据治理很重要?
什么是机器学习(ML)治理?
数据治理面临的主要挑战是什么?
什么是数据治理风格?
谁负责建立数据治理?
如何让您的数据治理团队变得更好?
数据治理如何运作?
AWS 提供了哪些适用于数据治理的产品/服务?
什么是数据治理?
数据治理是一种确保数据处于适当状态以支持业务计划和运营的方法。将数据治理与业务计划结合有很多好处。
证明为数据治理计划提供资金是合理的
激励商界的参与
提高数据治理活动的优先级
提高参与业务领域所需的数据集成水平
帮助确定正确的运营模式,尤其是所需的集中化和去中心化水平。
什么是分析治理?
分析治理既要治理用于分析应用程序的数据,也要治理分析系统的使用。您的分析治理团队可以建立治理机制,例如分析报告版本控制和文档。与往常一样,跟踪监管要求、制定公司政策,并为更广泛的组织提供防护机制。
为什么数据治理很重要?
根据 Gartner 的数据,到 2025 年,寻求扩大数字业务规模的组织中有 80% 将因不采用现代的数据和分析治理方法而失败。所以,首席数据官将数据治理视为其数据计划的重中之重也就不足为怪了。麻省理工学院 CDOIQ 在 2023 年对 350 个 CDO 和 CDO 同等职位的调查中发现,45% 的首席数据官将数据治理视为重中之重。这些数据领导者希望建立一种治理模型,使他们能够根据需要将数据提供给合适的人员和应用程序,同时通过适当的控制措施来保证数据安全可靠。
过去,人们一直通过治理来将数据锁定在孤岛中,以防止数据泄露或滥用。但是,数据孤岛的后果是,合法用户必须克服障碍才能在需要时访问数据。数据驱动的创新被无意中扼杀了。
要使治理成为创新的推动力,需要两个杠杆:访问权限和控制力。成功的关键在于在访问权限和控制力之间找到适当的平衡,而每个组织的平衡点都不一样。当您行使过多的控制力时,数据就会被锁定在孤岛中,导致用户无法在需要时访问数据。这不仅会扼杀创造力,还会导致影子 IT 系统的创建,使数据过时且不安全。另一方面,当您提供过多的访问权限时,数据最终会进入应用程序和数据存储中,从而增加数据泄露的风险。
建立正确的治理(在访问权限和控制力之间取得平衡的治理),通过促进数据的适当发现、整理、保护和共享,让人们对数据充满信任和信心。这鼓励了创新,同时保护了数据。
什么是机器学习(ML)治理?
机器学习治理将许多相同的数据治理实践应用于机器学习。数据质量和数据集成需要提供模型训练和生产部署所需的数据(特征存放区是其中的一个重要方面)。负责任的人工智能(AI)特别关注使用敏感数据来构建模型。其他 ML 治理功能包括让人们能够参与模型构建、部署和监控;记录模型训练、版本控制、支持的用例和指导道德模型的使用;以及在生产中监控模型的准确性、偏差、过拟合和欠拟合。
生成式人工智能需要额外的数据治理功能,例如数据的质量和完整性,以支持调整根基模型进行训练和推理、生成式人工智能毒性和偏差的治理,以及根基模型(FM)操作:FMOps。
您可以使用相同的数据治理程序来支持 AI/ML。数据准备对于将数据转换为可供 AI/ML 模型用于训练和生产推断的形式是必要的,但最有效的数据准备其实并不需要您动手。数据科学家花费太多时间为每个用例准备数据,您的数据治理团队可以帮助减轻这种无差别的繁重工作。此外,数据治理可以监督精心打造的、用于 AI 和 ML 应用场景的特征存放区的创建。
最后,需要适当保护敏感数据,这样您的团队才能降低使用敏感数据训练根基模型的风险。
就像常规分析一样,您必须管理自己构建或自定义的 AI/ML 模型的使用。理想情况下,这应该与分析治理密切相关,因为该职能部门将知道如何支持各个业务领域。
数据治理面临的主要挑战是什么?
数据治理最常见的战略挑战是使您的计划与业务计划保持一致,而不是直接主张数据治理的价值。例如,您可能会主张让最终用户更容易找到他们正在寻找的数据的价值,或者可能会主张解决数据质量问题的价值。但是,这些都是寻找问题的解决方案。如果您这样做,最终将与应该支持的商业计划争夺资金和赞助。相反,您应该将数据治理定位为支持业务计划。每项重大业务计划都需要数据。数据治理应确保数据处于适当的状态,以支持业务计划取得成功。不要忽视报告和审核实践,了解数据治理如何支持这些计划。
数据治理的另一个常见战略挑战是避免过于狭隘地应用数据治理。“过于狭隘”可能是指将计划与个别业务领域或应用场景保持一致,而没有跨业务领域拓宽视野。“狭隘”也可能表示仅通过一两种数据治理功能来定义数据治理。例如,拥有数据目录并不构成数据治理计划。
什么是数据治理风格?
您的数据治理计划应在集中化和去中心化(包括自助服务)之间取得平衡。在整个组织中,您将组合使用集中治理、联合治理和去中心化治理,这同样取决于业务需求。在保持跨领域一致性(如将数据连接在一起的能力)的同时,应尽可能增强领域团队的能力。
集中数据治理:中心组织对任务说明、政策、工具选择等负有最终责任。日常工作很多时候被推给业务部门(LOB)。
联合数据治理:联合数据治理使各个业务部门或业务计划能够以最符合其需求的方式运营。在联合数据治理中,仍有一个规模较小的集中式团队,他们的工作重点是解决重复出现频率最高的问题,例如企业范围内的数据质量工具。
自助式或去中心化数据治理:每个 LOB 都会为其特定项目提供所需的服务。每个项目都会使用其他项目中适合使用的任何工具或流程。随着数据网格(本身是去中心化的)之类的话题越来越受欢迎,自助式数据治理也越来越受欢迎。
谁负责建立数据治理?
构建以业务为中心的数据治理计划涉及多个工作职能。
执行发起人了解公司路线图上的许多业务计划,可以帮助确定数据治理支持的优先事项。
数据管理员来自企业,日常参与项目细节。可以帮助您了解可能给有针对性的业务计划带来挑战的数据问题。
数据所有者制定有关数据的政策,包括谁在何种情况下应该有权访问数据、如何解释和应用法规,以及关键术语定义
数据工程师(通常)来自 IT 部门,他们提供的工具可以帮助保护数据、管理数据质量、整合来自各种来源的数据以及查找正确的数据。
如何让您的数据治理团队变得更好?
有效的数据治理计划的关键在于将其附加到已经获得资金的业务计划。确保您的团队了解需要哪些数据域、数据来源和元素来支持这些计划。
制定数据治理路线图,表明对有针对性的业务计划的支持。然后开始确定所选业务计划之间的数据重叠。
确定数据需要支持和馈送的应用程序和商业智能应用场景,包括对新鲜度和隐私的要求。
了解每个选定业务计划的适用数据是什么样子的。
通过将数据治理计划嵌入企业运营模式来维持和扩展该计划,从而使数据规划和实施成为组织运营的自然组成部分。
组织分析社区,以实现自助服务和一致性。
通过数据治理和 ML 治理支持人工智能(AI)和机器学习(ML)。使用相同的数据治理计划,但扩展到特征存放区和 ML 模型。
数据治理如何运作?
数据治理需要各种能力水平的人员、流程和技术解决方案。
大规模整理数据以限制数据扩散。 大规模整理数据意味着识别和管理最有价值的数据来源,包括数据库、数据湖和数据仓库,这样您就可以限制关键数据资产的激增和转换。整理数据还意味着确保正确的数据准确、最新且不包含敏感信息,让用户对数据驱动的决策和数据馈送应用程序充满信心。
功能:数据质量管理、数据集成和主数据管理
在上下文中发现和理解您的数据,以加快制定数据驱动型决策。 在上下文中了解您的数据意味着所有用户都可以发现和理解其数据的含义,这样他们就可以放心地使用数据来推动业务价值。 通过集中式数据目录,可以轻松找到数据,可以请求访问权限,还可以使用数据来做出业务决策。
功能:数据分析、数据沿袭和数据目录
有控制力且自信地保护和安全共享您的数据。保护您的数据意味着能够在数据隐私、安全性和访问权限之间取得适当的平衡。能够使用对业务和工程用户都很直观的工具来管理跨组织界限的数据访问至关重要。
功能:数据生命周期、数据合规性和数据安全
降低业务风险并提高监管合规性。 降低风险意味着了解这些数据是如何使用的,以及由谁使用。 AWS 服务可帮助您监控和审核数据访问(包括通过 ML 模型进行的访问),以帮助确保数据安全性和监管合规性。机器学习还需要审核透明度,以确保负责任的使用和简化的报告。
功能:数据和 ML 的使用情况审核
AWS 提供了哪些适用于数据治理的产品/服务?
借助 AWS 上的端到端数据管理,组织可以控制其数据的位置、谁有权访问数据,以及在数据工作流程的每个步骤中可以用数据来做什么。使用 AWS 进行数据治理可以让合适的人员和应用程序在需要时轻松安全地查找、访问和共享正确的数据,从而帮助组织加快数据驱动型决策。您可以通过自动化数据集成和数据质量来管理数据,从而限制数据的扩散。您可以通过集中式目录来发现和理解您的数据,从而提高数据素养。您可以通过精确的权限来保护您的数据,从而放心地共享数据。您可以通过监控和审核数据访问来降低风险并提高合规性。
Amazon DataZone — 通过内置治理功能,跨组织边界解锁数据
AWS Glue — 发现、准备和集成所有任意规模的数据
AWS Lake Formation – 集中管理、保护和共享用于分析和机器学习的数据
Amazon QuickSight 实现超大规模的商业智能整合
Amazon SageMaker — 通过完全托管的基础设施、工具和工作流程,为应用场景构建、训练和部署机器学习模型
ML 治理网页
Amazon Bedrock — 使用根基模型(FM)构建和扩展生成式人工智能应用程序的最简单方法
Amazon Macie — 大规模发现和保护敏感数据
Amazon Simple Storage Service(Amazon S3)访问点 — 专为从任意位置检索任意数量的数据而构建的对象存储
AWS Data Exchange — 轻松查找、订阅和使用云中的第三方数据
AWS Clean Rooms — 在几分钟内创建洁净室,无需共享原始数据即可与合作伙伴协作
通过 AWS 大师课程进行数据治理 – 数据治理如何加速推进您的业务计划? 如何利用现有的企业功能制定数据治理路线图和资金支持? 在这个点播的大师课程中,学习如何构建成功且有资金支持的数据治理计划。“通过 AWS 大师课程进行数据治理”视频附带一份包含动手练习的工作簿。
立即创建免费账户,开始在 AWS 上使用数据治理。
AWS 的后续步骤
查看其他与产品相关的资源
了解有关 AWS 分析服务的信息
注册免费账户
立即享受 AWS 免费套餐。
注册
开始在控制台中构建
在 AWS 管理控制台中开始构建。
登录
登录控制台
了解有关 AWS 的信息
什么是 AWS?
什么是云计算?
AWS 包容性、多样性和公平性
什么是 DevOps?
什么是容器?
什么是数据湖?
AWS 云安全性
最新资讯
博客
新闻稿
AWS 资源
入门
培训和认证
AWS 解决方案库
架构中心
产品和技术常见问题
分析报告
AWS 合作伙伴
AWS 上的开发人员
开发人员中心
软件开发工具包与工具
运行于 AWS 上的 .NET
运行于 AWS 上的 Python
运行于 AWS 上的 Java
运行于 AWS 上的 PHP
运行于 AWS 上的 JavaScript
帮助
联系我们
获取专家帮助
提交支持工单
AWS re:Post
Knowledge Center
AWS Support 概览
法律人员
亚马逊云科技诚聘英才
创建账户
Amazon 是一个倡导机会均等的雇主:
反对少数族裔、妇女、残疾人士、退伍军人、性别认同和性取向歧视。
语言
عربي
Bahasa Indonesia
Deutsch
English
Español
Français
Italiano
Português
Tiếng Việt
Türkçe
Ρусский
ไทย
日本語
한국어
中文 (简体)
中文 (繁體)
隐私
|
网站条款
|
Cookie 首选项
|
© 2023, Amazon Web Services, Inc. 或其联属公司。保留所有权利。
终止对 Internet Explorer 的支持
知道了
AWS 对 Internet Explorer 的支持将于 07/31/2022 结束。受支持的浏览器包括 Chrome、Firefox、Edge 和 Safari。
了解详情 »
知道了
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)-阿里云开发者社区
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)-阿里云开发者社区
产品解决方案文档与社区权益中心定价云市场合作伙伴支持与服务了解阿里云售前咨询 95187-1 在线服务售后咨询 4008013260 在线服务其他服务 我要建议 我要投诉更多联系方式备案控制台开发者社区首页探索云世界探索云世界云上快速入门,热门云上应用快速查找了解更多问产品动手实践考认证TIANCHI大赛活动广场活动广场丰富的线上&线下活动,深入探索云世界任务中心做任务,得社区积分和周边高校计划让每位学生受益于普惠算力训练营资深技术专家手把手带教话题畅聊无限,分享你的技术见解开发者评测最真实的开发者用云体验乘风者计划让创作激发创新阿里云MVP遇见技术追梦人直播技术交流,直击现场下载下载海量开发者使用工具、手册,免费下载镜像站极速、全面、稳定、安全的开源镜像技术资料开发手册、白皮书、案例集等实战精华插件为开发者定制的Chrome浏览器插件探索云世界新手上云云上应用构建云上数据管理云上探索人工智能云计算弹性计算无影存储网络倚天云原生容器serverless中间件微服务可观测消息队列数据库关系型数据库NoSQL数据库数据仓库数据管理工具PolarDB开源向量数据库热门Modelscope模型即服务弹性计算云原生数据库物联网云效DevOps龙蜥操作系统平头哥钉钉开放平台大数据大数据计算实时数仓Hologres实时计算FlinkE-MapReduceDataWorksElasticsearch机器学习平台PAI智能搜索推荐人工智能机器学习平台PAI视觉智能开放平台智能语音交互自然语言处理多模态模型pythonsdk通用模型开发与运维云效DevOps钉钉宜搭支持服务镜像站码上公益
开发者社区
大数据
文章
正文
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
2022-05-25
8912
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议》和
《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
不吃西红柿丶
目录
热门文章
最新文章
为什么选择阿里云什么是云计算全球基础设施技术领先稳定可靠安全合规分析师报告产品和定价全部产品免费试用产品动态产品定价价格计算器云上成本管理解决方案技术解决方案文档与社区文档开发者社区天池大赛培训与认证权益中心免费试用高校计划企业扶持计划推荐返现计划支持与服务基础服务企业增值服务迁云服务官网公告健康看板信任中心关注阿里云关注阿里云公众号或下载阿里云APP,关注云资讯,随时随地运维管控云服务售前咨询:95187-1售后服务:400-80-13260法律声明及隐私权政策Cookies政策廉正举报安全举报联系我们加入我们阿里巴巴集团淘宝网天猫全球速卖通阿里巴巴国际交易市场1688阿里妈妈飞猪阿里云计算AliOS万网高德UC友盟优酷钉钉支付宝达摩院淘宝海外阿里云盘饿了么© 2009-2024 Aliyun.com 版权所有 增值电信业务经营许可证: 浙B2-20080101 域名注册服务机构许可: 浙D3-20210002 京D3-20220015浙公网安备 33010602009975号浙B2-20080101-4
-1.5%����
1 0 obj
<>/PieceInfo 7857 0 R >>
endobj
2 0 obj
<>
endobj
3 0 obj
<>/XObject<>/ProcSet[/PDF/Text/ImageB/ImageC/ImageI]>>/MediaBox[ 0 0 595.2 841.92]/Contents 4 0 R /Group<>/Tabs/S/StructParents 0>>
endobj
4 0 obj
<>stream
x���Kk�@��}�=:�ff�c�-�Mi %.=�T�qs����oߑl�U���^f�ؙ�N��LJb]��$�ʲX�܋�d��KV��7�u�}���~����VV�>l���a:�|.f�8J�(���!�P ���$/R����Ķ����ۑ����q���bq5I��}Y]Y���W�|�+�)I�v���K}��j�y� � c��YQ�.�����e. �T�b�ٍ��\�g���h[��m��q\�8��I�zo��ͪ�qQ��j�:j��� #����b�FP_q T��XUUc��&?+Ϛ�Bg�m��V}� \Y[iO_�C��r�RMV� �ԐQy#۴�-qPC�DN5�LT$}���P$�����ނ�� C�P��R�'�6l�� $A��լ,\S���0��Β�G���!���!�8E�7eŵ���z�.��l�g��N����5���7�t���5�HT'$a/U f���h`+yҽ��쾎l J۰!�g-!�F`#P\�@ :U6W�7�����g&g�;п����2<�Z���SP��?'0.ii�g&>�xc=l���;�ciZ ˕��I��t=��k��\>� ����|(����5
endstream
endobj
5 0 obj
<>
endobj
6 0 obj
<>
endobj
7 0 obj
<>
endobj
8 0 obj
[ 9 0 R]
endobj
9 0 obj
<>
endobj
10 0 obj
<>
endobj
11 0 obj
<>
endobj
12 0 obj
<>
endobj
13 0 obj
<>
endobj
14 0 obj
<>
endobj
15 0 obj
[ 16 0 R]
endobj
16 0 obj
<>
endobj
17 0 obj
<>
endobj
18 0 obj
<>
endobj
19 0 obj
<>
endobj
20 0 obj
<>
endobj
21 0 obj
<>stream
���� JFIF � � �� ZExif MM * J Q Q !�Q !� �� ���� C
$.' ",#(7),01444'9=82<.342�� C 2!!22222222222222222222222222222222222222222222222222�� k;" ��
�� � } !1AQa"q2���#B��R��$3br�
%&'()*456789:CDEFGHIJSTUVWXYZcdefghijstuvwxyz���������������������������������������������������������������������������
�� � w !1AQaq"2�B���� #3R�br�
$4�%�&'()*56789:CDEFGHIJSTUVWXYZcdefghijstuvwxyz�������������������������������������������������������������������������� ? ��(��
(��
(��
(�}s�:/�a2j��@{&r�裚i7�b��I z��M㤎ZO���'�A��
�a������^}�C�;�1�d}3[,<�yhG�]y�\_����zp �-s�9m�������wF�QR�L��/B��u�E�m�XQE�)�j����94�( ��(�� ��O�5%G���� 3^Q�g����5�m&�A��c��[qǵT ��ݕ�[�$���?[�[L���x)&f��d�хpc⧎X��ЋT� �k��K_ԍ��!��B��:p+���{�R�u����u%��ew(Q$�$�p �U�����_�-m!����1 DfS��H>,x�J� FA�A�*e{D{���_�t�o����d�� �3o�_:o��� ��՟�䷃��=M�'��5�Z5փ�x:��R��:��7R��e*)���N�\.�إ'{��/�7�����h� ��� ����-p��xG��[_�z?�0�������~�?�������/�7�����k���go��)�L�w
�����;}+�|Z�-烴�cKѢ�^{���cr�
~��7�[`
�&��ڢ�8(s%ԨɷfV�7�(