10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(二)
旺道一键推广 -> 最新发布

编辑导语:什么是数据湖?企业可以利用数据湖尽可能保持业务数据的可还原性,解决存储全域原始数据的问题;而数据中台的存在则可以帮助帮助企业提升业务处理效率。不过并非所有的企业都需要设立数据中台。本篇文章里,作者对数据湖与数据中台进行了详细的解释,一起来看一下。

文章图片1

引言:文接上回,没有阅读第一部分的小伙伴请点击《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)》查看,那我们就开始第二部分的内容吧,如有不准确的地方,还请希望大家进行指正。

一、数据湖

上文通过有序性与开放性分别对数据仓库与数据湖进行描述并对比,现在我们来详细地了解一下数据湖。

1. 数据湖的起源

数据湖主要是为了解决存储全域原始数据,其名称中的“湖”字将数据湖的含义表现得淋漓尽致。像企业的生产数据(非结构化数据与结构化数据)、业务历史数据、临时数据,诸如IOT设备,移动应用程序以及传统的设备中返回的第三方数据都可以通过ETL工具形成的“水管”存储进数据湖中。

例如笔者之前在工作过程中接触的手机信令数据、GPS返回的定位数据等,这些数据实际上并没有预先定义好相应的数据结构,这就意味着可以先将数据存储起来而无需对数据进行结构化处理,也无需明确要进行什么分析,由数据从业人员在后续工作中进行探索和尝试。

上文中提到的结构化数据和非结构化数据,那什么是结构化/非结构化数据呢?下面我们就解释下两者的区别与联系。

2. 何为结构化/非结构化数据

举个例子。

我们收集到了这样一堆文字信息:

诸如此类的文字信息有几万行,我们存在word中,亦或是纸质版文件经由我们扫描成图片格式的,这类就可以称为非结构化数据。假设有需求将这些文字信息中按照性别、籍贯、专业等等统计出来,我们在第一篇文章中提到了关系型数据库,用相关的技术和工具将这些文字信息进行处理,处理后的数据就是结构化数据。

所以结构化数据的定义:是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

非结构化数据:不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、 XML 、 HTML 、各类报表、图片和音频、视频信息等。

3. 数据湖的作用

回归正题,企业为什么要建立数据湖呢,首先数据湖中存在一个重要的组成部分ODS(Operating Data Store,操作数据存储),大家是否记得上一篇文章讲过OLTP(On-Line Transaction Processing),OLTP侧重于基本的、日常的事务处理,而我们现在提到的ODS就是OLTP数据的快照与历史。

我们在上文的数据库一节描述时提到业务数据库与数据仓库的结构不同,业务数据库是为OLTP设计的,是系统的实时状态的数据,而数据仓库的数据是为OLAP的需求建设的,是为了深度的多维度分析。所以这样就会造成基于数据仓库的数据分析会产生以下的限制:

而从根本上来讲,数据湖的最主要作用是尽可能保持业务数据的可还原性。数据湖的定位和搜索引擎类似,我们可以像在搜索引擎中检索数据一样,实现按需检索,即取即用,它存取这原始的未经改变的全量数据,可以存取、处理、分析。

4. 数据湖的发展

数据湖最早是2011年由Pentaho的首席技术官James Dixon提出的一个概念,他认为诸如数据集市,数据仓库由于其有序性的特点,势必会带来数据孤岛效应,而数据湖可以由于其开放性的特点可以解决数据孤岛问题。

但随着数据湖在各类企业的应用,大家都觉得:嗯,这个数据有用,我要放进去;那个数据也有用,我也要放进去;于是把所有的数据不假思索地扔进基于数据湖的相关技术或工具中,没有规则不成方圆,当我们认为所有数据都有用时,那么所有的数据都是垃圾,数据湖也变成了造成企业成本高企的数据沼泽。

所以这也是为什么“数据湖”叫“湖”,而不叫数据河,数据池亦或是数据海。

首先数据要能“存”,数据要够“存”,数据要有边界地“存”。企业级的数据是需要长期积淀的,所以是“数据湖”。

同时湖水天然会进行分层,满足不同的生态系统要求,这与企业建设统一数据中心,存放管理数据的需求是一致的。热数据在上层方便流通应用,温数据、冷数据位于数据中心的不同存储介质之中,达到数据存储容量与成本的平衡。

二、数据中台

我们终于迎来了最近几年很火的数据中台。网上有很多文章关于数据中台的介绍,什么Hive、Spark、Hadoop、Kalfa等等很多技术名词,听上去非常的高大上而且云里雾里的,会使初涉产品的我们望而却步。

所以接下来我们从何为中台、何为数据中台、数据中台可以做什么三个方面来讲讲数据中台。

1. 何为中台

首先抛开数据,中台这一概念这两年在国内大火。说起来源,网上文章都会提到这种组织是2015年马云参观Supercell的游戏公司借鉴过来的,并且后来“阿里巴巴”CEO逍遥子提出的组建的“大中台,小前台”的组织和业务体制。那么我们能用一个比较浅显的例子来理解“中台”一词么?

当然可以,有一家连锁且超级便宜的意大利西餐连锁店“萨莉亚”,相信大部分同学都光顾过,9元的意面,24的披萨,上菜速度超快,虽然比不上传统西餐,但相比于这个价位,属实很良心了,而且目前萨莉亚在中国已经开设了将近400家(截止2019年)分店。

那么萨莉亚保持价格低廉同时上菜效率高效的原因是什么?答案很简单,就是中央厨房进行粗加工,然后门店的厨师仅需要简单地烹饪即可端上餐桌。相比于传统餐厅采购(买菜)→配菜→做菜的环节,既减少门店厨师的数量,降低人工成本的同时又加快上菜速度。

回到我们研发流程来看,采购(买菜)→配菜环节就是我们研发的后台,他们帮助我们解决“有什么”;而配菜→做菜环节就是我们的业务前台团队,他们要做的就是根据客户的“口味”来“做什么”。

而配菜,蔬菜整理这个环节,也就是萨莉亚的“中央厨房”就相当于我们的中台,仅仅需要门店的需求,中央厨房就可以快速提供对应的材料,提高业务开发效率,减少重复开发成本。

2. 何为数据中台

介绍完了“中台”这一概念,数据中台相信大家也能举一反三。没错,对于采购来的“菜”就相当于数据,做出来的“菜”就相当于业务部门所以需要的数据应用。

那么配菜环节就相当于IT部门的各种数据算法,每道菜单独配菜效率慢且冗余度较高,于是“中央厨房”就对数据算法进行规范化,系统化。针对于业务部门所需要的各道菜提供粗加工的半成品,这就是“数据产品”。

这种“中央厨房”配菜的过程就相当于我们所说的“数据中台”。那么是不是每个企业都必须搭建数据中台么?数据中台在业务上能解决什么问题呢?

3. 数据中台能做什么

所有企业是否都需要搭建数据中台?首先我们知道企业引进一项技术或产品,不在于是否“时髦”,不在于是否“高科技”,而在于是否适合该公司目前的发展,是否能提高公司的利润,降低公司的成本。

首先数据中台的作用通过对中台及数据中台的描述,总结以下2点:

  1. 提供数据产品及数据服务,包括但不限于决策支持类工具(例如业务报表、大屏数据可视化展示);数据分析类(BI商业智能、机器学习模型、数据挖掘);数据检索(日志分析)等;
  2. 提升企业各部门的数据连通性,避免数据孤岛的产生。

根据以上提到数据中台的两个优势,针对一个企业是否搭建数据中台,亦或是说一个企业在一开始从零到一就要构建数据中台?笔者在此有几点自己的总结:

首先针对于不同的行业,尽管传统企业数字化改革正在路上且已经有很多行业已经改革成功,但是针对于大部分传统企业,别说数据中台,公司连数据仓库的时代都没有到来,“罗马不是一天建成的”抛去建设数据中台的财力,时间成本高昂不提,就是对于传统企业的业务流转模式,企业员工接受程度来说都是一条难以逾越的鸿沟,数据中台不可操之过急。

对于一些处于数据仓库时代的传统企业或互联网企业,由于各个部门不停无限地进行满足其业务支撑点取数要求、业务统计、看数需求,就可以尝试转型数据中台。

对初创企业,业务线单一且业务模式还经常不断变化,不断试错时,没有能力去进行数据中台的搭建,换言之就是“先活下去最重要”。

三、小结

本篇文章分两部分介绍了数据库、数据仓库、数据湖、数据中台的区别与联系。

关于数据有人说数据是新的石油资源,国家也将数据作为一种新型生产要素,与传统生产要素并列。

笔者曾经在泛互联网以及传统企业的业务部门都工作一段时间,由于各类原因,相比于泛互联网行业的数据化相比,传统企业的数据化之路并不一帆风顺。2020年8月,国务院国资委引发《关于加快推进国有企业数字化转型工作的通知》表现出各国有企业未来数字化转型将成为必然,如何协助传统企业进行数字化转型,利用数据驱动传统行业迸发新的活力对于数据产品经理,尤其是对ToB的数据产品经理将会是挑战与机遇。

笔者会继续努力与大家分享交流其他数据产品相关的文章与内容。

本文由 @快乐的给予 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Pexels,基于 CC0 协议

教育培训机构-如何策划节日招生?
做教育培训,最重要的事情莫过于招生了。面对不同的学员,招生方…于招生。目标不同,活动策划也会不一样。② 活动主题要鲜明不仅主题要鲜明,主题之间要有连续性。就像看连续剧一样,一集接一集,一环扣一环。策划好一系列活动,一个接一个来,从多个角度延续活动的宣传,突出主题,引起关注度。常用的招生方式有:体验课招…-------------想要获得更多运营技巧、doc文案,
教育培训:如何提高满班率和续班率
什么是满班率?就是实际人数除以计划招生人数,这个值就是满班率…员有流失是正常的,但要保证一个概率。在保障老学员续期的基础上,我们也要大胆创新,开设网络课程,拓宽招生区域。实地课程录制后,进一步发行到商弈云课上,通过商弈云课系统转成真实流量,网上有人点击观看,点赞,可以按点播量分佣金。助你在日常的营销推…-----------------------想要获得更多运
培训机构难盈利的问题出在哪里,如何实现盈利?
竞争白热化实地培训班、托管辅导班竞争白热化了,利润越来越稀薄…现没有多少盈利。还有一部分负责人在刚招生时,掌握了不少资金,开始盲目扩张,盲目做课程推广,以期待获得更多生源和收费,从而使培训班陷入了这种恶性循环的陷阱里。其实这些到手的钱,并不是你的利润,而是你未来要支出的钱。如遇到行业快速发展时期,或者…-----想要获得更多运营技巧、doc文件,请“关注”并“转
“差异化”经营是网络培训赚钱的关键所在
“差异化经营”这个词,相信大多数人都耳熟能详,但要做到的却是…。在现有的基础上更新升级或者资源整合就是对现有的产品或者技术,进行升级版本,或者通过一些资源整合,成一个项目。你的技能以前是用来生产或制造产品,现在是把技能升级成知识培训,转换云课堂。直白一点就是可以让老师自行录好课程并上传到学校的商弈云课…在着缺点和不足之处。在创新改革时,要从功能、服务、价格等方面
教育培训行业是如何运作的?
以前读书时,学校附近有个小摊卖鸡蛋灌饼。刚开始的时候只有一家….%,剩下的一对一和多人大班其实市场份额都很小。家长报培训班,是希望孩子能够学到知识。老师通过课上教学和课后辅导来满足孩子的需求,达到成绩提高的目标。我见过上百人的大培训班,为什么一个班这么多人?因为是名师讲课,但人太多坐后面,基本听不到重…是你的核心竞争力。想要得到用户的认同,你就必须做到产品质量好
旺道:实体店怎么做网络营销?
年纪大了,体力不好了,便赚不了什么钱了。所以,一定要在年轻的…写文案都是非常头痛的事情,那么下面我会给大家提供一个解决方案。在互联网营销系统里面有很多细节营销,软文营销就是其中一种,但好多小白头痛写文章,所以可以用这个方法也一样可以植入广告语,或者是图片广告,轮显切换广告,使用 旺道营销系统,也就是每…以帮你吸引海量精准粉丝。有了粉丝,你通过广告、产品、服务就可
旺道:圈里圈外,铁饭碗距离瓷饭碗究竟有多远?
中国人爱混圈子,从线下一直混到线上,各种奇形怪状的圈子勾勒出…不能推则敷衍了事,盼着混到主任科员退休;一种是老黄牛式,踏踏实实、兢兢业业工作,但拙于人际关系,活干得最多,但依旧不见晋升迹象;还有一种是提线木偶式,你扯一下线他动一下,好像脑子和身体是分离的。我突然一拍脑袋,这是提前衰老的迹象啊,工作内容…即使选择留在铁饭碗圈里,也应保有随时离开的思想警惕和进行必要
旺道:微信要双开了,朋友圈推广更好做了
现在手机只能登一个微信,如两个,三个微信的小伙伴们就只能退出…动推广工具、 设置头像点击头像图标,点“+”选择图片,可以上传你的企业,个人头像,产品服务等。旺道微信朋友圈广告免费朋友圈广告-旺道、 设置推广主题点“广告”,再点“+”设置推广的主题(类别),填好中文主题,以及你的网址。教你不花一分钱做朋…简直就是一劳永逸哟。如果你点开发布的文章看不到广告,那就是你
旺道:如何能让网站多个关键词排名百度首页?
最近接了一个单,做婴儿游泳馆加盟的。优化推广范围是全国,但是…泳馆加盟哪家好”、“婴儿游泳加盟多少钱”这类与我息息相关的词。如何能让网站多个关键词排名百度首页?但客户并不认同,客户说这个词指数低,或者说搜的人不多。是,这是一方面原因。但是,指数低有什么关系,你是卖产品还是卖指数。搜的人不多有什么关系,…实现广告效果最大化,来满足大众化的广告需求。对于这样的四两拔
旺道:如何成为网络营销达人?这个技能帮你节省80%的时间
在某次名师讲坛上,听到了一个让人警醒的故事。说有个村子缺水,…准的产品。现在已经不是新鲜事物,好多企业因为百度竞价的高额费用,头疼不已,所以做网站关键词优化排名,成为了企业必选的推广项目。做优化也要做到有成效,不然就是一分钱也是昂贵的。用 旺道智能机器人 就可以持续代替人工去做,它非常聪明,只要你够耐…手,设备先进,你多努力奔跑也于事无补。简单说,要去一个地方,

此文章来源来互联网,如果你有任何版权冲突,可以联络我们,微信号:WANCOME,QQ:1444641。加我们时,请说明来意,我们将优先处理你的问题。




商弈云推  | 圈广告  | 跨圈推  | 圈推广  | 圈营销
粤ICP备10213132号
旺道商标注册证号:8608864
Copyright © 2016 环企网络信息科技有限公司 版权所有