当前位置:99696大富豪棋牌 > 新闻动态 > 企业的数据处理技术转型也经历了几个阶段,同

企业的数据处理技术转型也经历了几个阶段,同

文章作者:新闻动态 上传时间:2020-01-05

大数据思维需要依托大数据技术的支撑才能得以实现,所以隐藏在背后的支撑平台非常重要。正所谓下层基础决定上层建筑,没有一个牢固的地基是建不成摩天大楼的。我们不妨设想一下作为一个投身于大数据领域的企业,如果没有一个统一的大数据平台会出现什么问题。

【案例】恒丰银行——基于大数据技术的数据仓库应用建设 https://mp.weixin.qq.com/s?src=3×tamp=1500172078&ver=1&signature=pCHfpePVrKXUGp39JEg577lopIPT9KCdx9FqIL2LbRkU-DRBQt9ZWWgdAfQtmNAixY98Uw1T0yQlJ06fmfQSBSE7RJBl7IYxoV5LmOrTFaptBCFXyfg1Hgg8ASBFe5P3ucc21Co33JJa0lSZJkfPXXFrEGchblFOd-qCwZU=

阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储。持续8年的投入,历经8年双十一锻炼。4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核中超过200+重要的feature是阿里贡献。集团内部超过万台的规模,单集群超过千台,全球领先。

99696大富豪棋牌 1

99696大富豪棋牌 2

  • Github项目: awesome-coder-resources):编程/学习/阅读资源---开源项目,面试题,网站,书,博客,教程等等...欢迎Star,欢迎围观...

阿里云自从17年8月提供HBase云服务以来,到18年12月累计服务了上千大B客户,已经有上千个在线的集群。是阿里云增长最为快速的数据库服务,也是大B客户比例最高的云服务之一。并于6月6日全球第一个推出HBase 2.0,是HBase领域当之无愧的排头兵。

云计算,大数据和人工智能三个词汇,最近火到不行。本是不同的领域,生活在不同的世界里,然而随着互联网的发展,又相互交集在一起。

通常在一个企业的内部会有多个不同的技术团队和业务团队。如果每个团队都搭建一套自己的大数据集群,那么宝贵的服务器资源就这样被随意地分割成了若干个小块,没有办法使出合力,服务器资源的整体利用率也无法得到保证。这种做法无疑是对企业资源的一种浪费。

随着利率市场化进程加快、互联网金融业态的发展,传统银行与实体经济的业务横向联系与深度融合进展迅速,业务数据的内容不断丰富,数据规模也不断增长。伴随着商业银行业务的快速发展,传统数据仓库技术架构面临越来越大的挑战,其表现如下:

为了满足客户对数据库更丰富业务处理需求、更易用、强大功能的需求,我们重磅发布 X-Pack :支持SQL、时序、时空、图、全文检索能力、及复杂分析。阿里云HBase从KV为主大数据数据库成功进化成“轻量级全托管大数据平台”数据库。

人工智能、大数据与云计算三者有着密不可分的联系。人工智能从1956年开始发展,在大数据技术出现之前已经发展了数十年,几起几落,但当遇到了大数据与分布式技术的发展,解决了计算力和训练数据量的问题,开始产生巨大的生产价值;同时,大数据技术通过将传统机器学习算法分布式实现,向人工智能领域延伸;此外,随着数据不断汇聚在一个平台,企业大数据基础平台服务各个部门以及分支机构的需求越来越迫切。通过容器技术,在容器云平台上构建大数据与人工智能基础公共能力,结合多租户技术赋能业务部门的方式将人工智能、大数据与云计算进行融合。

99696大富豪棋牌 3

(1)大部分传统数据仓库对分布式并行计算模式的支持不够,难以实现处理能力的水平弹性扩展,依赖于服务器硬件的升级实现处理能力扩容,不仅成本非常高昂,而且受到服务器硬件升级周期较长的限制。

全部能力计划12月底全部上线。

数据处理的发展阶段

其次大数据集群涉及的技术繁杂,其搭建和运维也是需要学习和运营成本的。这种重复的建设费时费力且没有意义,只会造成无谓的资源浪费。

(2)商业银行因业务复杂性和多样性的原因,现存的数据应用系统种类较多。在单个数据库系统处理能力有限的情况下,普遍存在应用各自独立建设,缺乏统筹规划,系统间数据处理职责划分不合理、口径不一致,存在大量的重复加工和数据冗余的问题。

通常一个大企业里面,数据和业务存在天然的多样性。真正称得上平台级的数据库,要至少要满足客户不同三个及以上层次的诉求,才能称的上平台级。

随着信息技术的蓬勃发展,特别是近十年,移动互联技术的普及,运营商、泛金融、政府、大型央企、大型国企、能源等领域数据量更是呈现几何级数的增长趋势。数据量的膨胀除了带来了数据处理性能的压力外,数据种类的多样性也为数据处理手段提出了新的要求,大量新系统的建设同时产生了众多数据孤岛,给企业的数据运营维护与价值发掘带来了重大的挑战。随着大数据技术的不断发展,企业的数据处理技术转型也经历了几个阶段,如图1所示。

99696大富豪棋牌 4

(3)传统数据仓库软件主要面向数据分析型应用,无法兼顾实时营销与实时风险管理等高并发、低延迟应用场景需要,较难处理非结构化数据,难以快速实现业务团队的数据探索、数据挖掘与业务建模需求。

阿里云HBase从成本最优化、运维便利性、业务敏捷度三个方面将HBase的能力全面提升一个高度,成就轻量级全托管大数据平台,云HBase能力再上新台阶。

▲图1 企业数据处理转型的阶段变化

如果企业内部存在多个分散的小集群,那么首先各种业务数据从物理上便会被孤立地存储于各自的小集群之中,我们就没有办法对数据进行全量的整合使用,数据便失去了关联的能力,大数据技术使用全量数据进行分析的优势也丧失了。

以Hadoop/Spark为代表的大数据技术发展迅猛,为解决传统架构的瓶颈带来了新思维。以大数据技术为基础的数据管理平台与传统数据库软件相比,具备如下优势:

3.1 轻量级,满足CXO成本最优化的诉求

1)起步成本低,整体成本低,扩展性强。云HBase针对企业不同的使用环境,不同的SLA诉求,云HBase一共提供3个版本,分别满足开发环境,在线业务,以及金融级业务的诉求。单节点版本,低廉的价格用于开发测试场景,集群版本,99.9%可用,满足企业在线业务诉求,支持最高5000万的QPS和10P的数据。还有支持金融级高可用的双活版本。所有版本都支持11个9的数据可靠性,无需担心数据丢失。

2)支持冷存储,助你不改代码,1/3成本轻松搞定冷数据处理

大数据场景下,存储成本占比往往是大头,把存储成本降下来,整体成本才能下降。

一般随着业务的发展,HBase中存储的数据量会逐渐变大。在这些数据中,业务最关心的,最常访问的,往往是某些特定范围的数据,比如说最近7天的数据,业务对这类数据访问频次高,延迟要求高,即所谓的热数据。而其他的数据,一般访问量极少,性能要求不高, 但这类数据往往数据量大,即冷数据。如果能把冷热数据分离开,把热数据存储在性能更好的介质中,而把庞大的冷数据放到成本更低的介质中,从而实现把更多优质资源用来提高热数据的读写性能,同时节省存储成本的目的。

99696大富豪棋牌 5

阿里云HBase针对冷数据存储的场景,提供一种新的冷存储介质,其存储成本仅为高效云盘的1/3,写入性能与云盘相当,并能保证数据随时可读。冷存储的使用非常简单,用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本,基本不用改代码就获得了低成本存储能力,助力企业降低整体成本。

在第一阶段,大数据技术发展的早期,为了打破数据孤岛,将各类数据向大数据平台汇集,形成数据湖的概念,作为多源、异构的数据的数据归集,在此基础上进行数据标准化,建立企业数据的汇聚中心。在这个阶段,对非结构化数据处理以存储检索为主,对结构化数据处理提供各类API和少量SQL支持,使海量的以SQL实现为主的业务难以迁移到大数据平台,新业务开发使用门槛高,大数据技术的推广受到阻碍。

99696大富豪棋牌 6

(1)更低的成本投入

3.2 全托管,全面解放运维,为业务稳定保驾护航

大数据时代,数据是企业最宝贵的资产,业务是企业赖以生存的基础。因此高可用和高可靠是最基本诉求。云HBase提供的全托管服务相比其他的半托管服务以及自建存在天然的优势。

依托持续8年在内核和管控平台的研究,以及大量配套的监控工具、跨可用区,跨域容灾多活方案,云HBase提供目前业界最高的4个9的可用性,11个9的可靠性的高SLA的支持,满足众多企业客户对平台高可用、稳定性的诉求。

云HBase服务定位为全托管服务,后台自动代维和保持服务稳定性,极大的降低了客户使用门槛,让无论是SME,还是巨头都能享受到HBase技术红利。选择云HBase就是选择了高可用、高可靠服务!

在第二阶段,企业客户的需求集中表现为,如何更好地处理结构化数据以及将老的IT架构迁移到分布式架构中。各大数据平台厂商开始在SQL on Hadoop领域进行研发和竞争,不断提高SQL标准的兼容程度。在这个过程中,Spark诞生并逐渐取代了过于笨重且TB量级计算性能存在缺陷的MapReduce架构,Hadoop技术开始向结构化数据处理分析更深度的应用领域进发。随着SQL on Hadoop技术的不断发展与星环科技解决了Hadoop分布式事务的难题,越来越多的客户在Hadoop上构建新一代数据仓库,将Hadoop技术应用于越来越多的业务生产场景,技术门槛的降低,使越来越多的客户可以利用强大的分布式计算能力轻松分析处理海量数据。在这个阶段后期,随着企业客户对实时数据分析研判需求的不断提高,流处理技术得以蓬勃发展。

其次,在这种情况下也很难实现对业务数据进行统一的模型定义与存储,一些相同的数据被不同的部门赋予了不同的含义,同一份数据就这样以不同的模型定义重复地存储到了多个集群之中,不仅造成了不必要的存储资源浪费,还造成不同部门之间沟通成本的增长。

能够基于X86服务器弹性水平扩展,通过节点冗余增加容错能力,多核计算资源能充分利用,相比小型机方案成本低廉;利用本地磁盘做存储,节省昂贵的集中存储设备投入;软件产品和服务的价格更低。

3.3 全面能力提升,源头解决业务敏捷度,真正释放数据和业务的价值

1)100%兼容原生接口和能力,开发简单,容易上手。云HBase百分百兼容开源接口,并提供一系列配套开发,数据搬迁,监控工具,全面帮助用户提高开发和管理效率。

2)独家跨Region/AZ双活

99696大富豪棋牌 7

阿里云是云HBase首家推出跨Region/AZ双活,在一个集群出现故障的时候,迅速地将业务切换至另外一个集群从而避免故障。HBase主备之间数据的同步基于异步链路实现,遵循最终一致性协议,典型的主备同步延迟在200ms左右。满足金融、社交、电商、人工智能等关键领域对高可用的诉求。

3)备份恢复量级提升百倍以上,数据库领域最大我们经常会听到“某某某DBA误操作把整张表删了”,“某某磁盘故障,造成数据库的某个库的数据全部损坏了”。这种由于外在和内在的原因造成的数据不可靠,最终会给用户带来毁灭性的灾难。

所以一个企业级数据库,全量备份、全量恢复、增量备份、增量恢复,是基础能力。传统数据库备份恢复的能力都是TB级别,这在交易等场景下面是足够的,但是面向大数据场景就捉襟见肘了。云HBase通过垂直整合高压缩、内核级优化,分布式处理等能力,将备份恢复的量级成功推高百倍以上,做到百TB级别甚至更高,让客户大数据量下面也无后顾之忧。

4)支持融合多模型和融合多负载、提供开箱即用的能力

云HBase在KV的基础上,同时支持时序、时空、图、文档等多种数据模型,内置丰富处理能力,让业务开发效率提升百倍。

在线能力的基础上,融合流处理、批处理、OLAP,OLTP、高速对象存储,全文检索等能力,提供客户融合业务开箱即用的能力。

历经近8年的技术沉淀,阿里巴巴大数据NoSQL数据库处理技术的精华沉淀在HBase上,后者成功支撑了成功支撑了阿里经济体中最大的NoSQL业务体量,是阿里大数据处理技术的核心组成部分,当前将这项技术应用到广大企业中,助力企业发现数据价值。

短短1年间,就覆盖了社交、金融、政企、车联网、交通、物流、零售、电商等数十个个行业,帮单用户顶住千万级QPS的业务压力,以及百PB级数据高效存储和处理。

本文作者:所在jason

阅读原文

本文为云栖社区原创内容,未经允许不得转载。

在第三阶段,一部分企业已经完成了由基于关系型数据库为核心的数据处理体系向基于大数据技术为核心的数据处理体系的转变。在本阶段早期,很多企业客户不满足于通过SQL基于统计对数据的分析和挖掘,促使传统的机器学习算法开始实现分布化,但主要还是针对结构化数据的学习挖掘。随着深度学习技术和分布式技术的碰撞,演化出了新一代的计算框架,如TensorFlow等,计算能力的提升,并结合大量训练数据,使机器学习人工智能技术在结构化与非结构化数据领域产生巨大威力,开始应用于人脸识别、车辆识别、智能客服、无人驾驶等领域;同时,对传统机器学习算法产生了巨大冲击,一定程度上减少了对特征工程与业务领域知识的依赖,降低了机器学习的进入门槛,使人工智能技术得以普及。另一方面,可视化的拖拽页面、丰富的行业模板、高效率的交互式体验,极大地降低了数据分析人员的使用门槛,让人工智能技术进一步走入企业的生产应用。

(2)更强的整体处理能力

大数据、人工智能与云技术的融合

消除集中存储的带宽瓶颈,可采用SSD介质加速随机读写速度,获得极高的IO处理能力;针对并行计算需求设计,采用异步无锁的高并发服务框架,提供可线性增长的数据并行处理能力,可提供高并发低延迟数据处理服务。

随着企业内部对于数据资源的应用不再仅仅局限于IT部门,越来越多的内部项目组与分支机构加入大数据平台的使用中,加之数据处理技术的不断发展,如何解决基础平台的资源隔离问题、管理分配问题、编排调度问题;如何将企业业务应用需要的基础服务能力做更好地抽象,降低应用所需的基础服务的环境搭建、开发、测试部署周期,提升IT支撑效能;如何更好地管理众多的基于大数据与人工智能开发的应用等等成为企业急需解决的问题。

(3)更优的资源管理和调度机制

在大数据技术发展的早期,仅仅是在计算框架MapReduce中提供简单的作业调度算法,随着资源管理的需求,在Hadoop 2.0时代,Yarn作为单独组件负责分布式计算框架的资源管理。但是,一方面,Yarn仅仅能够管理调度计算框架的资源;另一方面,资源的管理粒度较为粗放,不能做到有效的资源隔离,越来越不能满足企业客户的需求。

可提供弹性的租户资源管理体系,防止不同应用之间的资源过度竞争,在不同时间段为各应用按需调配资源,利于在一个统一的数据平台上构建多个应用系统。

云计算技术作为资源隔离封装虚拟化,以及管理调度的技术,本应应用于解决上述问题。但是,在Docker容器技术被广泛接受之前,云计算虚拟化技术主要基于虚拟机封装资源,并在其之上加载操作系统,资源利用率低,早期有厂商尝试将大数据平台构建在基于虚拟机技术的云化方案上,由于资源利用和稳定性问题,在私有云上的尝试鲜有成功案例。在公有云方面,借助公有云较为强大的基础平台硬件与运维支持能力,有一些非核心业务的应用尝试。

处于业务发展的新阶段恒丰银行,更需要一个低成本可线性扩展的数据处理平台,解决企业多个数据应用形成数据孤岛,数据资源难以共享、数据标准不一、存在大量冗余数据的问题。恒丰银行在进行充分的可行性分析后,基于大数据平台重构优化了数据仓库及关联应用。同时基于统一的企业公共数据模型上构建发展各应用集市和分析集市,减少数据的重复加工和各数据应用的开发成本。

随着Docker、Kubernetes等容器技术的发展,与微服务等技术概念的形成,大数据与人工智能基础平台开始基于容器云构建底层资源管理与调度平台。容器云就像一个分布式的操作系统,将集群中的各类硬件资源进行封装、管理以及调度,将封装的资源作为容器承载大数据的相关组件进程,再将这些容器进行编排,组成一个个的大数据和人工智能的基础服务,如分布式文件系统HDFS、NoSQL数据库Hbase、分布式分析型数据库Inceptor、分布式流处理平台Slipstream、分布式机器学习组件Sophon等。由这些基础服务编排构建公共能力服务层,提供如数据仓库、数据集市、图数据库、全文搜索数据库、流处理服务、NoSQL数据库、机器学习平台服务、定制图像识别服务等,为企业打造全新的数据处理核心系统。基于这一核心系统服务于各类企业的不同部门。通过资源隔离技术,通过对每个租户的资源分配和权限管理,满足业务分析人员的个性化分析需求,专注于业务逻辑的开发和数据的分析挖掘。

最后,构建了包容实时数据应用和数据分析型应用的统一软硬件技术架构,同时满足联机数据查询和海量数据分析需求,提高数据应用的开发效率和增强了服务器资源有效利用率,减少了应用总体开发和部署成本。

技术融合的应用

周期/节奏

中国邮政大数据平台建设以Transwarp Data Hub与Transwarp Operating System作为基础架构系统,搭建的新一代逻辑数据仓库和数据集市,完全取代了Teradata和Oracle.

2015年7月,恒丰银行正式启动大数据平台建设项目。2015年底完成需求梳理、架构与应用规划。

总体架构与实现

2016年1月,在开源软件、国产大数据平台的基础上,恒丰银行自主设计开发建设企业级大数据应用平台,利用全新的大数据平台技术全面重构了企业数据仓库应用。

中国邮政大数据平台服务于量收、邮务、名址等系统,同时运用容器云TOS实现创新多租户的数据分析挖掘环境。建立从业务层到管理层到决策层的智能分析体系,模拟量化风险和收益,实现对邮政各种业务数据进行分类、管理、统计和分析等功能,给各级管理人员提供各类准确的统计分析预测数据,使其能够及时掌握全面的经营状况,为宏观决策提供支持;为省分公司基层业务人员提供详尽的数据,供其对各自的工作目标、当前和历史状况进行准确的把握,对业务活动进行有效支撑,满足邮政经营分析管理及决策支持。

2016年5月在企业数据仓库公共数据集市成果基础上,结合大数据技术服务能力,升级改造原有的渠道、授信管理、审计、客户管理等系统,在客户服务、风险管理、内部管控、营销管理等多个业务领域开发基于大数据平台的创新。

中国邮政大数据平台以五大基础服务集群域为基础,分别是数据湖集群域、企业数据仓库集群域、省分服务集群域、机器学习实验室集群域、开发/测试/培训集群域。

2017年延续大数据思维,将打造更加智能化的技术平台,整合深度学习、知识图谱、情感计算等前沿人工智能技术,自主研发智能决策引擎产品,与渠道和产品系统充分整合,为恒丰银行业务发展植入更加智慧的数据大脑。

数据湖集群域:基于TDH平台搭建的数据湖,主要承担多源异构的数据归集,数据湖内包括:原始数据池、清洗加工数据池、整合加工数据池等。

客户名称/所属分类

企业数仓集群域:基于TDH搭架的数据仓库集群,基于大数据创新搭架逻辑数据仓库,用于迁移改造原有基于Teradata搭架的数据仓库,数据集市和基于Oracle搭建的报刊集市的邮政量收管理系统。

恒丰银行/大数据技术服务

省分服务集群域:基于TOS搭建容器化多租户数据分析平台云。为省、市分公司开发人员和业务人员提供省分多租户的平台环境,集团分发数据与自有数据存储计算,自有应用的开发与管理,独立租户使用运行。

任务/目标

机器学习实验室集群域:基于TOS搭建的容器化多租户大数据机器学习平台,为集团数据中心分析师提供多租户的开发实验环境平台,进行数据探查、业务建模、算法研究、应用开发、成果推广等。

商业银行业务快速发展对数据应用的时效性和处理能力提出了更高要求,传统数据仓库技术普遍存在升级成本高、不能弹性扩容、并发处理能力较低的问题。探索采用大数据技术构建统一的企业级数据管理平台,重构数据仓库应用,减少数据重复加工与冗余存储,促进信息管理应用的数据融合共享,提高数据处理总体效率,提升数据分析和深度应用能力,正逐渐成为商业银行IT建设的热点方向。

开发/测试/培训集群域:为应用开发人员、系统测试人员、培训师、学员提供多租户的大数据与机器学习平台,为开发商及内部单位提供开发测试培训服务。

利用大数据技术可有效构建以数据仓库应用为核心、弹性扩容、资源相对隔离、多应用共存的分布式集群数据管理平台,有效解决长期积累的问题:

以此为基础,达到了数据管理、服务管理、运维管控、安全管控四个维度的统一。在风险管控、决策支持、服务支撑、流程优化、品牌创新、交叉营销六大应用领域展开应用。实现了租户管理、数据治理、数据加工、数据挖掘、数据探索、数据展现六大平台功能。

(1)解决平台处理能力不足,应用分散问题

数据湖和数据仓库基于TDH构建,将包括业务系统数据、实时流数据、合作单位数据、互联网数据等不同数据源,通过ESB接入、ETL工具、Kafka、Sqoop、文本上传、人工接入等方式,统一汇聚进入数据湖。加工后获得的数据资产发布到数据资产目录,通过数据资产目录的构建TDH与TOS用户间数据交互体系。便于用户快速检索数据,通过数据资产目录实现对数据的集成、融合、安全、共享。数据资产目录包括:元数据、主数据、数据安全、数据标准、数据质量、数据轮廓、数据生命周期等。此外,企业用户通过大数据门户按需申请租户存储计算资源、数据资源、审批流程通过后,集群资源管理员按需快速部署集群,自动化将数据从数据湖加载入数据分析集群或省分集群对应的租户空间,供数据开发人员使用。数据开发人员会将数据应用成果固化到数据湖内,对外提供数据服务。

分布式并行数据处理解决超大数据集的可计算难题,加速统计分析应用的响应速度;提供可统一调度的超大硬件资源池,多个上层应用和数据仓库可共存于一套集群环境,极低成本快速实现企业应用之间数据的共享与融合,减少数据跨系统复制导致的数据批处理时延,减少多个应用数据库独立部署带来冗余的数据存储成本。

数据仓库与数据集市的完整迁移

(2)强化数据仓库核心应用地位,实现企业数据治理目标

中国邮政大数据平台是全球首个采用Hadoop技术完全取代Teradata和Oracle的混合架构搭建新一代逻辑数据仓库和数据集市的系统。

数据仓库应用承担更多的基础与共性数据加工职能,有利于聚合应用共性需求,有效管控和实施数据标准,统一关键指标计算口径,易于实现数据治理目标。

原量收系统使用Teradata的数据仓库和Oracle的数据库,数据使用空间目前已接近30TB,现有使用用户约5万人,提供近约900张报表的灵活查询,单日报表查询频次最高能达到40万次,月初高峰查询需支持约2000计算查询并发。

同时,建立统一的数据处理任务调度平台,多个数据应用可以和数据仓库应用整合,统一配置数据批处理任务和调度依赖关系,复用数据仓库建立的企业数据模型资源,更清晰划分数据处理职责边界,减少数据重复加工和开发成本,缩短各应用数据批处理时间,实现各系统每日尽早开放服务。

通过项目前期大量调研准备工作,制定了切实可行的项目实施方案。量收管理系统的总体架构、ESB、BI工具、ETL工具、调度工具、门户等都保持不变,仅将原量收系统的数据仓库和数据集市,使用大数据平台进行完全替换,降低了整个迁移风险。

挑战

整个迁移过程中,包括环境部署、模型迁移改造、接口迁移改造、数据迁移、ETL迁移改造、报表迁移改造、数据核对、性能优化、业务应用迁移、风险控制,系统测试等。例如模型迁移改造,不改变原有业务逻辑,只需对接口层模型,基础层模型、汇总层模型进行轻度改造。对于模型改造来说,系统基础层模型结构相对复杂,关联度相对较高,原系统使用Teradata数据库。TDH全面兼容Teradata的数据类型与SQL方言,降低了迁移成本。同时迁移完成后,性能大幅提升,见图2.

大数据技术是一种新型的技术,从接触概念、了解技术到大数据平台落地,会遇到了多方面的挑战,主要体现在大数据产品的选择、平台架构与应用的规划,人员培养三个方面。

▲图2 迁移前后数据集市业务场景500并发测试性能对比

大数据产品选型

基于容器云的大数据与机器学习平台的全面应用

以Hadoop/Spark为代表的大规模数据处理技术为超越传统数据库的处理局限性提供了先进的并行计算和资源调度框架。但也应该看到大数据相关技术还在发展的初级阶段,开源版本产品在满足企业级应用场景的需求时,还存在明显的局限性。

基于TOS实现的多租户新模式,将大数据与机器学习平台组件完全容器化实现,并在TOS提供能力服务。集团统一部署企业内部云平台,对邮政各个租户动态分配存储、计算、网络等资源,并实现完整的资源隔离,使得各个租户数据分析人员和业务人员获得相对独立的资源环境,赋能业务创新,同时可动态调配资源,实现资源的共享优势。

高并发低延迟、应用开发成本低、平台功能完善是恒丰银行大数据产品选型的基本需求,软件产品在系统架构设计上应尽量突破开源版本的技术局限性,吸取传统数据库技术的成功设计经验,才能更好地满足企业应用场景的需求。选择的大数据产品应满足以下特点:

集团、省分、市局各级人员通过多租户平台,实现资源发布、申请,使用及应用开发、成果推广。通过项目立项申请审批后,省分项目组人员在租户空间内,接入访问数据资源,使用平台服务资源,大数据分析工具及机器学习挖掘工具展开数据分析挖掘工作,具体开展数据处理、模型开发、算法应用、应用发布等,在审批验收之后,将成果推广到数据湖上部署对全集团提供数据应用服务。

99696大富豪棋牌,(1)兼顾大数据批量处理和小样本数据精确查询统计的性能需求

通过TOS+TDH搭架厚平台、薄应用的微服务架构,实现租户之间的异构性、独立测试与部署、资源按需伸缩、高性能计算能力、租户间错误问题隔离、团队全功能化。实现数据资产化管理。面对集团数据多样、海量、跨板块、跨专业的需求,集团对数据进行了全面梳理,创新集成各版块、专业数据,创建数据资产目录便于快速检索获取资产,管控治理资产,让数据即资产从理论阶段上升到实现阶段。

系统应该在全量数据并行处理和小样本数据快速过滤两种场景都有高性能表现,同时能并发处理尽量多的小样本数据计算需求。

随着企业数据处理与服务需求的不断发展,由大数据的汇聚,分布式技术释放计算能力开始,技术不断延伸发展,大数据、人工智能与云计算的边界越来越模糊,三者技术的发展不断互相影响与融合,这是发展与需求产生的自然趋势。在“后大数据时代”,基础大数据与人工智能云平台的形成与落地会越来越多,真正实现科技赋能业务,为企业提升效率与发展提供更强的心脏。同时,未来可以看到,企业可能会将其基于基础能力平台的应用体系也上架到平台的应用市场中,充分利用云平台的优势能力,资源共享,统一管理。

本文由99696大富豪棋牌发布于新闻动态,转载请注明出处:企业的数据处理技术转型也经历了几个阶段,同

关键词: