作者

佘磊    编辑

Natalie  10月24-26日,易观A10数据智能生态大会将会在上海盛大召开。由于在开源领域的实现了重大突破,今年易观联手InfoQ反馈技术社区,共同为我们开发者带来了丰富的大会技术福利。(文末可扫码参加)

社区与开源,正在成为影响全球技术的一股重要力量。在越来越注重开发者感受的国内互联网领域,开源正在变得越来越流行。毕竟当企业越做越大,成为该领域的领军者之后,要考虑的就是如何引领行业的发展。开源,无疑是彰显企业自身技术实力的最佳途径之一。因此甚至在一定程度上,可以从开源的项目数量上来看出一家互联网科技企业的技术实力。像Google、Facebook、微软、腾讯、阿里等互联网科技巨头,在全球技术开源社区上一直保持着高度活跃,更是体现了他们的全球影响力。

之前,InfoQ曾统计了下国内各大互联网公司在GitHub上的项目数量,不难看出,国内互联网科技企业在GitHub上还是十分活跃的。

这股开源风气,尤其在国内开发者身上表现得非常明显,根据GitHub的全球用户分析,中国现已成为仅次于美国的第二大用户来源。

并且,国内有着互联网产品得天独厚的外部条件。数亿级月活、PB级数据体量、日均数万个任务调度需求等,这些都是在数据体量极大的国内移动互联网市场才能见到的场景。实现这一切的核心,是大数据中台中的核心基础设施-数据任务调度系统。然而当前市面上,却没有能够充分满足和匹配国内数据应用需求的一款数据调度工具。按照常理来说,核心的东西,保持越简单越好,但是现实情况确是,在实践过程中数据处理流程往往都存在很长的依赖链条,导致数据ETL工作开发流程的效率低下。

以Azkaban和Airflow为例,Linkedin所开源的批量工作流任务调度器Azkaban,其很好解决了过于依赖Hadoop进行作业的问题,并且具备很高的易用性。但是其作为一个通用编排引擎,不具备丰富的功能,在工作流进行过程中也无法暂停和恢复,并且在集群化中的部署流程十分繁琐,且可扩展性也不高,限制了其进一步发展。

另外一个应用也比较广泛的调度系统是Airflow,其存在着任务太多会卡死、缺少系统过载保护、没有便于配置的可视化界面等问题,这在一定程度上增加了系统扩展复杂性。另外其实时性能会随着并发数的增加而降低,对于并发性能要求很高且对实时性要求较高的国内企业来说,这点比较难以接受。

因此国人需要一款能够从数据处理痛点出发,能够匹配国内大数据体量和落地应用现状的一款开源的数据任务调度框架。在开源逐渐成为国内的一种潮流与文化后,对于国内的开发者来说,一方面他们会贡献代码、架构,将开源项目进行“本土化”后进而进行迭代和开放,另一方面部分企业也会将开源的模块进行商业化以聚焦更多的需求,或将其项目捐赠给国际顶级的开源软件基金会。易观,就属于后者。

今年的8月29日,紧跟着Kylin的步伐,易观DolphinScheduler正式通过顶级开源组织Apache基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目。

    1打开国内数据领域开源的新大门-ApacheDolphinScheduler  

DolphinScheduler,简称”DS”,中文名“小海豚调度”(海豚聪明、人性化,有左右脑可互相换班,终生不用睡觉)。希望DolphinScheduler就像它的名字一样,成为一个“开箱即用”的灵活易用的调度系统。

之前,InfoQ报道了首个由国人主导的Apache顶级开源项目Kylin的开源历程,这为国内大型顶级的项目开源开辟了先河。之所以Kylin的开源项目能够如此成功,Kyligence创始人Luke在接受InfoQ专访时曾提到,我们连中国这种“地狱级”的数据体量都能搞定,国外的那些根本不在话下。

DolphinScheduler也是如此,作为一个分布式易扩展的可视化DAG工作流任务调度系统,致力于解决数据处理流程中错综复杂的依赖关系。

早在年5月,DolphinScheduler就已经在易观内部的千帆产品线上得到了使用。随后其耗费2个多月的时间来对框架内部的架构进行重构升级,并决定正式开源。今年8月份,正式推出了1.1.0新版本,其实现了包括去Hadoop依赖、Kerberos安全支持、资源分目录、







































北京治疗白癜风最好的医生
北京那家医院治白癜风好



转载请注明地址:http://www.hthaituna.com/htfbfw/4482.html