2022 IoTDB Summit:京东周炯《万物互联时代的时序数据库》

12 月 3 日、4日,2022 Apache IoTDB 物联网生态大会在线上圆满落幕。大会上发布 Apache IoTDB 的分布式 1.0 版本,并分享 Apache IoTDB 实现的数据管理技术与物联网场景实践案例,深入探讨了 Apache IoTDB 与物联网企业如何共建活跃生态,企业如何与开源社区紧密配合,实现共赢。

我们邀请到京东集团副总裁、IoT事业部负责人周炯参加此次大会,并做主题报告——《万物互联时代的时序数据库》。以下为报告全文。

各位来宾、朋友们,大家好,我是京东集团周炯,随着万物互联时代的到来,时序数据库变得越来越重要,那么今天我们就这个话题和大家分享一下我们的看法。

1.万物互联时代已经来临

我们先来看几组数据,今年 8 月份据工信部的统计,中国移动物联网连接数已经超过移动电话的用户数,也就是说中国迈入了物超人的时代,随着设备量的飞速增长,数据量也会几何级的飞速增长,那在未来 IoT 数据将会是全球互联网数据的非常主要的来源。

02 京东科技在物联网领域的实践

我们看一下京东科技在物联网领域的实践情况,伴随着京东技术战略的发展和积累,京东科技物联网平台可连接设备达到两亿以上,包括两百多种设备类型和四千多个设备型号,拥有一千多个合作伙伴,京东科技物联网平台具有安全可靠、高性能、开放灵活的特点,可以灵活应用于 To C 和 To B 的各类物联网场景。

在工业物联网领域,我们融合了云计算、物联网大数据、AI、区块链等前沿技术,打造产业大脑、供应链大脑、制造大脑、双碳大脑四个数字化的引擎,并在上层构建供应链全环节的应用和生态,打通生产和销售的全链条,助力企业数字化升级、产销协同。

随着碳达峰、碳中和的目标提出,节能降碳已经成为了大家的共识,在能源双碳领域我们通过产业数据中台、物联网管理平台、智慧能源服务平台的建设,打造统建共享的智能园区和能源双碳平台,提高园区管理水平、促进生产决策,实现节能降碳。

京东科技已经深耕智能家居多年,我们以小京鱼智能家居平台为底座打造的跨平台、跨品类接入的智能家居物联网生态,依托京东平台的电商能力我们将海量的智能产品带入千万家庭,满足智能人居的各种场景需求。

在数字仓库领域,围绕大宗行业核心枢纽,融合物联网、人工智能等技术构建全流程控货、全品类监管的数字仓库解决方案,并以此为基础延展贸易和金融服务,主要包含了有色金属、建杂货、干散件和冷链商品的数字仓库解决方案等,当然还有其他领域落地的解决方案和产品,在这里我就不一一赘述。

03 面向物联场景的时序数据库

那这些物联网场景的数据都有哪些特征?通过对各种物联网场景的分析,我们可以把物联网的核心数据类型分为四类,一是传感类数据,比如我们说的温湿度、压力、车速等感知信息,它的特点是低频到高频均有,实时特点数据庞大。二是设备运行数据,包括设备自身数据和外围诊断数据,它的特点是高频、实时、数据量巨大。三是音视频的图片数据,有摄像头和边缘节点产生的,它的特点是实时、稳定、高性能、大存储,最后一类数据是基于原始数据处理后产生的中间数据,主要用于帮助管理决策,一般为报表分析型数据,它的特点是低频、数据量小、非实时。总的来说,核心的数据特点有海量、序列性、实时性、易购和动态的流动性,我们可以看到其中时序的数据占据了主要的体量。

物联网的时序数据有以下几个典型的特征,第一个是它的采集源是单一稳定的,一个物联网设备采集的数据与另外一个设备采集的数据是完全独立的,也就是说一台设备的数据只有一个生产者,那数据源是唯一的。第二个特点是它的数据规模是巨大的,物联网设备量巨大,24 小时不间断的产生数据,因此数据规模远远大于传统的互联网的数据量。第三个特点是写多读少,对于互联网的应用一条数据记录往往是一次写很多次读,而物联网设备产生的数据一般在分析趋势或者故障的时候才会去读,不会频繁去读取原始数据。第四个特点是本地自治,边缘计算是未来物联网发展的重要趋势,时序数据的实时处理需要在本地完成,汇聚到云端只是高度结构化的聚合数据。最后是实时融合,物联时序数据往往需要实时的聚合分析才能获得我们想要的信息。

在物联网领域时序数据无处不在,时序数据库具有非常广阔的应用前景,譬如车联网车辆和路况的监测、工厂设备监测、分布式新能源监测,货物的追踪以及远程抄表和数据中心服务状态的监测等等。针对这些应用场景我们可以看到物联时序数据的处理有明确的目标,第一目标是高并发、高吞吐写入的能力,能支持每秒上千万数据点的写入。第二个就是要低成本高效的处理,由于物联网数据的量庞大必须降低海量数据的存储成本,提供高压缩率。第三个就是流式处理,时序数据往往需要流式处理,而由于数据量巨大,单数据的开销是非常大的,将计算与时序数据库底层数据直接对接则可以提高它的处理效率。第四是分布式高可用,通过分布式架构可以支持海量数据的横向扩展,以及系统的高可用。第五是需要支持实时的聚合查询分析。

要同时满足以上五个处理目标,传统数据库往往有所不足,因此,迫切需要专门的时序数据库来解决这些不足。根据全球知名的数据库流行度排行榜网站 DB-Engines 的数据我们可以看到,近两年来时序数据库的关注度持续排名第一,并不断增长。而时序数据库的市场也是百花齐放,各种新的时序数据库不断涌现,其中许多优秀的国产时序数据库的上升趋势非常明显,比如 Apache IoTDB 等。

在物联网领域比较有代表性的时序数据库就是 Apache IoTDB,IoTDB 是专为物联网设计的时序数据库,具有高性能和丰富的功能,满足工业物联网领域的海量数据存储,高速数据写入和复杂数据分析需求,提供云边端一站式的解决方案,具有八大特点:开放的系统架构,海量数据的存储,支持物联网专属的模型,支持云边协同,高压缩比和高效的查询能力,拥有高效的存储引擎和丰富的生态。

目前 IoTDB 在京东已经有了两个落地的场景,一是某电力能源项目,该项目要求测点数大于5000万,每秒能实现千万级以上的记录写入,数据查询要能秒级响应,数据量存储需要达到 5 年以上,能支持时间窗口统计每秒百万级的记录处理能力,同时支持云边协同。

另外 IoTDB 也小范围应用在京东智能家居系统的水电煤气统计上面,目前接入测点数在 100 万以上,写入速率大概是 45 万条/分,存量 32 亿条的数据,需要支持六种算子五种时间维度的聚合查询,通过 IoTDB 的应用,我们在提高性能的同时降低了成本。

04 未来展望

展望未来,我们认为时序数据库的发展主要在以下几个方面。首先是云原生,计算和存储能支持弹性扩容,能够基于云原生技术栈持续演进自动化部署和运维。然后是多元融合,未来时序数据库与关系型数据库、KV 数据等深度融合,为应用层提供统一的接口,让用户处理各类型的数据更加的便捷。第三是实时流式处理,通过响应式的编程实现对数据实时的流式的计算,从而大幅减少读放大和写放大的影响。第四是分布式高可用,物联网时序数据库应该具备工业级的高可靠和高可用性能,支持数据的实时备份和异地容灾。第五是可观测易维护,系统应具备良好的观测性,具有完备的监控运维体系,在各种环境下能够方便的部署,并且长期运维也能相对的简单。最后是采存算用一体,我们认为以应用价值为牵引,采用采存算用一体化的发展可以大幅降低数字化的成本。

总的来说,机遇与挑战并存,国产时序数据库必将大放异彩!谢谢大家。

更多内容推荐:

了解更多 IoTDB 应用案例

回顾 IoTDB 2022 大会全内容