技术领跑!Apache IoTDB 6 篇论文入选数据库国际顶会 SIGMOD、ICDE 2025

在 5、6 月结束的数据库领域国际顶级学术会议 ICDE 2025 与 ACM SIGMOD/PODS 2025 中,时序数据库 Apache IoTDB 共有 6 篇论文被录用,涵盖存储压缩、查询处理、可视化分析等方面,论文研究成果均已在 IoTDB 实现,或基于 IoTDB 进行性能评估。

ACM SIGMOD 和 ICDE 代表了全球数据库技术研究的最高水平,IoTDB 核心技术论文连续数年被顶级学术会议录用,不仅表明了 IoTDB 在工业应用领域的创新性、先进性,更标志着国产自研的时序数据库技术已获得国际学术界的权威认可。

6 篇论文入选 SIGMOD、ICDE 2025 图1-20250711.png6 篇论文入选 SIGMOD、ICDE 2025 图2-20250711.png

SIGMOD 官网、ICDE 官网收录论文提及,原链接:https://2025.sigmod.org/sigmod_papers.shtml,https://ieee-icde.org/2025/research-papers/

SIGMOD 2025 收录 3 篇论文

Randomized Sketches for Quantile in LSM-tree based Store

🎯论文名称:基于 LSM 树存储的随机分位数草图

摘要:分位数的精确计算代价高昂,但可以通过分位数草图进行高效估计。现有关于流数据汇总(如 KLL 草图)的研究主要致力于在给定误差控制下最小化内存开销。然而在基于 LSM 树的存储系统中进行分位数估计时,流式处理方法会产生与数据量 N 成线性关系的昂贵 I/O 开销。由于 LSM 树中的磁盘组件(数据块和 SSTable)一旦刷盘就不可改变,可以将分位数草图作为一种预计算统计信息来降低 I/O 开销并加速查询。若要为查询数据提供确定性的加性误差 εN 保证,所有被查询数据块(单个大小为 Nc)的预计算确定性草图都必须提供 εNc 误差保证,导致线性 I/O 开销无法改善。

本文提出预计算随机草图方案以提供随机加性误差保证,主要技术创新包括:(1)针对刷盘构建的数据块随机草图(经证明具有最优性,可实现与 √N 成正比的 I/O 开销),(2)针对压缩构建 SSTable 分层随机草图,可进一步改善渐进 I/O 开销;(3)总结预计算的 KLL 草图比总结流数据的 KLL 草图更准确,可在与流数据相同的内存复杂度条件下实现次线性 I/O 开销。在合成数据集和真实数据集上的大量实验验证了该技术的优越性,该方案已部署于基于 LSM 树的时序数据库 Apache IoTDB 中。

In-Database Time Series Clustering

🎯论文名称:数据库内的时序聚类

摘要:时序数据常需在不同时间范围内反复聚类,以挖掘不同时段频繁出现的子序列模式,从而为下游应用提供支持。当前最先进的时序聚类方法(如 K-Shape)能有效根据形态特征进行聚类,但在数据量庞大、效率要求高的物联网场景中,数据库内的时序聚类问题始终未被充分研究。多数时序数据库采用基于 LSM 树的存储架构应对高频写入,但这会导致底层数据点产生乱序时间戳。因此,若直接应用现有的数据库外时序聚类方法,必须将所有数据完全加载到内存中,并重新按时间排序,且每次处理跨不同时间范围的查询时都需从头开始聚类,效率低下。

本文提出数据库内适配的时序聚类方法 K-Shape 改进方案,并针对长时序数据处理问题,提出 Medoid-Shape 方法及其数据库内适配方案,以进一步提升使用速度。大量实验证明,该方案在同等效果下显著提升了效率。所有技术已在开源商用时序数据库 Apache IoTDB 中实现。

Largest Triangle Sampling for Visualizing Time Series in Database

🎯论文名称:面向数据库时间序列可视化的最大三角形采样方法

摘要:在时间序列可视化中,降采样技术用于减少数据点数量,并保留原始时间序列的视觉特征。基于面积的最大三角形采样法(LTS)在保留感知关键点方面表现优异。然而,通过顺序采样局部最大三角形面积的点的启发式解决方案(即 LTTB 算法)存在次优解和查询效率低下的问题。

针对这些缺陷,我们提出了一种创新的迭代最大三角形采样算法(ILTS),通过凸包加速技术进行优化。该算法可以迭代优化采样结果,通过在每次迭代中集成更多数据点以获取更广阔的视角。我们证明了在预先计算的凸包中始终可以找到最大的三角形,从而保证了迭代采样过程的高效性。实验结果表明,相较于现有的最优基线,新算法显著提升了视觉质量,与蛮力方法相比,速度有显著提升。

ICDE 2025 收录 3 篇论文

OneRoundSTL: In-Database Seasonal-Trend Decomposition

🎯论文名称:OneRoundSTL:数据库内置的季节性趋势分解方法

摘要:季节性趋势分解方法在时序分析中应用广泛,例如时间序列预测和异常检测。现有的季节性趋势分解方法(如 STL 及其变体)通常假设时间序列是完整且按时间戳排序的。然而,主流时序数据库多采用基于 LSM 树的存储结构,其数据页中的存储顺序往往与时间顺序不一致。此外,数据库中的时序数据常因传感器故障等原因存在数据缺失,进一步破坏了数据的完整性。常规解决思路是先合并排序不同数据页的内容再进行分解,但这会导致沉重的在线计算负担和多次查询时的重复计算,且仍无法处理残留的缺失数据。

本文提出 OneRoundSTL 方法,通过在离线阶段预计算各独立数据页的结果,在查询时拼接这些预计算结果即可获得分解结果。该方案已在开源时序数据库 Apache IoTDB 中实现并作为内置功能部署。系统在合成数据集和真实数据集上的实验表明,OneRoundSTL 在保持分解效果的同时,其执行效率远超现有最优方法。

BOS: Bit-packing with Outlier Separation

🎯论文名称:BOS:基于离群值分离的位打包技术

摘要:位打包是多种数据编码与压缩方法的基础操作,其核心思想是采用固定位宽来表示序列中所有经过处理的值。然而,某些极大值(称为上界离群值)会显著增加所需位宽,导致大多数较小值存储时的位浪费。值得注意的是,不仅是大值(上界离群值),小值(下界离群值)同样可能引起位宽浪费。

本文提出通过分离上下界离群值来优化存储的方法(BOS):将离群值单独存储后,剩余中心值的分布范围变窄(即压缩位宽),需要额外成本记录离群值位置。该问题的核心在于如何确定最优的上下界离群值分离阈值,以实现最小化存储成本。相较于使用搜索时间为 O(n²) 的全枚举上下界阈值,我们创新性地采用位宽作为分离依据,将搜索时间降至 O(n log n)。理论分析表明,基于位宽的分离策略在所有可能情况下都能获得与值分离法相同的优化解,并进一步提出结合中位数与位宽的近似分离策略,搜索时间进一步降至 O(n)。BOS 方案可与现有所有基于位打包的压缩方法兼容,目前已在 Apache IoTDB 和 Apache TsFile 中全面替代传统位打包方法。大量真实数据集实验表明,在各种压缩方法中用 BOS 替代位打包后,压缩比从约 2.75 显著提升至 3.25。

Exploring SIMD Vectorization in Aggregation Pipelines for Encoded IoT Data

🎯论文名称:面向编码物联网数据聚合管道中的 SIMD 向量化技术探索

摘要:时序数据库用于采集和分析工业设备传感器发送的海量数据,在物联网领域至关重要。无论是从网络接收的数据还是数据库存储的数据,都经过高效编码以减少 I/O 占用和延迟。物联网编码器通过组合差分编码、重复值压缩和打包编码算子,实现了比单独使用任一方法更高的压缩比。然而,因为处理查询前必须进行串行解码,高效的压缩反而增加了查询执行难度,而选择性聚合(如降采样)是时序分析查询的核心操作。

本文提出了一套基于编码数据数组的算子体系,用于加速物联网聚合查询处理,可扩展集成线程级和指令级设计,创新性地实现了无需解码即可并行聚合编码数据的能力,并能够利用编码统计信息减少冗余计算。这些算子构建的管道式查询引擎已集成至开源数据库 Apache IoTDB 中。系统评估表明,该方案在选择性聚合查询效率上较现有工作实现了显著提升。

作为国产自研时序数据库的领跑者,IoTDB 通过产、学、研、用深度融合模式,深挖物联网场景需求,在多项数据库技术方向持续突破。目前已有超 50 篇技术成果论文发布,多篇论文入选数据库顶级会议。

更多内容推荐:

• 下载时序数据库 IoTDB 开源版