时序大数据平台TDengine核心原理与实战
上QQ阅读APP看书,第一时间看更新

1.2 时序数据的十大特征

相对于传统的互联网应用数据,时序数据具有许多独有的特征。涛思数据的创始人陶建辉先生在2017年就已经对这些特征进行了深入的归纳和分析,并总结出时序数据及其应用的十大特征。

数据具有时序性,必须带有时间戳:联网设备按照设定的周期或在外部事件触发下不断产生数据,每条记录都是在特定时间点生成的,其时间戳对于记录的价值至关重要。

数据结构化:工业互联网和物联网设备产生的数据以及证券交易数据通常是结构化的,且大多数是数值型的。例如,智能电表采集的电流、电压值可以用4B的标准化浮点数表示。

一个数据采集点就是一个数据流:一台设备采集的数据和一只股票的交易数据与另一台设备或股票的数据完全独立。设备产生的数据或股票的交易数据只有一个生产者,即数据源是唯一的。

数据较少更新或删除:对于一个典型的信息化或互联网应用,它们产生的数据可能是经常需要被修改或删除的。但对于设备或交易产生的数据,正常情况下不会被更新/删除。

数据不依赖事务:在设备产生的数据中,单条数据的相对价值较低,数据的完整性和一致性不如传统关系型数据库严格。由于人们关注的是数据趋势,因此无须引入复杂的事务机制。

相对于互联网应用,写操作多,读操作少:互联网应用中的数据记录通常是一次写入,多次读取。例如,一条微博或一篇微信公众号文章,一次写,但有可能上百万人读。然而,工业互联网和物联网设备产生的数据主要由计算和分析程序自动读取,且读取次数有限,仅在发生事故时,人们才会主动读取原始数据。

用户关注一段时间内的趋势:对于银行交易记录、微博或微信消息等,每条记录对用户都很重要。然而,在工业互联网和物联网时序数据中,单个数据点的价值相对较小,人们更关注一段时间内的数据变化趋势,而非单一时间点。

数据具有保留期限:采集的数据通常基于时间长度设定保留策略,如仅保留一天、一周、一个月、一年,甚至更长时间。由于数据的价值往往取决于时间段,因此对于不在重要时间段内的数据,可以被视为过期数据并整块删除。

需要实时分析计算:对于大多数互联网大数据应用,离线分析更为常见,即使有实时分析,要求也不高。比如用户画像场景,我们可以积累一定的用户行为数据后再进行分析,早一点或晚一点对最终结果的影响并不大。然而,在工业互联网、物联网平台应用和交易系统中,对数据的实时计算要求较高。因为我们需要根据计算结果进行实时报警、监控,以避免事故发生和错过决策时机。

流量平稳且可预测:根据工业互联网和物联网设备的数量与数据采集频次,可以较为准确地估算所需带宽、流量、存储等资源,以及每天新生成的数据量。这与电商在双11期间流量激增,或12306网站在春节期间流量暴增的情况形成鲜明对比。

这些特征为时序数据的处理带来了独特的需求和挑战。然而,一个高效的时序大数据平台也将充分利用这些特征来提高自身的处理能力。