全联网标识服务
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 标识服务关键技术

标识所代表的实体是全联网的基本组成单元,标识及其相关信息是形式化表征和虚拟实体的核心要素。通过定制化的数据组织、处理和分析技术,以定位实体信息位置并按需获取所需信息为主要诉求,构成了标识解析技术的主要内涵。标识服务关键技术主要包括三个方面:(1)标识技术,本质在于实现各类“实体”的数字化映射;(2)解析技术,主要指对海量标识数据的查询、计算和服务响应;(3)安全技术,即对标识及其属性信息的保护。在全联网内,各类实体的异构性增强、规模和数据量增大,导致在标识组成、信息获取(解析)和安全防护等方面都形成了独特的技术内容。同时,云计算和人工智能等新兴技术也逐渐成为标识解析的重要技术。

一、标识技术

所谓“物”,从表面上理解是“人、机、物”,更为准确的理解是网络和信息化系统中的各类要素(包括硬件、软件、数据和服务等)紧密交互形成的集合。标识的意义在本质上是通过有目的的信息编制,支撑万物感知和发现。因此,标识不仅仅是狭义上的信息编码形式,更是对全联网内“物”的定义和描述。前者用于排他性的“识别”,后者用于达成更为宽泛的管理和控制的目标。

标识首先要通过信息的编制完成对物理世界和数字世界的映射。在互联网领域中,域名以层次化的结构和便于记忆的词语,对社会关系和目标类型进行描述。在智能电网中,设备编码用于实现电站数字化映射的标准化标识系统,包括对电厂/电站、系统、设备、部件等实体要素的识别和分类。在生产和物流领域中,品类编码用以标识某类或某种物品,商品编码用以标识某个物品。

未来全联网标识技术的发展主要集中在以下几个方向:(1)能够客观、全面地描述全联网基本要素,如完成对物体、事件、服务等要素的映射。(2)扩展语义的广度和深度,探索高度语义可扩展的信息编制范式,在客观、全面描述全联网基本要素的同时,提升识别和分析的便利度。比如,最典型的就是在标识信息中加入位置数据,包括经纬度、物联节点所处的特定空间位置(发电设备相对于发电机组的位置,环境传感器相对于农田或建筑的位置等)。(3)全面体现标识间关系,即标识信息组成本身对虚实个体的关联性进行刻画,如车辆、货箱和货品之间,或者厂房、生产线、车床和设备之间。(4)实现标识信息的标准化。正因为域名中二级域名以下的缩写的不一致将直接影响互联网拓扑分析的准确性,所以未来要确保全联网内相同要素在不同标识中具有一致的形式。

二、解析技术

在互联网场景中,如DNS、Handle等,解析的含义通常是以特定标识为目标,进行信息提取,更偏向于通用类的服务,很少有“决策”支撑的味道。比如,互联网场景中的典型请求——“获取a.b.c.d的IP地址”,涉及的技术环节包括DNS资源记录的信息组织和提取,以及通过递归和权威服务器逐级获取信息的机制设计。

而在全联网场景中,解析的内涵得到极大扩展,不再局限于针对特定标识的信息获取,更加富含语义,而且对决策形成直接的支持。比如,除了“获取某传感器的读数”这类请求,还倾向于对“知识”或“洞察”的获取,如发现事件或异常、获取特定物联节点集合的统计值等。在响应类似的物联网场景中涌现出来的新型解析请求的过程中,数据处理和计算的作用更为凸显。

总体来看,全联网标识解析是在分层构建、全球分布的基础上,对信息进行高效的查询。同时,正在从对个体进行识别发展到对物理世界进行感知,逐层提升,最终实现从“解析”到“发现”的演变。比如,在物联网领域中,用于支撑搜索功能的关键信息需要通过相对复杂的清洗和处理,从海量、异构的数据中加以提取。从发现事件或异常的角度来看,还需要时空角度的分析支撑,并涉及复杂事务处理等。

(一)标识信息管理

全联网标识数据具有天然的大数据特征:(1)海量数据点。据预测,RFID标签的数量将在2021年达到2000亿个以上[1],越来越多的物理实体被映射到数字空间中。(2)数据规模大。基于海量的数据点以及高频的数据采集行为,物联网将积累海量数据。(3)数据增速快。由于需要对物理世界进行高频感知,在一些关键系统中,传感器采样频率可能会高达每秒百万次。(4)异构性。各类传感器所产生的数据在内容和格式上都有较大差异。(5)动态或不确定性。比如,RFID读数不完整,以及连续多次在探测值之间存在较大波动等。同时,全联网标识数据(编码及属性)还具有时空关联性强、以非结构化信息为主等特征。因此,为提升互操作性,降低全联网内信息交互和利用的难度,高效的数据管理技术是必不可少的。

目前,全联网各场景内的系统仍大量采用传统的关系型数据库,如能源领域中的仪表数据管理。但是,标识及相关数据所面对的应用场景存在较大差异,或需要快速定位,或需要从时间维度进行分析,以及对标识之间的关系进行准确的描述。因此,对于全联网标识数据存在着差异化的数据建模需求,传统的数据模型已无法满足。同时,对于超大规模的数据,传统关系模型执行SQL查询的效率极低,尤其在从时间或空间角度进行汇总时更是如此。综上所述,物联网标识及相关数据的组织和管理需要新型数据架构和模型的支撑。

(1)分布式架构。由于规模巨大且增长迅速,物联网标识及相关信息的统一管理势必以分布式架构为主。其中,分布式的NoSQL数据库因为其所具有的可扩展性强等特点成为支撑物联网(尤其是传感网络场景)标识数据管理的重要技术。同时,相较于关系型数据库,分布式的NoSQL数据库在性能方面更具优势,更适合对海量传感器或其他节点的读写。

(2)列数据库。传统的、以行为主的数据库系统在写操作方面表现突出。但是,物联网场景中通常的需求是在海量数据中查询。因此,读操作更为重要,尤其是针对海量数据的随机读取效率。海量标识的同一属性以列形式实现连续的存储,有助于提升读操作的效率。实验证明,针对特定场景进行定制优化后的列数据库能够将读操作提升1到2个数量级[2]。在智能电网领域中,HBase已被用于电表数据的管理,支撑状态监测等应用[3]

(3)对象数据库。全联网标识对应的物理世界和数字空间内的实体、服务、事件等,基本都可以用“对象”这个概念来描述。也就是说,一系列的“属性”以及其对应的“值”基本上可以对物联网的元素进行概括和描述。因此,对标识及其属性进行组织,Key-Value模式是基本适用的。但是,除了Key-Value模式,物联网的数据组织还应能实现更为全面的功能,包括体现对象之间的各种关系,以及对对象的属性或相关信息进行全面的描述。对对象模型的刻画,主要通过XML或OWL(Web Ontology Language,网络本体语言)等语义描述语言来实现。在存储和管理方面,普遍使用NoSQL方案,如用MongoDB管理传感器数据,用CouchDB管理事件的持久化存储等。

(4)图数据库。对象模式下的数据组织已经包含了对实体间关系进行刻画的功能。更进一步,相当部分的应用以判定物体之间的关系为主要诉求。比如,在互联网领域中,AS或Router级的拓扑分析是重要的研究方向,而网页之间也可以通过标签的共享来刻画相关性[4]。在全联网场景中,典型需求包括物品是否在特定货柜中、多个传感器是否具有地理亲缘性等。比如,为支撑物流运输过程中对物品、包裹、货架之间关系的查询和计算需求,可以基于图模型来管理RFID数据[5]。为了高效响应此类需求,需要进一步优化数据组织和持久化方案,最直接的思路就是将标识以图的形式加以存储,如OrientDB、Neo4j、Titan2等。以图数据库为基础,可以扩展全联网内关联分析的内涵,将更为多元的信息(不限于设备、车辆、货物、传感器、标签等)映射到图模型上。比如,可以将连续获取到的传感器位置及对应时间作为节点,通过建模分析各节点之间的概率分布并进行移动轨迹的预测[6]。对于全联网复杂系统中常用的事务处理,同样可通过从原始数据流到有向无环图(Directed Acyclic Graph)的映射快速识别并构建事件序列。

(5)时序数据库。与时序相关的分析是物联网、车联网和智能电网等应用的基本需求,从数据清洗、异常监测到事件发现,都离不开时间信息的标记和计算。RFID数据的基本内容除了标签和读取器的标识,还包括时间记录。在智能交通领域中,需要基于时间序列对人、车的轨迹进行预测。在与工业互联网等场景紧密相关的复杂事务的处理中,给数据贴上时间标签是基本要求之一。在智能电网中,数据汇聚点可能需要将多个传感节点的数据进行时间对齐[7]。上述应用案例主要以带时间标签的数据为支撑,而且数据更新频率较高。传统的数据库管理系统难以应对和支撑这类数据的高效存储和查询,为此必须引入专业的时序数据库。目前,各类时序数据库已成为开源领域的热点,并且已经在电网动态定价方面有一定的实践基础[8]

(二)感知数据处理

为了确保全联网标识解析结果的准确性,首先要解决的是数据质量问题。在电力和能源网络等基础设施的监测系统中,可以利用图像识别技术及时发现异常,但是所采集的图像数据受日照、光线、拍摄角度等的影响较大,需要经过处理后才能用于分析。在无线传感网络中,部署在同一区域内的多个传感器可能会将针对同一监测目标的数据同时提交给管理系统,导致需要基于多个数据进行取舍或估算。同时,由于物联网系统的分布式特征,原始数据中还普遍存在不确定和不一致的问题,如环境感知数据(温度、风速、噪音等)的异构性。为此,我们需要研究相应的数据清洗技术。

除了数据清洗技术,多标识数据的聚合也是全联网的主要需求。在物联网研究中,通常规定由专用的虚拟传感器来承担类似任务:(1)为更为丰富的解析功能提供支撑。全联网意在构建对整个物理世界的宏观数字化图景。因此,必须将从各个源头获取的数据整合在一起,支撑一致性的访问、分析和洞察。(2)面对异构源头,数据在分析之前必须集成。单一场景内的应用可能会用到不同种类或来源的数据,随着场景交融趋势的发展,决策所需的数据来源、组成会更加广泛。(3)在多个数据流之间建立关联。数据的集成并不仅仅意味着规模的压缩或一致性整合,在特定场景中,建立多份数据之间的关系,也属于一种逻辑上的“集成”。比如,多份传感器数据之间的集成能够支撑更为强大的事件和异常发现功能[9]。(4)标识与其相关属性信息的集成,可以为数据的处理和分析提供便利。

(三)场景语义分析

全联网内节点种类的增加导致标识数据的表达形式无法统一。为此,需要建立物联节点信息的统一语义模型,在降低数据利用难度的同时,全面系统地描述人、机、物及相关信息,提升设备、系统及平台之间的互操作性,规范应用开发步骤,提升决策效率,促进场景融合。同时,物联网标识系统的智能化在很大程度上可以归结到具体情景中的模式挖掘,以及其所支撑的查询、搜索、分析和决策等功能,而语义化就是实现情景或环境描述的系统化方法。在物流领域中,需要对供应链中对象的标识、事件的发生时间和位置、相关行为(如打包、装卸和入库等)等场景内的要素进行全面刻画。在智慧建筑中,需要建立多类标识之间的一致性语义模型,实现人、设备、房间等要素的相互关联,进而从根本上助力自动化和智能化的实现。

对标识及信息的语义化,主要包括建模、推理和分析三个环节:(1)通过情景建模对情景数据进行不同维度的组织和整合,并建立相应的解析规则,实现原始数据向高层语义的转换。常用的建模技术包括RDF和OWL等,而底层支撑方面的探索包括基于RDF数据的分布式存储[10]和高效查询[11]等。(2)通过情景推理,根据语义模型所提取的信息,按规则做出响应。比如,在智能家居环境中,如果温度高于上限,则关掉空调,如果温度低于下限,则开启空调。推理通常是利用SPARQL语言的查询来实现的。(3)最终,站在更高的决策支撑层面,基于经过语义化的数据,开展时序、空间轨迹、节点间关系等各个方面的分析。

对于与全联网标识解析相关的语义计算研究,首先要在语义层面加强研究。要避免出现重复的或有歧义的表达,确保语义的一致性。要加强描述、计量和数据表达的标准化,确保语义的简明理解。其次,全联网涵盖场景众多,应用层出不穷,针对贯穿标识信息全生命周期的语义规则,需要加强可扩展性方面的研究。在以语义为基础的分析挖掘方面,应进一步推动机器学习和深度学习等人工智能新兴技术在语义计算领域中的应用。最后,针对情景建模和计算涉及高维数据的情况,加强多变量和高维分析技术的研究。

(四)物联事件感知

虽然物联网对物理世界感知和监测到的原始数据可能是在进行环境监测时收集到的简单数据,但支撑分析决策和上层应用的,在本质上是物理世界中发生的事件(event)。事件可以是简单而基础的。比如,在监测病患体征时,根据体温阈值设置规则,可以及时触发救助措施,类似的应用可通过语义计算来构建。但是,现实世界中的异常或者事件往往并不能用简单的条件来定义,如根据楼宇内人群和环境两方面的信息来判定是否存在隐患等。因此,从事件层面准确解释所采集的原始数据,提升决策水平,是物联网的核心目标之一。

在更普遍的物联网场景中,相应决策的做出所依赖的条件比较复杂,需要有特定的技术作为支撑,即复杂事务处理(Complex Event Processing)。复杂事务处理真正成为一个单独的研究或技术领域是在2000年左右。在全联网语境下,复杂事务处理在本质上是对高速流入的数据进行计算和分析,快速而准确地识别事件序列,支撑节点管理和异常发现等应用。目前,复杂事务处理已被普遍运用于智慧医疗、工业互联网、智能电网等多个领域中,成为全联网标识解析的重要技术组成部分。

复杂事务处理在全联网中的主要研究方向包括:

(1)流计算技术的运用。由于复杂事务处理需要从事件角度识别并辅助决策场景,而绝大多数场景都源于高实时性的需求,如发现金融市场异常、电力设施故障、病患指标异常等。因此,复杂事务处理从计算技术的角度看,属于流计算范畴,而如何对异构、分布式的流数据进行高效的查询和计算,是复杂事务处理支撑全联网应用的最基本的研究内容。

(2)对不确定性的应对。以智能交通管理为例,复杂事务处理需要将来自GPS、加速器、摄像头等设备的底层事件(Low-level Events),转化为乘客安全或交通阻塞等高层事件(High-level Events),如将“突然加速或转向”这类原始事件映射到“非安全驾驶”等更具语义和可理解性的高层事件上。目前,针对底层事件的信息不够准确、高层事件的定义不够完备等不确定性问题,仍需进一步加强研究。

(3)与语义计算的结合。如果结合语义信息,复杂事务处理能够进一步拓宽识别的依据范畴(如时空关系、隶属关系等),从而在相当程度上解决上面提到的信息不确定性问题。同时,结合语义信息,复杂事务处理还可以及时根据业务需求进行调整,带来了更高的灵活性。已有的研究包括结合Web语义实现事件及其相互关系的提取[12],以及对RDF格式数据的查询优化[13]等。

三、安全技术

安全特性是全联网系统的基本需求,贯穿于全联网运转的各个层面。以标识为代表的节点,以及节点之间的通信过程,是安全防护的主要目标,而标识本身与密钥的生成有着紧密的关系。同时,与安全机制密切相关的,是对消息类型的识别:根据场景特性的不同,为不同类型的消息构建标识,建立相应的流量识别机制,是施加相关安全措施的基础。因此,以安全需求为主线,围绕主要挑战、关键环节以及技术方案等进行分析,能够对全联网架构各个环节进行全面的梳理,进而对全联网系统的其他需求形成更深入的理解。

目前,与全联网标识相关的安全诉求主要着眼于如何确保只有获得授权者的许可才能访问相关数据。比如,家庭或企业的用电数据只能被电力生产者和电网运营者获取和使用,而且要在访问粒度上进行细化设计,确保隐私安全。从技术层面看,主要集中在数据脱敏、数据防篡改、数据加密、认证授权、防网络攻击等方面。

(1)数据脱敏。对涉及商业机密和个人隐私的系统来说,数据脱敏是重要的安全防护手段。比如,电力的需求响应系统、智能家居的云平台、车联网中的轨迹数据等,都是脱敏技术重要的运用场景。目前,针对隐私防护,基本的方法是运用匿名、加密和数据泛化等技术,实现数据的定制处理,在不影响分析挖掘效率和精度的同时,防止敏感信息外泄。在智能电网和工业制造等场景中,对匿名和数据泛化等技术有着更为深入和细致的研究,如基于匿名机制对单个传感节点数据的保护,防止出于恶意的识别和定位。

(2)数据防篡改。针对工业/能源等控制系统中的数据完整性问题,通常需要结合相应的应用场景来探索技术方案。比如,很多场景中的监测结果依赖于同一时间窗口内的、从多个数据源传回的数据,这些数据之间具有关联性,因此对普通的篡改或伪造行为(很可能只是影响了部分数据)的识别难度相对较低。但是,如果攻击者能够对数据进行全局性(时间和空间)的伪造,则仍需要更深入的研究来加以应对。

(3)数据加密。常见的加密方法可分为两类,即对称加密和非对称加密。从安全性及效率角度看,对称加密与非对称加密各有利弊。非对称加密具有较高的安全性,但是会带来较高的计算和通信冗余,影响传感节点或网络边缘侧的运转。而对称加密虽然能够确保计算效率,但是多个节点共用一个密钥的机制无疑降低了安全性。因此,应根据不同场景的需求,权衡安全、效率以及其他指标,选择适用的加密方法。与加密紧密相关的一个技术环节是密钥管理,全联网场景对密钥管理的技术探索主要体现在实时性和安全性上,包括密钥安全(频繁变换密钥所导致的更多的密钥生成和交换环节,其实也暴露了更多的风险点)、可扩展性(在广域分布、规模庞大的传感网络内,密钥管理机制要确保不会成为瓶颈)、高效率(边缘侧进行加密、解密的效率,密钥生成、发布和更新的冗余优化)。

(4)认证授权。认证授权的本质是基于消息发送者和接收者对密钥的共识,对发送者的身份进行验证,或确认接收者所收到的数据未被修改。与互联网不同,全联网场景对认证授权环节有着差异化的需求。其中,最显著的是设计灵活和细粒度的权限控制。与互联网扁平化的结构不同,物联网由众多系统互联形成,在垂直和横向领域中都有着差异化的资源访问控制需求,需要结合节点的身份(identity)、属性(attribute)、角色(role)及所处时空等因素,实施差异化的认证授权,或者实施上下文相关(context-based)的认证。

(5)防网络攻击。防止DDoS类的网络攻击是物联网系统的研究重点。以能源工业为例,为了保护SCADA系统内的通信链路,美国天然气协会(AGA)制定了AGA-12系列标准。防网络攻击的常规思路是基于过滤(含防火墙)的机制,通过对消息包源地址的验证,及时发现可疑流量并阻断其传播。但是,当前的主流防火墙主要以互联网协议为基础,因此在物联网场景内,需要对物联网底层协议(如工业控制领域常用的底层系统协议DNP)进行改造和优化。同时,在全联网内,对于网络攻击的防御,特别是对如何将攻击影响降级的探索,即在无法完全避免攻击的情况下,研究如何逐步控制并降低对系统的负面影响。

未来全联网标识安全的研究主要面临的挑战集中在以下几个方面:(1)效率和安全之间的平衡。在节点层面,大规模部署的物联传感设备能力有限,如何以可接受的效率执行安全算法是一大挑战,相关探索包括英特尔可信执行技术(Trusted Execution Technology)等,将安全功能集成到处理器和芯片组等硬件中,或者根据信息生命周期,对密钥长度进行定制,尽可能降低效率损耗。在通信层面,针对互联网OSI体系的链路层运用硬件加速提升效率、减少冗余。在系统级的安全和效率兼顾方面,典型的成果是IEC 62351标准推荐的公钥加密多播(multicast)认证机制。(2)兼容性支持。除了互联网的互通,各场景间越来越多的直接交汇导致“公共”或“交汇”区域内技术的多样性,我们必须提供足够的能力以同时运行多种技术栈,并提供相应的适配机制。同时,随着互联网与物联网的融合,各类常见的互联网协议逐渐在物联网场景中得到运用,需要对常见的HTTP、DNS、SNMP等协议进行定制。(3)可靠性支持。由于大量物联网系统部署在条件恶劣且人力难以覆盖的环境中,环境因素成为影响系统安全的重要因素。因此,必须有相应的冗余机制,如对特定目标的感知和监测可通过部署多个传感器来共同完成。(4)新技术应用。云计算等新兴技术的普及给全联网带来了新的安全隐患,必须设计自动化、高效率的监控系统,全面覆盖存储、通信和计算环节,对实时数据流展开分析,及时发现异常。

四、新兴技术

在互联网领域中,传统的标识解析系统由于构建较早,相对缺乏新兴的技术元素。但是,在物联网飞速发展的背景下,无论是云侧还是端侧,新生的系统不断涌现,众多新兴技术得到运用。另外,全联网标识系统高效、智能、安全的要求也使得各类新技术的引入成为必然,如利用人工智能和边缘计算提高端侧的智能化水平,或利用流处理和云计算构建高效、安全的大规模解析系统。

(一)流处理

所谓数据流,即持续流入的数据对象序列:序列数目无上限,且到达的顺序不可预知。数据流特征体现最突出的场景包括网络监控、股票市场、传感网络等。为了获取实时的状态感知和安全监测,在全联网标识解析的过程中,需要以高可扩展性的方案处理来自海量源头的异构实时数据,即以流计算为基础展开。流计算在智能电网等场景中已得到广泛应用,在全联网中的主要应用场景包括:(1)标识信息采集。在降低传感器能耗的同时提高数据采集效率,对实时数据流进行整合和优化。对分布式的流数据来说,由于数据到达的时间和顺序不同,需要对异常值的识别和处理进行优化,如对RFID数据流的采样和清洗系统[14]。在节点层面,对标识信息进行一定的语义转换。(2)标识信息统计。聚合查询(aggregate query),对传感读数等信息进行总体计数和求均值等操作。联合查询(join query),识别多源头数据中可能存在的缺失或异常问题。Top-K查询,处理分布式数据流的常见问题[15],为达成降低通信开销之类的目的,通过流计算进行排序、筛选或过滤等。连续查询,对特定目标进行持续监测,如对环境指标的追溯。(3)标识信息分析。在电网监测、生产控制等现代物联网应用中,对数据流实现分类、聚类、频繁项集挖掘(frequent itemset mining)[16]等,或者对数据流中的事件进行快速识别。

在流计算的普适性架构支撑方面,2010年左右Hadoop开始被用于网络流量的快速分析,随后Storm等逐渐成为主要选项。目前,用于实时处理的基础技术方案包括S4[17]、Splunk、Storm等。但是,面对物联网涌现的海量实时数据,我们在计算和存储效率、可扩展性、高可用性等方面仍面临较大挑战。同时,需要进一步探索时序计算、语义计算和事务处理等技术对流数据的优化,如基于SPARQL语言的扩展实现流数据的语义化和互联。

(二)人工智能

全联网的主要诉求之一是在万物数字化和互联互通的基础上,在整个场景内实现“智能化”。以人工智能为基础的分析挖掘已在全联网各领域内得到广泛应用。根据Gartner预测,截至2022年,超过80%的物联网项目将引入人工智能技术。从标识系统的角度看,智能化的含义主要体现在以智能化的技术为支撑,响应源自应用层的、非确定的解析或请求,满足不同场景下的应用需求。以机器学习为例,典型的实践探索包括以贝叶斯网络应用支撑智能家居应用[18],基于隐马尔可夫模型(Hidden Markov Model,HMM)实现物联网情景计算系统[19],运用支持向量机对物联网数据流进行自动分类[20]等。同时,近年来深度学习模型逐渐被用于全联网各领域的数据分析中。深度学习模型可以方便地实现原始数据的特征抽取和语义化,尤其契合全联网标识信息大规模、非结构化、高复杂度的特点,典型探索如利用深度神经网络进行传感数据分类[21]、基于强化学习支持无线传感网络的情景感知[22]等。此外,随着场景融合,节点或局部系统的行为能够对全联网其他部分造成实时影响,标识及相关信息日益呈现明显的多变量(multi variation)或高维(high dimension)特征。如何更好地洞察高维参数之间的内在联系、适配标识间强关联和高频交互的场景,也是人工智能技术未来的重要应用方向之一。

(三)云计算

从信息系统构建的角度看,当前物联网应用的痛点包括两个方面:(1)节点规模、数据规模所导致的系统负担越来越重。而且,数据生成的高动态性(如在异常状态下,可能会导致高频的数据采集和交付)暗含着高度的可扩展性需求。但是,节点端及传统平台的能力有限,而且动态扩容难度较大(如野外系统),很难在成本可接受的情况下支撑上述需求。(2)全联网内各子系统的技术组成繁杂、散碎,在整体上呈碎片化形态,包括网络、协议、软件、系统和应用等。比如,在工业制造和能源供给等领域中,出于效率的考虑,核心的数据采集和决策控制系统往往采用本地化部署的策略。但是,随着网络规模的不断扩展,这种方式将导致越来越多的碎片化系统出现,对升级维护以及更大时空范围内的分析(更“大”的决策和研究)形成障碍。

云平台基本上可解决上述痛点,可以通过标识及相关信息的汇聚,构建全联网空间的宏观图景,并实现信息技术服务的一体化和标准化供给。(1)以虚拟化和分布式技术为基础的、高可扩展性的计算和存储平台,可以实时适配系统规模的扩大,为海量标识、属性和状态信息的管理提供便利。比如,工业能源领域内核心的实时决策系统如果要逐一扩容,成本会非常高。(2)提升分析决策的深度、广度和精度,为更为宏观的决策和更为复杂的研究提供支撑。在传统的物联网系统中,由于存储的原因,往往无法进行细粒度的时空关系分析。(3)基于云计算标准、开放的特性,提升全联网内部子系统之间的互操作性。云平台能够以标准化的访问接口和随时随地访问的能力,实现数据的广泛汇聚和共享(跨机构/地域),为不同系统间的交互提供便利,推动全联网内各领域的融合创新。同时,架构实现方面的标准化在客观上降低了全联网内部的异构性。

目前,云计算在标识解析方面的应用主要集中在设备注册/管理、数据上传/指令下达和分析决策等方面。其中,最核心的环节在于数据管理和分析。从标识体系的角度看,数据管理主要指对节点标识、属性和状态信息的组织和存储,而数据分析主要指对海量标识数据的分析、挖掘。Google Cloud、Amazon Web Services、Microsoft Azure和IBM Watson等云计算平台,都提供了对传感节点的管理和分析功能,亚马逊和微软还通过与主流车辆制造商的合作,探索基于云计算的车联网数据管理方案。在分析挖掘方面,随着大数据和人工智能近年来的发展,物联网云平台上的分析挖掘功能逐渐趋向于以机器学习为主,支持分类、回归和聚类等常用算法成为必要的功能。

对于以云计算支撑全联网标识解析,未来的主要研究方向集中在提升数据分析能力、加强安全管理和消除异构性等方面。关于提升数据分析能力,除了持续引入人工智能、机器学习和深度学习等最新成果,还需要加强云平台对语义、时序和事务等全联网特性分析需求的响应。在加强安全管理方面,由于云平台汇聚了产业链各环节乃至不同领域的用户,因此必须对标识信息解析进行严格的权限设定,探索灵活、可扩展的权限控制方案。在消除异构性方面,应着力提升各平台之间的互操作性,如构建共同的语义框架,推动标识信息的一致表示和组织。

(四)边缘计算

以物联云为例,数据和指令的传输距离变长,对整个系统的运转效率和反应灵敏度造成影响。因此,通过边缘计算在节点一侧实现平台功能,在部分场景或应用中具有极为广阔的前景,包括智能电网、车联网、物联网等对实时决策、高效能和安全性有较高需求的场景。相应地,与大量解析相关的查询和计算乃至存储,都需要发生在网络边缘。比如,在从端到端的决策场景中,从一个传感器直接查询另一个传感器的数据(身份、属性等),从解析发起到响应,所有过程都发生在网络末端。

边缘计算在标识解析中的应用,主要包括以下几个方面。

(1)标识信息管理:多个节点形成分布式数据库,所有的标识信息提取都发生在网络末端。TinyDB[23]的所有节点都存储自身标识和相关属性,支持select、aggregation、join和基于事件的查询,在能效方面表现优秀,尤其适合涉及野外环境的无线传感应用;SolarStore[24]能够监测能源供给和传感器存储的状况,实现已采集数据在整个传感网络中的布局优化;Antelope[25]在计算和存储资源有限的节点上,构建本地的数据库系统;Cougar系统[26]在边缘侧实现类似SQL查询的功能;Microsearch[27]针对传统搜索算法在计算能力受限的节点上无法运行的问题,以较高的空间效率(space-efficient)实现基于节点本身的Top-K查询。

(2)标识信息处理:由于环境噪声等的干扰,不可避免地会存在不确定性。为了确保物联网在时空语境下的正确解析,必须基于边缘计算为标识生成高精度的附加信息(时间和地理位置信息),并进行压缩、求和、取极值、计算均值等[28]操作。同时,为了降低整体能耗、高效支撑应用,还需要进行数据转换/集成、语义化等操作。

(3)决策支撑:全联网内的数据分析有相当一部分发生在网络的边缘侧。首先,部分决策基于本地数据即可做出,不需要全局性的数据采集和分析;其次,部分决策所依赖的数据和算法基于特定的局部系统而定制;第三,部分高实时性的节点监测类决策是基于点对点通信(P2P)实现的。因此,微电网(micro-grid)、车辆自组网、无线传感等场景需要在资源整体受限的网络边缘侧实现节点识别和信息解析功能。