1、物联网数据存储及管理,物联网数据存储及管理分析,目录,物联网数据存储现状分析海量元数据查询需求分析物联网元数据管理系统设计面向数据更新的结构设计和分析 面向预计算的元数据组织结构数据立方体,物联网数据存储现状分析,大规模存储系统的应用越来越广泛,存储容量也从以前的TB(Terabyte)级上升到PB(Petabyte)级甚至EB(Exabyte)级。随着存储系统规模不断增大,在大规模文件系统中,文件的数量高达几十亿个,在这种海量数据中查找和管理文件变得异常困难。,物联网数据存储现状分析,这与互联网环境形成了鲜明的对比:由于搜索引擎技术的发展,在互联网的环境下查找信息很方便,而用户在存储系统中找
2、到想要的信息比在互联网上查找信息更加困难,物联网数据存储现状分析,如今存储系统中的数据量的快速增长使得查找和管理文件异常的困难,为了能够合理的管理这些不断增多的海量数据,不管是用户还是管理者都需要能够高效的获得文件的属性。,物联网数据存储现状分析,元数据查询包含索引文件元数据,例如索引节点和一些扩展属性,能够帮助回答很多复杂查询问题。利用文件属性,元数据查询允许点查询、范围查询、top-k查询和聚集查询,这些使得复杂的、特定的查询变得简单。,物联网数据存储现状分析,能够帮助管理者回答“哪些文件在过去的一周里增长很快?”或者是“哪些应用程序和用户的文件占用大多数存储空间?”元数据查询也能够帮助用
3、户找到10个最近访问的报告或最大的虚拟机镜像。准确地回答这些问题能够极大的提高用户和管理者管理大规模存储系统中的文件。,物联网数据存储现状分析,现存的系统一般都采用通用型的数据库管理系统(Database Management System,DBMS)来索引元数据,由于DBMS不能很好的适用于多维元数据的查询,查询效率非常低,物联网数据存储现状分析,这就限制了在大规模存储系统中元数据查询的性能和可扩展性,所以在大规模存储系统中要想获得快速、高效的元数据查询是很难实现的。,物联网数据存储现状分析,从而使得一些复杂查询非常耗时、效率低下,不能有效地支持用户或管理者查找到想要的文件,或得到想要的数据
4、。例如,“我最近修改过的PPT在哪?”或者“我的目录下这个文件有几个副本?,物联网数据存储现状分析,为了解决上述问题,必须提供一种高效的多维元数据查询系统,而且必须满足以下特点:第一,必须能够从存储系统中快速收集到元数据;第二,查询和更新必须快速而且可扩展;第三,必须能够快速的返回计算结果,比如用户提交一个复杂查询后并不想长时间在线等待计算结果,有时这个过程非常费时,物联网数据存储现状分析,例如“某公司想统计一个星期内用户产生的数据总量有多少?”或者“最近一星期内排前五名的热点文件是哪五个?”,用户或管理者希望系统能够预先计算好这些结果而不用在线等待,当提交查询后能够快速返回结果,物联网数据存
5、储现状分析,第四,资源需求必须很低,现存的很多元数据查询工具需要专门的CPU、内存以及硬盘,这就使得它们非常昂贵而且很难集成到存储系统中;第五,查询的接口必须灵活好用,对于现存的文件系统接口和查询语言,复杂查询非常困难,物联网数据存储现状分析,在海量的数据中,让用户获得想要的信息至关重要,对存储系统中多维元数据查询的研究将大大提高文件元数据的查询效率,实现复杂查询,缩短响应时间,这对于用户或管理者查找和管理文件,以及决策支持都有重要的意义,海量元数据查询需求分析,现在的存储系统都是采用层次化的目录结构来组织文件的,层次化结构使得文件的访问效率不高。访问某个文件必须通过层次型的目录树结构到达文件
6、的保存位置,如果不知道文件保存位置,就必须遍历整个目录或使用操作系统的搜索功能,而操作系统仅能依靠文件名来检索和查找数据。,海量元数据查询需求分析,在最近的十几年里,新数据类型(多媒体、电子邮件)不断涌现,这些数据中包含了大量的元数据信息。认识到现有文件系统的不足,学术界和工业界都做了大量的工作来研究如何利用丰富的元数据信息来提高文件的管理和搜索效率,海量元数据查询需求分析,在大规模存储系统中查找和管理文件显得更加困难,元数据查询可以很好的解决点查询、范围查询、top-k查询以及聚集查询,便于进行一些复杂、特殊的查询。能够快速地实现上述查询能极大地提高用户或管理者对大规模存储系统的管理,海量元数据查询需求分析,在大规模存储系统提供高效的元数据查询是一个很大的挑战,而现在有一些商业元数据查询系统主要致力于小型的存储系统(最多几千万个文件)并且常常很慢,耗费的资源多,海量元数据查询需求分析,在大规模存储系统中想要实现高效的元数据查询,需满足以下几点:最小的资源需求元数据查询不应该需要额外的硬件,它应该集成到存储系统中而不降低系统的性能。现在大多数的元数据查询系统都需要专门的CPU、内存以及