2.1 Google文件系统_云计算（典藏版）-QQ阅读男生玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.1 Google文件系统

Google文件系统（Google File System，GFS）是一个大型的分布式文件系统。它为Google云计算提供海量存储，并且与Chubby、MapReduce及BigTable等技术结合十分紧密，处于所有核心技术的底层。GFS不是一个开源的系统，我们仅能从Google公布的技术文档来获得相关知识。The Google File System是Google公布的关于GFS最为详尽的技术文档，它从GFS产生的背景、特点、系统框架、性能测试等方面进行了详细的阐述。

当前主流分布式文件系统有Red Hat的GFS（Global File System）、IBM的GPFS、Sun的Lustre等。这些系统通常用于高性能计算或大型数据中心，对硬件设施条件要求较高。以Lustre文件系统为例，它只对元数据管理器MDS提供容错解决方案，而对于具体的数据存储节点OST来说，其依赖自身来解决容错的问题。例如，Lustre推荐OST采用RAID技术或SAN存储区域网来容错，但由于Lustre自身不能提供数据存储的容错，一旦OST发生故障就无法恢复，这对OST的稳定性就提出了相当高的要求，从而大大增加了存储成本，而且成本会随着规模的扩大线性增长。

Google GFS的新颖之处在于它采用廉价的商用机器构建分布式文件系统，同时将GFS的设计与Google应用的特点紧密结合，简化实现，使之可行，最终达到创意新颖、有用、可行的完美组合。GFS将容错的任务交给文件系统完成，利用软件的方法解决系统可靠性问题，使存储的成本成倍下降。GFS将服务器故障视为正常现象，并采用多种方法，从多个角度使用不同的容错措施来确保数据存储的安全，保证提供不间断的数据存储服务。

2.1.1 系统架构

GFS的系统架构如图2-1所示。GFS将整个系统的节点分为三类角色：Client（客户端）、Master（主服务器）和Chunk Server（数据块服务器）。Client是GFS提供给应用程序的访问接口，它是一组专用接口，不遵守POSIX规范，以库文件的形式提供。应用程序直接调用这些库文件，并与该库链接在一起。Master是GFS的管理节点，在逻辑上只有一个，它保存系统的元数据，负责整个文件系统的管理，是GFS中的“大脑”。Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server上，Chunk Server的个数可以有多个，它的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块，默认是64MB，每一块称为一个Chunk（数据块），每个Chunk都有一个对应的索引号（Index）。

图2-1 GFS的系统架构

Client在访问GFS时，首先访问Master节点，获取与之进行交互的Chunk Server信息，然后直接访问这些Chunk Server，完成数据存取工作。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流，没有数据流，极大地降低了Master的负载。Client与Chunk Server之间直接传输数据流，同时由于文件被分成多个Chunk进行分布式存储，Client可以同时访问多个Chunk Server，从而使整个系统的I/O高度并行，系统整体性能得到提高。

针对多种应用的特点，Google从多个方面简化设计的GFS，在一定规模下达到了成本、可靠性和性能的最佳平衡。具体来说，它具有以下几个特点。

1.采用中心服务器模式

GFS采用中心服务器模式管理整个文件系统，简化了设计，降低了实现难度。Master管理分布式文件系统中的所有元数据。文件被划分为Chunk进行存储，对于Master来说，每个Chunk Server只是一个存储空间。Client发起的所有操作都需要先通过Master才能执行，这样做有许多好处。增加新的Chunk Server是一件十分容易的事情，Chunk Server只需要注册到Master上即可，Chunk Server之间无任何关系。如果采用完全对等的、无中心的模式，那么如何将Chunk Server的更新信息通知到每个Chunk Server是设计的一个难点，而这也将在一定程度上影响系统的扩展性。Master维护了一个统一的命名空间，同时掌握整个系统内Chunk Server的情况，据此可以实现整个系统范围内数据存储的负载均衡。由于只有一个中心服务器，元数据的一致性问题自然解决。当然，中心服务器模式也带来一些固有的缺点，比如极易成为整个系统的瓶颈等。GFS采用多种机制来避免Master成为系统性能和可靠性上的瓶颈，如尽量控制元数据的规模、对Master进行远程备份、控制信息和数据分流等。

2.不缓存数据

缓存（Cache）机制是提升文件系统性能的一个重要手段，通用文件系统为了提高性能，一般需要实现复杂的缓存机制。GFS根据应用的特点，没有实现缓存，这是从必要性和可行性两方面考虑的。从必要性上讲，Client大部分是流式顺序读写，并不存在大量的重复读写，缓存这部分数据对提高系统整体性能的作用不大；对于Chunk Server，由于GFS的数据在Chunk Server上以文件的形式存储，如果对某数据块读取频繁，本地的文件系统自然会将其缓存。从可行性上讲，如何维护缓存与实际数据之间的一致性是一个极其复杂的问题，在GFS中，各Chunk Server的稳定性都无法确保，加之网络等多种不确定因素，一致性问题尤为复杂。此外，由于读取的数据量巨大，以当前的内存容量无法完全缓存。对于存储在Master中的元数据，GFS采取了缓存策略。因为一方面，Master需要频繁操作元数据，把元数据直接保存在内存中，提高了操作的效率；另一方面，采用相应的压缩机制减少了元数据占用的空间，提高了内存的利用率。

3.在用户态下实现

文件系统是操作系统的重要组成部分，通常位于操作系统的底层（内核态）。在内核态实现文件系统，可以更好地和操作系统本身结合，向上提供兼容的POSIX接口。然而，GFS却选择在用户态下实现，主要基于以下考虑。

（1）在用户态下实现，直接利用操作系统提供的POSIX接口就可以存取数据，无须了解操作系统的内部实现机制和接口，降低了实现的难度，提高了通用性。

（2）POSIX接口提供的功能更为丰富，在实现过程中可以利用更多的特性，而不像内核编程那样受限。

（3）用户态下有多种调试工具，而在内核态中调试相对比较困难。

（4）用户态下，Master和Chunk Server都以进程的方式运行，单个进程不会影响整个操作系统，从而可以对其进行充分优化。在内核态下，如果不能很好地掌握其特性，不但不会提高效率，还会影响整个系统运行的稳定性。

（5）用户态下，GFS和操作系统运行在不同的空间，两者耦合性减弱，方便GFS自身和内核的单独升级。

4.只提供专用接口

通常的分布式文件系统一般都会提供一组与POSIX兼容的接口，使应用程序可以通过操作系统的统一接口透明地访问文件系统，而不需要重新编译程序。GFS在设计之初，是完全面向Google应用的，采用了专用的文件系统访问接口。接口以库文件的形式提供，应用程序与库文件一起编译，Google应用程序在代码中通过调用这些库文件的API，完成对GFS的访问。采用专用接口有以下好处。

（1）降低了实现的难度。通常与POSIX兼容的接口需要在操作系统内核一级实现，而GFS是在应用层实现的。

（2）采用专用接口可以根据应用的特点对应用提供一些特殊支持，如支持多个文件并发追加的接口等。

（3）专用接口直接和Client、Master、Chunk Server交互，减少了操作系统之间上下文的切换，降低了复杂度，提高了效率。

2.1.2 容错机制

1.Master容错

具体来说，Master上保存了GFS的三种元数据。

（1）命名空间（Namespace），也就是整个文件系统的目录结构。

（2）Chunk与文件名的映射表。

（3）Chunk副本的位置信息，每个Chunk默认有三个副本。

首先就单个Master来说，对于前两种元数据，GFS通过操作日志来提供容错功能；第三种元数据信息则直接保存在各Chunk Server上，当Master启动或Chunk Server向Master注册时自动生成。因此，当Master发生故障时，在磁盘数据保存完好的情况下，可以迅速恢复以上元数据。为了避免Master彻底死机的情况，GFS还提供了Master远程的实时备份，这样在当前的GFS Master出现故障无法工作的时候，另一台GFS Master可以迅速接替其工作。

2.Chunk Server容错

GFS采用副本的方式实现Chunk Server的容错。每个Chunk有多个存储副本（默认为三个），分布存储在不同的Chunk Server上。副本的分布策略需要考虑多种因素，如网络的拓扑、机架的分布、磁盘的利用率等。对于每个Chunk，必须将所有的副本全部写入成功，才视为成功写入。之后，如果相关的副本出现丢失或不可恢复等情况，Master自动将该副本复制到其他Chunk Server上，从而确保副本保持一定的个数。虽然一份数据需要存储三份，好像磁盘空间的利用率不高，但综合比较多种因素，加之磁盘的成本不断下降，采用副本无疑是最简单、最可靠、最有效、实现难度最小的一种方法。

GFS中的每个文件被划分成多个Chunk，Chunk的默认大小是64MB，这是因为Google应用中处理的文件都比较大，以64MB为单位进行划分，是一个较为合理的选择。Chunk Server存储的是Chunk的副本，副本以文件的形式进行存储。每个Chunk以Block为单位进行划分，其大小为64KB，每个Block对应一个32bit的校验和。当读取一个Chunk副本时，Chunk Server会将读取的数据和校验和进行比较，如果不匹配，就会返回错误，使Client选择其他Chunk Server上的副本。

2.1.3 系统管理技术

GFS是一个分布式文件系统，包含从硬件到软件的整套解决方案。除了上面提到的GFS的一些关键技术，还有相应的系统管理技术来支持整个GFS的应用，这些技术可能不一定为GFS独有。

1.大规模集群安装技术

安装GFS的集群中通常有非常多的节点，在The Google File System中，最大的集群超过1000个节点，而现在的Google数据中心动辄有万台以上的机器在运行。因此，迅速地安装、部署一个GFS，以及迅速地进行节点的系统升级等，都需要相应的技术支撑。

2.故障检测技术

GFS是构建在不可靠的廉价计算机之上的文件系统，由于节点数目众多，故障发生十分频繁，因此，要在最短的时间内发现并确定发生故障的Chunk Server，需要相关的集群监控技术。

3.节点动态加入技术

当有新的Chunk Server加入时，如果需要事先安装好系统，那么系统扩展将是一件十分烦琐的事情。如果能够做到只需要将裸机加入，就会自动获取系统并安装运行，那么将会大大减少维护GFS的工作量。

4.节能技术

有关数据表明，服务器的能耗成本大于当初的购买成本，因此Google采用了多种机制来降低服务器的能耗，如对服务器主板进行修改，采用蓄电池代替昂贵的UPS（不间断电源系统），提高能量的利用率。Rich Miller在一篇关于数据中心的博客文章中表示，这个设计让Google的UPS利用率达到99.9%，而一般数据中心只能达到92%～95%。