磁盘阵列:大容量外存储器子系统-中文百科频道

简介

由加利福尼亚大学伯克利分校（University of California-Berkeley）在1988年，发表的文章：“A Case for Red undant Arrays of Inexpensive Disks”。文章中，谈到了RAID这个词汇，而且定义了RAID的5层级。伯克利大学研究目的是反应当时CPU快速的性能。CPU效能每年大约成长30～50%，而硬磁机只能成长约7%。研究小组希望能找出一种新的技术，在短期内，立即提升效能来平衡计算机的运算能力。在当时，柏克莱研究小组的主要研究目的是效能与成本。

另外，研究小组也设计出容错（fault-tolerance），逻辑数据备份（logical data redundancy），而产生了RAID理论。研究初期，便宜（Inexpensive）的磁盘也是主要的重点，但后来发现，大量便宜磁盘组合并不能适用于现实的生产环境，后来Inexpensive被改为independent，许多独立的磁盘组。

独立磁盘冗余阵列是把相同的数据存储在多个硬盘的不同的地方（因此，冗余地）的方法。通过把数据放在多个硬盘上，输入输出操作能以平衡的方式交叠，改良性能。因为多个硬盘增加了平均故障间隔时间（MTBF），储存冗余数据也增加了容错。

原理

磁盘阵列作为独立系统在主机外直连或通过网络与主机相连。磁盘阵列有多个端口可以被不同主机或不同端口连接。一个主机连接阵列的不同端口可提升传输速度。

和当时PC用单磁盘内部集成缓存一样，在磁盘阵列内部为加快与主机交互速度，都带有一定量的缓冲存储器。主机与磁盘阵列的缓存交互，缓存与具体的磁盘交互数据。

在应用中，有部分常用的数据是需要经常读取的，磁盘阵列根据内部的算法，查找出这些经常读取的数据，存储在缓存中，加快主机读取这些数据的速度，而对于其他缓存中没有的数据，主机要读取，则由阵列从磁盘上直接读取传输给主机。对于主机写入的数据，只写在缓存中，主机可以立即完成写操作。然后由缓存再慢慢写入磁盘。

规范

RAID技术主要包含RAID0～RAID50等数个规范，它们的侧重点各不相同，常见的规范有如下几种：

RAID0：RAID0连续以位或字节为单位分割数据，并行读/写于多个磁盘上，因此具有很高的数据传输率，但它没有数据冗余，因此并不能算是真正的RAID结构。RAID0只是单纯地提高性能，并没有为数据的可靠性提供保证，而且其中的一个磁盘失效将影响到所有数据。因此，RAID0不能应用于数据安全性要求高的场合。

RAID1：它是通过磁盘数据镜像实现数据冗余，在成对的独立磁盘上产生互为备份的数据。当原始数据繁忙时，可直接从镜像拷贝中读取数据，因此RAID1可以提高读取性能。RAID1是磁盘阵列中单位成本最高的，但提供了很高的数据安全性和可用性。当一个磁盘失效时，系统可以自动切换到镜像磁盘上读写，而不需要重组失效的数据。

RAID01/10:根据组合分为RAID10和RAID01，实际是将RAID0和RAID1标准结合的产物，在连续地以位或字节为单位分割数据并且并行读/写多个磁盘的同时，为每一块磁盘作磁盘镜像进行冗余。它的优点是同时拥有RAID0的超凡速度和RAID1的数据高可靠性，但是CPU占用率同样也更高，而且磁盘的利用率比较低。

RAID1+0是先镜射再分区数据，再将所有硬盘分为两组，视为是RAID0的最低组合，然后将这两组各自视为RAID1运作。RAID0+1则是跟RAID1+0的程序相反，是先分区再将数据镜射到两组硬盘。它将所有的硬盘分为两组，变成RAID1的最低组合，而将两组硬盘各自视为RAID0运作。性能上，RAID0+1比RAID1+0有着更快的读写速度。

可靠性上，当RAID1+0有一个硬盘受损，其余三个硬盘会继续运作。RAID0+1只要有一个硬盘受损，同组RAID0的另一只硬盘亦会停止运作，只剩下两个硬盘运作，可靠性较低。因此，RAID10远较RAID01常用，零售主板绝大部份支持RAID0/1/5/10，但不支持RAID01。

RAID2：将数据条块化地分布于不同的硬盘上，条块单位为位或字节，并使用称为“加重平均纠错码（汉明码）”的编码技术来提供错误检查及恢复。

RAID3：它同RAID2非常类似，都是将数据条块化分布于不同的硬盘上，区别在于RAID3使用简单的奇偶校验，并用单块磁盘存放奇偶校验信息。如果一块磁盘失效，奇偶盘及其他数据盘可以重

新产生数据；如果奇偶盘失效则不影响数据使用。RAID3对于大量的连续数据可提供很好的传输率，但对于随机数据来说，奇偶盘会成为写操作的瓶颈。

RAID4：RAID4同样也将数据条块化并分布于不同的磁盘上，但条块单位为块或记录。RAID4使用一块磁盘作为奇偶校验盘，每次写操作都需要访问奇偶盘，这时奇偶校验盘会成为写操作的瓶颈，因此RAID4在商业环境中也很少使用。

RAID5：RAID5不单独指定的奇偶盘，而是在所有磁盘上交叉地存取数据及奇偶校验信息。在RAID5上，读/写指针可同时对阵列设备进行操作，提供了更高的数据流量。RAID5更适合于小数据块和随机读写的数据。RAID3与RAID5相比，最主要的区别在于RAID3每进行一次数据传输就需涉及到所有的阵列盘；而对于RAID5来说，大部分数据传输只对一块磁盘操作，并可进行并行操作。在RAID5中有“写损失”，即每一次写操作将产生四个实际的读/写操作，其中两次读旧的数据及奇偶信息，两次写新的数据及奇偶信息。

RAID6：与RAID5相比，RAID6增加了第二个独立的奇偶校验信息块。两个独立的奇偶系统使用不同的算法，数据的可靠性非常高，即使两块磁盘同时失效也不会影响数据的使用。但RAID6需要分配给奇偶校验信息更大的磁盘空间，相对于RAID5有更大的“写损失”，因此“写性能”非常差。较差的性能和复杂的实施方式使得RAID6很少得到实际应用。

RAID7：这是一种新的RAID标准，其自身带有智能化实时操作系统和用于存储管理的软件工具，可完全独立于主机运行，不占用主机CPU资源。RAID7可以看作是一种存储计算机（StorageComputer），它与其他RAID标准有明显区别。除了以上的各种标准（如表1），我们可以如RAID0+1那样结合多种RAID规范来构筑所需的RAID阵列，例如RAID5+3（RAID53）就是一种应用较为广泛的阵列形式。用户一般可以通过灵活配置磁盘阵列来获得更加符合其要求的磁盘存储系统。

RAID5E(RAID5Enhancement):RAID5E是在RAID5级别基础上的改进，与RAID5类似，数据的校验信息均匀分布在各硬盘上，但是，在每个硬盘上都保留了一部分未使用的空间，这部分空间没有进行条带化，最多允许两块物理硬盘出现故障。看起来，RAID5E和RAID5加一块热备盘好像差不多，其实由于RAID5E是把数据分布在所有的硬盘上，性能会比RAID5加一块热备盘要好。当一块硬盘出现故障时，有故障硬盘上的数据会被压缩到其它硬盘上未使用的空间，逻辑盘保持RAID5级别。

RAID5EE:与RAID5E相比，RAID5EE的数据分布更有效率，每个硬盘的一部分空间被用作分布的热备盘，它们是阵列的一部分，当阵列中一个物理硬盘出现故障时，数据重建的速度会更快。

RAID50：RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求三个硬盘。RAID50具备更高的容错能力，因为它允许某个组内有一个磁盘出现故障，而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上，故重建速度有很大提高。优势：更高的容错能力，具备更快数据读取速率的潜力。需要注意的是：磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。

技术应用

DAS直接访问存储设备

DAS是磁盘存储设备的术语，以前被用在大、中型机上。使用在PC机上还包括硬盘设备DAS的最新形式是RAID。“直接访问”指访问所有数据的时间是相同的。

NAS网络附加存储设备

一种特殊目的的服务器，它具有嵌入式的软件系统，可以通过网络对个种的系统平台提供文件共享服务。

SAN存储区域网

一种高速的专用网络，用于建立服务器、磁盘阵列和磁带库之间的一种直接联接。它如同扩展的存储器总线，将专用的集线器、交换器以及网关或桥路互相连接在一起。SAN常使用光纤通道。一个SAN可以是本地的或者是远程的，也可以是共享的或者是专用的。SAN打破了存储器与服务器之间的束缚，允许独立地选择最佳的存储器或者是最佳的服务器，从而提高可扩性和灵活性。

磁盘阵列

简介

原理

规范

技术应用

相关词条

相关搜索

其它词条