Klastrovaný souborový systém - Clustered file system

Seskupený souborový systém je souborový systém , který je sdílen je současně uložen na více serverech . Existuje několik přístupů ke klastrování , z nichž většina nepoužívá klastrovaný souborový systém (pouze přímé připojené úložiště pro každý uzel). Klastrované souborové systémy mohou poskytovat funkce, jako je adresování nezávislé na umístění a redundance, které zlepšují spolehlivost nebo snižují složitost ostatních částí klastru. Paralelní souborové systémy jsou typem seskupeného souborového systému, který šíří data mezi více úložnými uzly, obvykle kvůli redundanci nebo výkonu.

Systém souborů na sdíleném disku

Systém souborů sdíleného disku využívá síť úložišť (SAN), která umožňuje více počítačům získat přímý přístup na disk na úrovni bloku . Řízení přístupu a překlad z operací na úrovni souborů, které aplikace používají k operacím na úrovni bloků používaných SAN, musí probíhat na klientském uzlu. Nejběžnější typ klastrovaného souborového systému, souborový systém na sdíleném disku-přidáním mechanismů pro řízení souběžnosti- poskytuje konzistentní a serializovatelný pohled na souborový systém, čímž se předchází poškození a nechtěné ztrátě dat, i když se ke stejným souborům pokouší přistupovat více klientů ve stejnou dobu. Systémy souborů na sdíleném disku běžně používají nějaký mechanismus oplocení , který brání poškození dat v případě selhání uzlu, protože neoplocené zařízení může způsobit poškození dat, pokud ztratí komunikaci se sesterskými uzly a pokusí se získat přístup ke stejným informacím, ke kterým přistupují ostatní uzly .

Síť podkladové úložné oblasti může používat jakýkoli z řady protokolů na úrovni bloků, včetně SCSI , iSCSI , HyperSCSI , ATA přes Ethernet (AoE), Fibre Channel , síťové blokové zařízení a InfiniBand .

K souborovému systému sdíleného disku existují různé architektonické přístupy. Někteří distribuují informace o souborech na všechny servery v klastru (plně distribuované).

Příklady

Distribuované souborové systémy

Distribuované souborové systémy nesdílejí přístup na úrovni bloku ke stejnému úložišti, ale používají síťový protokol . Běžně se jim říká síťové souborové systémy , přestože nejsou jedinými souborovými systémy, které pomocí sítě odesílají data. Distribuované systémy souborů mohou omezit přístup k systému souborů v závislosti na přístupových seznamech nebo možnostech na serverech i klientech, v závislosti na tom, jak je protokol navržen.

Rozdíl mezi distribuovaným souborovým systémem a distribuovaným úložištěm dat spočívá v tom, že distribuovaný systém souborů umožňuje přístup k souborům pomocí stejných rozhraní a sémantiky jako místní soubory - například připojení/odpojení, seznam adresářů, čtení/zápis na hranicích bajtů, nativní model oprávnění systému. Distribuovaná úložiště dat naopak vyžadují použití jiného API nebo knihovny a mají jinou sémantiku (nejčastěji ty z databáze).

Konstrukční cíle

Distribuované souborové systémy mohou usilovat o „transparentnost“ v řadě aspektů. To znamená, že mají za cíl být „neviditelní“ pro klientské programy, které „vidí“ systém, který je podobný místnímu systému souborů. V zákulisí distribuovaný systém souborů zpracovává lokalizaci souborů, přenos dat a potenciálně poskytuje další funkce uvedené níže.

  • Transparentnost přístupu : klienti nevědí, že jsou soubory distribuovány, a mohou k nim přistupovat stejným způsobem jako k místním souborům.
  • Průhlednost umístění : existuje konzistentní obor názvů zahrnující místní i vzdálené soubory. Název souboru neuvádí jeho umístění.
  • Průhlednost souběžnosti : všichni klienti mají stejný pohled na stav systému souborů. To znamená, že pokud jeden proces upravuje soubor, všechny ostatní procesy ve stejném systému nebo vzdálených systémech, které k souborům přistupují, uvidí změny uceleným způsobem.
  • Transparentnost selhání : klient a klientské programy by měly fungovat správně po selhání serveru.
  • Heterogenita : služba souborů by měla být poskytována na různých platformách hardwaru a operačního systému.
  • Škálovatelnost : souborový systém by měl fungovat dobře v malých prostředích (1 stroj, tucet počítačů) a také ladně škálovat na větší (stovky až desítky tisíc systémů).
  • Transparentnost replikace : Klienti by si neměli být vědomi replikace souborů prováděné na více serverech za účelem podpory škálovatelnosti.
  • Transparentnost migrace : soubory by se měly pohybovat mezi různými servery bez vědomí klienta.

Dějiny

Nekompatibilní Time Sharing System používá virtuální zařízení pro transparentní inter-stroj přístup k systému souborů v roce 1960. V 70. letech bylo vyvinuto více souborových serverů. V roce 1976 společnost Digital Equipment Corporation vytvořila File Access Listener (FAL), implementaci protokolu pro přístup k datům jako součást DECnet Phase II, který se stal prvním široce používaným síťovým souborovým systémem. V roce 1985 Sun Microsystems vytvořil souborový systém s názvem „ Network File System “ (NFS), který se stal prvním široce používaným síťovým souborovým systémem založeným na internetovém protokolu . Jiné pozoruhodné síťové systémy souborů jsou Andrew File System (AFS), Apple Filing Protocol (AFP), NetWare Core Protocol (NCP) a Server Message Block (SMB), který je také známý jako Common Internet File System (CIFS).

V roce 1986 oznámila společnost IBM podporu klientů a serverů pro architekturu DDM (Distributed Data Management Architecture) pro sálové počítače System/36 , System/38 a IBM se systémem CICS . Následovala podpora pro IBM Personal Computer , AS/400 , mainframe počítače IBM pod operačními systémy MVS a VSE a FlexOS . DDM se také stalo základem pro distribuovanou relační databázovou architekturu , známou také jako DRDA.

Existuje mnoho síťových protokolů peer-to-peer pro distribuované souborové systémy s otevřeným zdrojovým kódem pro cloudové nebo klastrované souborové systémy s uzavřeným zdrojovým kódem, např .: 9P , AFS , Coda , CIFS/SMB , DCE/DFS , WekaFS , Luster , PanFS , Google Souborový systém , Mnet , Chord Project .

Příklady

Úložiště připojené k síti

Síťově připojené úložiště (NAS) poskytuje úložiště i souborový systém, jako systém souborů na sdíleném disku nad sítí úložných oblastí (SAN). NAS obvykle používá protokoly založené na souborech (na rozdíl od blokových protokolů, které by používala SAN), jako je NFS (populární v systémech UNIX ), SMB/CIFS ( Server Message Block/Common Internet File System ) (používá se u systémů MS Windows) , AFP (používá se s počítači Apple Macintosh ) nebo NCP (používá se s OES a Novell NetWare ).

Aspekty návrhu

Vyhněte se jedinému bodu selhání

Selhání hardwaru disku nebo daného uzlu úložiště v klastru může vytvořit jediný bod selhání, který může mít za následek ztrátu dat nebo nedostupnost. Odolnost proti chybám a vysokou dostupnost lze zajistit replikací dat toho či onoho druhu, takže data zůstanou neporušená a dostupná i přes selhání jakéhokoli jednotlivého zařízení. Příklady najdete v seznamech distribuovaných souborových systémů odolných proti chybám a distribuovaných paralelních souborových systémech odolných proti chybám .

Výkon

Běžným měřením výkonu klastrovaného souborového systému je doba potřebná k uspokojení požadavků na služby. V konvenčních systémech se tato doba skládá z doby přístupu na disk a malého množství času zpracování procesoru . Ale v klastrovaném souborovém systému má vzdálený přístup další režii díky distribuované struktuře. To zahrnuje čas na doručení požadavku na server, čas na doručení odpovědi klientovi a pro každý směr režii CPU při běhu softwaru komunikačního protokolu .

Konkurence

Řízení souběžnosti se stává problémem, když ke stejnému souboru nebo bloku přistupuje více než jedna osoba nebo klient a chtějí jej aktualizovat. Aktualizace souboru od jednoho klienta by proto neměly narušovat přístup a aktualizace od jiných klientů. Tento problém je u souborových systémů složitější kvůli souběžným překrývajícím se zápisům, kdy různí zapisovatelé zapisují do překrývajících se oblastí souboru souběžně. Tento problém je obvykle řešen souběžným řízením nebo zamykáním, které může být integrováno do systému souborů nebo poskytováno doplňkovým protokolem.

Dějiny

Sálové počítače IBM v 70. letech mohly sdílet fyzické disky a souborové systémy, pokud by každý stroj měl vlastní kanálové připojení k řídicím jednotkám jednotek. V roce 1980, Digital Equipment Corporation ‚s topy-20 a OpenVMS klastry (VAX / ALPHA / IA64) zahrnuty sdílené systémy souborů disku.

Viz také

Reference

Další čtení