Záloha souboru. Zálohovací systém

ALEXEY BEREZHNOY, Správce systému. Hlavní oblasti činnosti: virtualizace a heterogenní sítě. Dalším koníčkem kromě psaní článků je popularizace svobodného softwaru

Záloha
Teorie a praxe. souhrn

K organizaci systému Rezervovat kopii nejúčinněji musíte vytvořit skutečnou strategii pro ukládání a obnovu informací

Zálohování (nebo, jak se také říká, zálohování - z anglického slova „backup“) je důležitým procesem v životě jakékoli IT struktury. Je to padák pro záchranu v případě nepředvídané katastrofy. Zálohování zároveň slouží k vytvoření jakéhosi historického archivu podnikatelské činnosti firmy za určité období jejího života. Pracovat bez zálohy je jako žít pod širým nebem – počasí se může každou chvíli zkazit a není se kam schovat. Jak ji ale správně uspořádat, abyste nepřišli o důležitá data a neutratili za ně fantastické sumy peněz?

Články na téma organizace záloh obvykle pojednávají především o technických řešeních a jen občas se věnují teorii a metodice organizace ukládání dat.

Tento článek se zaměří na pravý opak: důraz bude kladen na obecné pojmy, A technické prostředky budou uvedeny pouze jako příklady. To nám umožní abstrahovat od hardwaru a softwaru a odpovědět na dvě hlavní otázky: "Proč to děláme?", "Můžeme to udělat rychleji, levněji a spolehlivěji?"

Cíle a cíle zálohování

V procesu organizace zálohování jsou stanoveny dva hlavní úkoly: obnova infrastruktury v případě poruch (Disaster Recovery) a údržba datového archivu za účelem následného zpřístupnění informací za minulá období.

Klasickým příkladem záložní kopie pro zotavení po havárii je obraz systémového oddílu serveru vytvořený společností Acronis Pravdivý obraz.

Příkladem archivu může být měsíční stahování databází z 1C, nahrané na magnetofonové pásky a následné uložení na speciálně určené místo.

Existuje několik faktorů, které odlišují zálohu rychlé obnovy od archivu:

  • Doba uložení dat. U archivních kopií to trvá poměrně dlouho. V některých případech je upravena nejen obchodními požadavky, ale také zákonem. U kopií obnovy po havárii je to relativně malé. Obvykle vytvoří jednu nebo dvě (se zvýšenými požadavky na spolehlivost) záložní kopie pro zotavení po havárii s maximálním intervalem jednoho nebo dvou dnů, poté jsou přepsány novými. Ve zvláště kritických případech je možné aktualizovat záložní kopii častěji pro obnovu po havárii, například jednou za několik hodin.
  • Rychlý přístup k datům. Rychlost přístupu k dlouhodobému archivu není ve většině případů kritická. Potřeba „získat údaje za období“ obvykle vzniká v okamžiku odsouhlasení dokladů, vraťte se na předchozí verze atd., tedy ne v nouzovém režimu. Další věcí je obnova po havárii, kdy je nutné co nejdříve vrátit potřebná data a výkon služby. V tomto případě je extrémně důležitým ukazatelem rychlost přístupu k záloze.
  • Složení zkopírovaných informací. Záložní kopie obvykle obsahuje pouze uživatelská a obchodní data po určité období. Kromě těchto dat obsahuje kopie určená pro obnovu po havárii buď bitové kopie systému nebo kopie nastavení operačního systému a aplikačního softwaru, jakož i další informace nezbytné pro obnovu.

Někdy je možné tyto úkoly kombinovat. Například měsíční kompletní „snímky“ za celý rok souborový server plus změny provedené během týdne. True Image je pro vytvoření takové zálohy vhodným nástrojem.

Nejdůležitější je jasně pochopit, proč se rezervace provádí. Uvedu příklad: kritický SQL server selhal kvůli poruše diskového pole. Jeden vhodný máme skladem Hardware, takže řešením problému bylo pouze obnovení softwaru a dat. Vedení společnosti léčí srozumitelná otázka: "Kdy to začne fungovat?" – a je nemile překvapen, když zjistí, že zotavení bude trvat celé čtyři hodiny. Faktem je, že po celou dobu životnosti serveru byly pravidelně zálohovány pouze databáze bez zohlednění nutnosti obnovy samotného serveru se všemi nastaveními vč. software samotný DBMS. Jednoduše řečeno, naši hrdinové pouze uložili databáze a zapomněli na systém.

Dovolte mi uvést další příklad. Za celou dobu své práce vytvářel mladý specialista pomocí programu ntbackup jedinou kopii souborového serveru pod Ovládání Windows Server 2003, včetně dat a stavu systému ve sdílené složce na jiném počítači. Kvůli nedostatku místo na disku tato kopie byla neustále přepisována. Po nějaké době byl požádán, aby obnovil předchozí verzi vícestránkové zprávy, která byla při ukládání poškozena. Je jasné, že když neměl archivovanou historii s vypnutou Stínovou kopií, nemohl tento požadavek dokončit.

Na poznámku

Stínová kopie, doslova – „stínová kopie“. Poskytuje okamžitou tvorbu kopií souborový systém takovým způsobem, aby na ně další změny originálu neměly žádný vliv. Pomocí této funkce je možné vytvořit více skrytých kopií souboru během určitého časového období, stejně jako průběžné záložní kopie souborů otevřených pro zápis. Za provoz stínové kopie je zodpovědná služba Stínová kopie svazku.

Stav systému, doslova – „stav systému“. System State Copy vytváří záložní kopie důležitých součástí operační systémy Rodina Windows. To vám umožní obnovit dříve nainstalovaný systém po zničení. Při kopírování Stav systému se uloží registr, spouštěcí a další soubory důležité pro systém, včetně souborů pro obnovu Aktivní adresář, databáze certifikační služby, registrační databáze COM+Class, adresáře SYSVOL. V operačních systémech UNIX je nepřímým analogem kopírování stavu systému uložení obsahu adresářů /etc, /usr/local/etc a dalších souborů nezbytných k obnovení stavu systému.

Co z toho vyplývá: musíte použít oba typy záloh: jak pro obnovu po havárii, tak pro archivaci. V tomto případě je nutné určit seznam zkopírovaných zdrojů, dobu provádění úloh a také kde, jak a jak dlouho budou záložní kopie uloženy.

S malým množstvím dat a nepříliš složitou IT infrastrukturou můžete zkusit spojit oba tyto úkoly v jeden, například vytvořit denní plnou kopii všech diskových oddílů a databází. Stále je ale lepší rozlišovat mezi dvěma cíli a pro každý z nich vybrat ty správné prostředky. V souladu s tím se pro každý úkol používá jiný nástroj, i když existují i ​​univerzální řešení, jako je stejný balíček Acronis True Image nebo program ntbackup

Je zřejmé, že při definování cílů a záměrů zálohování, ale i řešení pro implementaci je nutné vycházet z obchodních požadavků.

Při implementaci úlohy zotavení po havárii můžete použít různé strategie.

V některých případech je nutné přímo obnovit systém na holý kov. To lze provést např. pomocí programy Acronis True Image dodávaný s modulem Universal Restore. V tomto případě lze konfiguraci serveru vrátit do provozu ve velmi krátké době. Například je docela možné obnovit oddíl s 20 GB operačním systémem ze zálohy za osm minut (za předpokladu, že záložní kopie je přístupná přes síť 1 Gb/s).

V jiné možnosti je účelnější nastavení jednoduše „vrátit“ do nově nainstalovaného systému, jako je například zkopírování konfiguračních souborů ze složky /etc a dalších v systémech typu UNIX (ve Windows to zhruba odpovídá kopírování a obnovení stavu systému). Samozřejmě s tímto přístupem bude server uveden do provozu nejdříve po instalaci operačního systému a obnovení potřebných nastavení, což zabere mnohem více dlouhodobý. Ale v každém případě rozhodnutí o tom, jaký druh obnovy po havárii by mělo být, vyplývá z potřeb podniku a omezených zdrojů.

Zásadní rozdíl mezi záložními a redundantními redundantními systémy

Tohle je další zájem Zeptejte se kterého bych se rád dotkl. Redundantní systémy redundance zařízení znamenají zavedení určité redundance do hardwaru za účelem zachování funkčnosti v případě náhlého selhání jedné z komponent. Skvělý příklad v v tomto případě– Pole RAID (Redundant Array of Independent Disks). V případě selhání jednoho disku se můžete vyhnout ztrátě informací a bezpečně je vyměnit, přičemž ušetříte data díky specifické organizaci samotného diskového pole (více o RAID in).

Slyšel jsem větu: „Máme velmi spolehlivé vybavení, všude máme pole RAID, takže nepotřebujeme zálohy.“ Ano, samozřejmě, stejné pole RAID ochrání data před zničením, pokud selže pevný disk. Ale z poškození dat počítačový virus nebo vás to nezachrání před nešikovnými akcemi uživatele. RAID vás nezachrání, pokud se souborový systém zhroutí v důsledku neoprávněného restartu.

Mimochodem

Důležitost odlišení zálohování od redundantních systémů by měla být posouzena při sestavování plánu kopírování dat, ať už jde o organizaci nebo domácí počítače.

Zeptejte se sami sebe, proč vytváříte kopie. Pokud se bavíme o zálohování, pak to znamená záchranu dat při náhodné (úmyslné) akci. Redundantní redundance umožňuje uložit data, včetně záložních kopií, v případě poruchy zařízení.

Nyní je na trhu mnoho levných zařízení, která poskytují spolehlivé zálohování pomocí RAID polí resp cloudové technologie(např. Amazon S3). Doporučuje se používat oba typy zálohování informací současně.

Andrej Vasiliev, výkonný ředitel Qnap Rusko

Uvedu jeden příklad. Existují případy, kdy se události vyvíjejí podle následujícího scénáře: když dojde k poruše disku, data se obnoví pomocí mechanismu redundance, zejména pomocí uložených kontrolních součtů. V tomto případě dojde k výraznému poklesu výkonu, server zamrzne a kontrola je téměř ztracena. Správce systému, který nevidí jiné východisko, restartuje server studeným restartem (jinými slovy klikne na „RESETOVAT“). V důsledku takového živého přetížení dochází k chybám souborového systému. Nejlepší, co lze v tomto případě očekávat, je, že program kontroly disku poběží dlouhou dobu, aby se obnovila integrita systému souborů. V nejhorším případě se budete muset rozloučit se systémem souborů a lámat si hlavu nad otázkou, kde, jak a v jakém časovém horizontu můžete obnovit data a výkon serveru.

Zálohám se nevyhnete ani v případě, že máte clusterovou architekturu. Cluster s podporou převzetí služeb při selhání v podstatě zachovává funkčnost služeb, které jsou mu svěřeny, pokud jeden ze serverů selže. V případě výše uvedených problémů, jako je virový útok nebo poškození dat v důsledku notoricky známého „lidského faktoru“, vás žádný cluster nezachrání.

Jediná věc, která může fungovat jako podřadná náhrada zálohy za Disaster Recovery, je přítomnost zrcadlového zálohovacího serveru s neustálou replikací dat z hlavního serveru na záložní (podle principu Primary  Standby). Pokud v tomto případě selže hlavní server, jeho úkoly převezme záložní a nebudete muset ani přenášet data. Ale takový systém je poměrně drahý a pracný na organizaci. Nezapomínejme na nutnost neustálé replikace.

Je zřejmé, že takové řešení je nákladově efektivní pouze v případě kritických služeb s vysokými požadavky na odolnost proti chybám a minimální dobou obnovy. Tyto programy se zpravidla používají ve velmi velkých organizacích s vysokým obratem komodit a hotovosti. A toto schéma je podřadnou náhradou zálohování, protože každopádně, pokud jsou data poškozena počítačovým virem, nešikovné uživatelské akce, popř. nesprávná práce aplikace, data a software na obou serverech mohou být ovlivněny.

A samozřejmě žádný redundantní zálohovací systém nevyřeší problém s udržováním archivu dat po určitou dobu.

Koncept „záložního okna“

Provádění zálohování značně zatěžuje zálohovaný server. To platí zejména pro diskový subsystém a síťová připojení. V některých případech, kdy má proces kopírování poměrně vysokou prioritu, to může vést k nedostupnosti určitých služeb. Kromě toho je kopírování dat v době provádění změn spojeno se značnými obtížemi. Samozřejmě existují technické prostředky, jak se v tomto případě vyhnout problémům při zachování integrity dat, ale pokud je to možné, je lepší se takovému kopírování za běhu vyhnout.

Řešení výše popsaných problémů se nabízí samo: odložit začátek procesu vytváření kopie na dobu nečinnosti, kdy bude vzájemné ovlivňování zálohovacích a ostatních běžících systémů minimální. Toto časové období se nazývá „okno zálohování“. Například pro organizaci fungující podle vzorce 8x5 (pět osmihodinových pracovních dnů v týdnu) jsou takovým „oknem“ obvykle víkendy a noční hodiny.

U systémů pracujících podle vzorce 24x7 (celý týden 24 hodin) se jako období minimální aktivity používá období, kdy nedochází k vysokému zatížení serverů.

Typy zálohování

Aby se předešlo zbytečným nákladům na materiál při organizování záloh a také pokud možno nepřekračovali zálohovací okno, bylo vyvinuto několik zálohovacích technologií, které se používají v závislosti na konkrétní situaci.

Úplná záloha (nebo Úplná záloha)

Je to hlavní a základní metoda vytváření záložních kopií, při které se celé zkopíruje vybrané pole dat. Jedná se o nejúplnější a nejspolehlivější typ zálohování, i když je nejdražší. Pokud je nutné uložit několik kopií dat, celkový uložený objem se zvýší úměrně jejich počtu. Aby se tomuto plýtvání zabránilo, používají se kompresní algoritmy a také kombinace této metody s jinými typy zálohování: přírůstkové nebo rozdílové. A samozřejmě, úplná záloha je nepostradatelná, když potřebujete připravit záložní kopii pro rychlou obnovu systému od nuly.

Přírůstková kopie

Na rozdíl od úplné zálohy se v tomto případě nezkopírují všechna data (soubory, sektory atd.), ale pouze ta, která se od poslední kopie změnila. Chcete-li určit dobu kopírování, můžete použít různé metody Například systémy s operačními systémy řady Windows používají odpovídající atribut souboru (archivační bit), který je nastaven, když byl soubor upraven a vymazán zálohovacím programem. Jiné systémy mohou použít datum změny souboru. Je jasné, že schéma využívající tento typ zálohy bude neúplné, pokud nebude čas od času provedena plná záloha. Při provádění úplné obnovy systému je třeba provést obnovu z poslední kopie vytvořené pomocí Úplné zálohy a poté střídavě „srolovat“ data z přírůstkových kopií v pořadí, v jakém byly vytvořeny.

K čemu se tento typ kopírování používá? V případě vytváření archivních kopií je nutné snížit spotřebované svazky na úložných zařízeních (například snížit počet použitých páskových médií). To také minimalizuje čas potřebný k dokončení úloh zálohování, což může být extrémně důležité v podmínkách, kdy musíte pracovat v nabitém programu 24 hodin denně, 7 dní v týdnu nebo přečerpávat velké objemy informací.

Existuje jedno upozornění na postupné kopírování, které musíte vědět. Obnova krok za krokem vrátí potřebné smazané soubory během období rekonvalescence. Dovolte mi uvést příklad. Řekněme, že plná záloha se provádí o víkendech a přírůstková ve všední dny. Uživatel vytvořil soubor v pondělí, v úterý jej změnil, ve středu přejmenoval a ve čtvrtek smazal. Takže při postupné, postupné obnově dat po týdenní období obdržíme dva soubory: se starým názvem v úterý před přejmenováním a s novým jménem vytvořeným ve středu. To se stalo, protože byly uloženy různé přírůstkové kopie různé verze stejný soubor a nakonec budou obnoveny všechny varianty. Proto při postupném obnovování dat z archivu „tak jak jsou“ má smysl vyhradit si více místa na disku, aby se vešly i smazané soubory.

Rozdílová záloha

Od přírůstkové se liší tím, že data se kopírují od posledního okamžiku úplné zálohy. Data jsou v archivu ukládána na „kumulativní bázi“. V systémech řady Windows je tohoto efektu dosaženo tím, že archivační bit není resetován během rozdílového kopírování, takže změněná data končí v archivní kopii, dokud úplná kopie neresetuje archivní bity.

Vzhledem k tomu, že každá takto vytvořená nová kopie obsahuje data z předchozí, je to výhodnější pro kompletní obnovu dat v době katastrofy. K tomu potřebujete pouze dvě kopie: úplnou a poslední z rozdílových, takže data můžete vrátit k životu mnohem rychleji, než postupně rozbalovat všechny přírůstky. Tento typ kopírování navíc neobsahuje výše uvedené funkce přírůstkového kopírování, kdy se po úplné obnově staré soubory jako pták Phoenix znovu zrodí z popela. Je tam menší zmatek.

Rozdílové kopírování je však výrazně horší než přírůstkové kopírování v úspoře požadovaného místa. Protože každá nová kopie ukládá data z předchozích, celkový objem rezervovaných dat může být srovnatelný s úplnou kopií. A samozřejmě při plánování plánu (a výpočtu, zda se proces zálohování vejde do časového okna), musíte vzít v úvahu čas potřebný k vytvoření poslední, nejtlustší, rozdílové kopie.

Záložní topologie

Podívejme se, jaká existují schémata zálohování.

Decentralizované schéma

Jádrem tohoto schématu je určitá obecnost síťový zdroj(viz obr. 1). Například sdílená složka nebo FTP server. Vyžaduje se také sada zálohovacích programů, které čas od času stahují informace ze serverů a pracovních stanic a dalších síťových objektů (např. konfigurační soubory ze směrovačů) do tohoto zdroje. Tyto programy jsou nainstalovány na každém serveru a fungují nezávisle na sobě. Nespornou výhodou je snadná implementace tohoto schématu a jeho nízké náklady. Jako kopírovací programy jsou vhodné standardní nástroje zabudované v operačním systému nebo softwaru, jako je DBMS. Může to být například program ntbackup pro rodinu Windows, program tar pro operační systémy typu UNIX nebo sada skriptů obsahujících vestavěné příkazy SQL serveru pro uvolnění databází do záložních souborů. Další výhodou je možnost použití různé programy a systémy, pokud mají všechny přístup k cílovému prostředku pro ukládání záložních kopií.


Nevýhodou je nemotornost tohoto schématu. Protože se programy instalují nezávisle na sobě, je třeba každý z nich nakonfigurovat samostatně. Je poměrně obtížné vzít v úvahu zvláštnosti harmonogramu a rozdělit časové intervaly, aby se zabránilo konkurenci o cílový zdroj. Sledování je také obtížné, proces kopírování z každého serveru musí být monitorován odděleně od ostatních, což může vést k vysokým mzdovým nákladům.

Proto se toto schéma používá v malých sítích, stejně jako v situacích, kdy není možné zorganizovat centralizované schéma zálohování pomocí dostupných prostředků. Více Detailní popis Toto schéma a praktické uspořádání najdete v.

Centralizované zálohování

Na rozdíl od předchozího schématu je v tomto případě použit jasný hierarchický model pracující na principu klient-server. V klasické verzi jsou na každém počítači instalovány speciální agentské programy a serverový modul softwarového balíku je instalován na centrální server. Tyto systémy mají také specializovanou konzolu pro správu backendu. Schéma ovládání je následující: z konzole vytváříme úlohy pro kopírování, obnovu, sběr systémových informací, diagnostiku atd. a server dává agentům potřebné instrukce k provádění těchto operací.

Právě na tomto principu funguje většina oblíbených zálohovacích systémů, jako je Symantec Backup Exec, CA Bright Store ARCServe Backup, Bacula a další (viz obr. 2).


Kromě různých agentů pro většinu operačních systémů existuje vývoj pro zálohování populárních databází a podnikových systémů, například pro MS SQL Server, MS Exchange, Oracle Database a tak dále.

Pro velmi malé společnosti můžete v některých případech vyzkoušet zjednodušenou verzi schématu centralizovaného zálohování bez použití agentských programů (viz obr. 3). Toto schéma lze také použít, pokud pro použitý zálohovací software není implementován speciální agent. Místo toho bude serverový modul využívat již existující služby. Například „vyhrabávání“ dat ze skrytých sdílené složky na serverech Windows nebo zkopírujte soubory přes SSH ze serverů se systémy UNIX. Toto schéma má velmi významná omezení spojená s problémy ukládání souborů otevřených pro zápis. V důsledku takového jednání otevřít soubory budou buď vynechány a nebudou zahrnuty do záložní kopie, nebo budou zkopírovány s chybami. Existují různá řešení tohoto problému, například spuštění úlohy znovu, aby se zkopírovaly pouze dříve otevřené soubory, ale žádná z nich není spolehlivá. Proto je toto schéma vhodné použít pouze v určitých situacích. Například v malých organizacích pracujících v režimu 5x8 s disciplinovanými zaměstnanci, kteří ukládají změny a zavírají soubory, než odejdou domů. Uspořádat takový zkrácený centralizovaný systém fungující výhradně v Prostředí Windows ntbackup funguje dobře. Pokud potřebujete použít podobné schéma v heterogenních prostředích nebo výhradně mezi počítači UNIX, doporučuji se poohlédnout po Backup PC (viz).

Obrázek 4. Smíšené schéma zálohování

Co je mimo místo?

V našem turbulentním, měnícím se světě mohou nastat události, které mohou způsobit nepříjemné důsledky pro IT infrastrukturu a podnikání jako celek. Například požár v budově. Nebo porucha baterie ústředního topení v serverovně. Nebo banální krádež zařízení a komponentů. Jednou z metod, jak se v takových situacích vyhnout ztrátě informací, je ukládat zálohy do umístění mimo hlavní umístění. serverové zařízení. Zároveň je nutné zajistit rychlý způsob přístupu k datům nezbytným pro obnovu. Popsaná metoda se nazývá off-site (jinými slovy ukládání kopií mimo území podniku). V zásadě se používají dva způsoby organizace tohoto procesu.

Zápis dat na vyměnitelná média a jejich fyzický přesun. V tomto případě musíte zvážit způsob, jak rychle získat média zpět v případě selhání. Uložte je například v sousední budově. Výhodou této metody je možnost bez problémů organizovat tento proces. Nevýhodou je obtížnost vracení médií a samotná nutnost přenášet informace pro skladování a také riziko poškození médií při přepravě.

Kopírování dat na jiné místo přes síťové spojení. Například pomocí VPN tunelu přes internet. Výhodou v tomto případě je, že není potřeba někam dopravovat média s informacemi, nevýhodou nutnost použít dostatečně široký kanál (ten je zpravidla velmi drahý) a chránit přenášená data (např. stejná VPN). Potíže při přenosu velkých objemů dat lze výrazně snížit použitím kompresních algoritmů nebo deduplikační technologie.

Samostatně stojí za zmínku o bezpečnostních opatřeních při organizaci ukládání dat. V první řadě je třeba dbát na to, aby se datové nosiče nacházely v zabezpečeném prostoru a aby byla přijata opatření, která zabrání neoprávněným osobám číst data. Například používat šifrovací systém, uzavírat smlouvy o mlčenlivosti a podobně. Pokud je použito vyměnitelné médium, musí být data na něm také šifrována. Použitý systém označování by útočníkovi neměl pomoci při analýze dat. Pro označení nositelů jmen je nutné použít anonymní číslování přenesené soubory. Při přenosu dat po síti je nutné (jak již bylo psáno výše) použít bezpečné metody přenos dat, například tunel VPN.

Probrali jsme hlavní body při organizování zálohy. Další díl se podívá na pokyny a poskytuje praktické příklady pro vytvoření efektivního zálohovacího systému.

  1. Popis zálohy systém Windows, včetně stavu systému – http://www.datamills.com/Tutorials/systemstate/tutorial.htm.
  2. Popis stínové kopie - http://ru.wikipedia.org/wiki/Shadow_Copy.
  3. Oficiální stránky Acronis – http://www.acronis.ru/enterprise/products.
  4. Popis ntbackup - http://en.wikipedia.org/wiki/NTBackup.
  5. Berezhnoy A. Optimalizace provozu MS SQL Server. //Správce systému, č. 1, 2008 – str. 14-22 ().
  6. Berezhnoy A. Organizujeme záložní systém pro malé a středně velké kanceláře. //Správce systému, č. 6, 2009 – s. 14-23 ().
  7. Markelov A. Linux hlídající Windows. Kontrola a instalace zálohovacího systému BackupPC. //Správce systému, č. 9, 2004 – S. 2-6 ().
  8. Popis VPN – http://ru.wikipedia.org/wiki/VPN.
  9. Deduplikace dat – http://en.wikipedia.org/wiki/Data_deduplication.

V kontaktu s

Od přírodních a člověkem způsobených katastrof, akcí vetřelců. Tyto technologie jsou aktivně využívány v IT infrastrukturách organizací různých odvětví a velikostí.

Klasifikace záloh

Podle úplnosti uložených informací

  • Plná rezervace(Plná záloha) - vytvoření zálohy všech systémové soubory, obvykle včetně stavu systému, registru a dalších informací nezbytných k úplné obnově pracovních stanic. To znamená, že se zálohují nejen soubory, ale i všechny informace nutné pro chod systému.
  • Dodatečná rezervace(Přírůstková záloha) - vytvoření zálohy ze všech souborů, které byly změněny od předchozí plné nebo přírůstkové zálohy.
  • Diferenciální rezervace(Diferenciální záloha) - vytvoření zálohy ze všech souborů, které byly změněny od předchozí plné zálohy.
  • Selektivní rezervace(Selektivní záloha) - vytvoření zálohy pouze z vybraných souborů.

Způsobem přístupu k médiím

  • Provozní záloha(Online backup) - vytvoření zálohy na trvale připojeném (přímo nebo přes síť) médiu.
  • Offline rezervace(Offline záloha) - ukládání záložní kopie na vyměnitelné médium, kazeta nebo cartridge, které je nutné před použitím nainstalovat do mechaniky.

Pravidla pro práci se zálohovacími systémy

Při používání jakékoli zálohovací technologie byste měli dodržovat některá základní pravidla, jejichž dodržování zajistí maximální bezpečnost dat v případě nepředvídaných situací.

  • Předběžné plánování. V procesu plánování musí být zohledněny všechny komponenty zálohovací infrastruktury a nesmí být ignorovány všechny aplikace, servery a trendy v kapacitě primárního úložiště.
  • Zřízení životní cyklus a kalendář operací. Všechny úlohy související se zálohováním musí být zdokumentovány a prováděny podle plánu. Níže je uveden seznam úkolů, které je třeba denně splnit:
    • monitorování úkolů;
    • zprávy o neúspěchu a úspěchu;
    • analýza a řešení problémů;
    • manipulace s páskami a správa knihoven;
    • plánování úkolů.
  • Denní kontrola protokolů procesu zálohování. Protože každé selhání zálohování může vést k mnoha potížím, musíte průběh procesu zálohování kontrolovat alespoň každý den.
  • Chraňte svou záložní databázi nebo adresář. Každá zálohovací aplikace si udržuje vlastní databázi, jejíž ztráta by mohla znamenat ztrátu záloh.
  • Definujte denní časové okno zálohování. Pokud časy provádění úloh začnou překračovat přidělené časové okno, je to známka toho, že se systém blíží kapacitním limitům nebo že existují slabé články ve výkonu. Včasná detekce takových příznaků může zabránit následným větším poruchám systému.
  • Lokalizace a uchování „externích“ systémů a objemů. Je nutné si osobně ověřit, že záložní kopie splňují vaše očekávání, primárně se spoléhat na vaše pozorování spíše než na zprávy programu.
  • Maximální možná centralizace a automatizace zálohování. Sloučení více úloh zálohování do jedné značně zjednodušuje proces zálohování.
  • Tvorba a podpora otevřených reportů, reportů o otevřených problémech. Záznam nevyřešených problémů může pomoci odstranit je co nejrychleji a v důsledku toho optimalizovat proces zálohování.
  • Začlenění zálohování do procesu řízení změny systému.
  • Konzultace s prodejci. Mělo by být zajištěno, že implementovaný systém plně splňuje očekávání organizace.

Zálohovací technologie

Bezpečnost

Zálohování se obvykle provádí automaticky. Přístup k datům obvykle vyžaduje zvýšená oprávnění. Proces, který poskytuje zálohu, tedy běží zdola účet se zvýšenými privilegii – zde se vkrádá určité riziko. Přečíst článek

Příprava nového serveru k provozu by měla začít nastavením zálohy. Zdá se, že o tom všichni vědí - ale někdy dokonce zažili správci systému dělat neodpustitelné chyby. A nejde jen o to, že úkol nastavení nového serveru je třeba vyřešit velmi rychle, ale také o to, že není vždy jasné, jakou metodu zálohování použít.

Samozřejmě nelze vytvořit ideální metodu, která by vyhovovala všem: vše má své pro a proti. Ale zároveň se zdá docela reálné zvolit metodu, která nejlépe vyhovuje specifikům konkrétního projektu.

Při výběru způsobu zálohování musíte nejprve věnovat pozornost následujícím kritériím:

  1. Rychlost (čas) zálohování do úložiště;
  2. Rychlost (čas) obnovy ze záložní kopie;
  3. Kolik kopií lze uchovat s omezenou velikostí úložiště (server zálohování);
  4. Objem rizik způsobených nekonzistentností záložních kopií, nevyvinutým způsobem provádění záloh, úplnou nebo částečnou ztrátou záloh;
  5. Režijní náklady: úroveň zatížení vytvořeného na serveru při provádění kopie, snížení rychlosti odezvy služby atd.
  6. Cena pronájmu všech využívaných služeb.

V tomto článku budeme hovořit o hlavních metodách zálohování serverů se systémy Linux a o nejčastějších problémech, se kterými se mohou začátečníci setkat v této velmi důležité oblasti správy systému.

Schéma pro uspořádání úložiště a obnovy ze záložních kopií

Při výběru organizačního schématu metody zálohování byste měli věnovat pozornost následujícím základním bodům:
  1. Zálohy nelze ukládat na stejné místo jako zálohovaná data. Pokud zálohu uložíte na stejné diskové pole jako vaše data, při poškození hlavního diskového pole o ni přijdete.
  2. Mirroring (RAID1) nelze srovnávat se zálohováním. Raid vás chrání pouze před hardwarovým problémem jednoho z disků (a dříve nebo později k takovému problému dojde, protože diskový subsystém je téměř vždy úzkým hrdlem serveru). Navíc při použití hardwarových raidů hrozí selhání řadiče, tzn. musíte si nechat náhradní model.
  3. Pokud zálohy ukládáte v rámci jednoho racku v DC nebo jednoduše v rámci jednoho DC, pak v této situaci existují i ​​určitá rizika (o tom si můžete přečíst např.
  4. Pokud ukládáte záložní kopie v různých DC, náklady na síť a rychlost obnovy ze vzdálené kopie se prudce zvýší.

Často je důvodem pro obnovu dat poškození systému souborů nebo disků. Tito. zálohy musí být uloženy někde na samostatném úložném serveru. V tomto případě může být problémem „šířka“ kanálu přenosu dat. Pokud máte dedikovaný server, je velmi vhodné provádět zálohy na samostatném síťovém rozhraní a ne na stejném rozhraní, které si vyměňuje data s klienty. V opačném případě se požadavky vašeho klienta nemusí „vejít“ do omezeného komunikačního kanálu. Nebo z důvodu zákaznického provozu nebudou zálohy provedeny včas.


Dále je třeba se zamyslet nad schématem a dobou obnovy dat z hlediska ukládání záloh. Můžete být docela spokojeni se zálohou dokončenou za 6 hodin v noci na úložišti s omezenou rychlostí přístupu, ale 6hodinová obnova vám pravděpodobně nebude vyhovovat. To znamená, že přístup k záložním kopiím by měl být pohodlný a data by měla být kopírována dostatečně rychle. Takže například obnova 1TB dat s šířkou pásma 1Gb/s zabere téměř 3 hodiny, a to v případě, že nejste limitováni výkonem diskového subsystému v úložišti a serveru. A k tomu nezapomeňte přičíst čas potřebný k odhalení problému, čas potřebný k rozhodnutí o vrácení zpět, čas potřebný ke kontrole integrity obnovených dat a množství následné nespokojenosti mezi klienty/kolegy .

Přírůstkové zálohování

Na přírůstkové záloha zkopíruje pouze soubory, které se od předchozí zálohy změnily. Následné přírůstkové zálohy přidávají pouze soubory, které se od té předchozí změnily. V průměru zaberou přírůstkové zálohy méně času, protože se zkopíruje méně souborů. Proces obnovy dat však trvá déle, protože je nutné obnovit data z poslední úplné zálohy a data ze všech následujících přírůstkových záloh. V tomto případě, na rozdíl od rozdílového kopírování, změněné nebo nové soubory nenahrazují staré, ale jsou přidány na médium nezávisle.

Přírůstkové kopírování se nejčastěji provádí pomocí nástroje rsync. S jeho pomocí můžete ušetřit úložný prostor, pokud počet změn za den není příliš velký. Pokud jsou změněné soubory velké, budou zcela zkopírovány, aniž by byly nahrazeny předchozí verze.

Proces zálohování pomocí rsync lze rozdělit do následujících kroků:

  1. Sestaví se seznam souborů na redundantním serveru a v úložišti, pro každý soubor se načtou metadata (oprávnění, čas úpravy atd.) nebo kontrolní součet (při použití klíče —checksum).
  2. Pokud se metadata souborů liší, pak se soubor rozdělí do bloků a pro každý blok se vypočítá kontrolní součet. Bloky, které se liší, jsou nahrány do úložiště.
  3. Pokud je v souboru provedena změna během výpočtu kontrolního součtu nebo přenosu souboru, jeho záloha se opakuje od začátku.
  4. Ve výchozím nastavení rsync přenáší data přes SSH, což znamená, že každý blok dat je navíc šifrován. Rsync lze také spustit jako démona a přenášet data bez šifrování pomocí jeho protokolu.

S více detailní informace Více o tom, jak rsync funguje, se dozvíte na oficiálních stránkách.

Pro každý soubor funguje rsync velmi velký počet operace. Pokud je na serveru mnoho souborů nebo je procesor silně zatížen, rychlost zálohování se výrazně sníží.

Ze zkušenosti můžeme říci, že problémy na SATA discích (RAID1) začínají po cca 200G dat na serveru. Ve skutečnosti vše samozřejmě závisí na počtu inodů. A v každém případě se tato hodnota může posunout jedním nebo druhým směrem.

Po určitém okamžiku bude doba provádění zálohy velmi dlouhá nebo jednoduše nebude dokončena za den.

Aby se neporovnávaly všechny soubory, je tu lsyncd. Tento démon shromažďuje informace o změněných souborech, tzn. jejich seznam již budeme mít pro rsync připravený předem. Je však třeba vzít v úvahu, že to představuje další zatížení diskový subsystém.

Rozdílová záloha

Na rozdíl V záloze se pokaždé zálohuje každý soubor, který se od poslední úplné zálohy změnil. Rozdílové kopírování urychluje proces obnovy. Vše, co potřebujete, je nejnovější plná a nejnovější rozdílová záloha. Rozdílové zálohování je stále oblíbenější, protože všechny kopie souborů jsou vytvářeny v určitých okamžicích, což je například velmi důležité při infikování viry.

Rozdílové zálohování se provádí například pomocí nástroje, jako je rdiff-backup. Při práci s touto utilitou vznikají stejné problémy jako u přírůstkových záloh.

Obecně platí, že pokud při hledání rozdílů v datech provádíte úplné prohledávání souborů, problémy tohoto druhu zálohování jsou podobné problémům s rsync.

Rádi bychom zvlášť poznamenali, že pokud je ve vašem schématu zálohování každý soubor zkopírován samostatně, pak se vyplatí smazat/vyloučit soubory, které nepotřebujete. Mohou to být například CMS cache. Takové cache obvykle obsahují mnoho malých souborů, jejichž ztráta neovlivní správný chod serveru.

Plná záloha

Úplná záloha obvykle ovlivní celý váš systém a všechny soubory. Týdenní, měsíční a čtvrtletní zálohy zahrnují vytvoření kompletní kopie všech dat. Obvykle se provádí v pátek nebo o víkendu, kdy kopírování velkého množství dat nemá vliv na práci organizace. Následné zálohy, které se provádějí od pondělí do čtvrtka až do další úplné zálohy, mohou být rozdílové nebo přírůstkové, především z důvodu úspory času a úložného prostoru. Úplné zálohování by mělo být prováděno alespoň jednou týdně.

Většina souvisejících publikací doporučuje provádět úplnou zálohu jednou nebo dvakrát týdně a po zbytek času používat přírůstkové a rozdílové zálohy. Taková rada má svůj důvod. Ve většině případů stačí úplná záloha jednou týdně. Má smysl jej znovu spustit, pokud nemáte možnost aktualizovat plnou zálohu na straně úložiště a zajistit správnost záložní kopie (to může být nutné například v případech, kdy z toho či onoho důvodu nedůvěřujte skriptům, které máte, ani zálohovacímu softwaru.

Ve skutečnosti lze úplnou zálohu rozdělit na 2 části:

  1. Úplná záloha na úrovni systému souborů;
  2. Úplná záloha na úrovni zařízení.

Podívejme se na jejich charakteristické rysy na příkladu:
root@komarov:~# df -h Velikost souborového systému Použitá Avail Použití % Namontováno na /dev/mapper/komarov_system-root 3.4G 808M 2.4G 25 % / /dev/mapper/komarov_system-home 931G 439G 493G 3M 48 % /houde 4.0K 383M 1% /dev tmpfs 107M 104K 107M 1% /run tmpfs 531M 0 531M 0% /tmp žádný 5.0M 0 5.0M 0% /run/lock žádný 531M 0% / 531M 0% /1devsh 22M 109M 17% /bot

Budeme pouze rezervovat / domů. Vše ostatní lze rychle obnovit ručně. Můžete také nasadit server se systémem správy konfigurace a připojit k němu náš /home.

Úplná záloha na úrovni souborového systému

Typický představitel: skládka.

Nástroj vytvoří „dump“ systému souborů. Můžete vytvořit nejen plnou, ale i přírůstkovou zálohu. dump pracuje s tabulkou inodů a „rozumí“ struktuře souborů (takže řídké soubory jsou komprimovány).
Vypisování spuštěného systému souborů je „hloupé a nebezpečné“, protože systém souborů se může během vytváření výpisu změnit. Musí být vytvořen ze snímku (o něco později podrobněji probereme funkce práce se snímky), připojeného nebo zmrazeného souborového systému.

Toto schéma také závisí na počtu souborů a doba jeho provádění se prodlužuje s množstvím dat na disku. Dump má zároveň vyšší provozní rychlost než rsync.
Pokud potřebujete obnovit ne celou záložní kopii, ale například pouze několik náhodně poškozených souborů), může načítání takových souborů pomocí nástroje pro obnovu trvat příliš dlouho.

Úplná záloha na úrovni zařízení

  1. mdraid a DRBD
    Ve skutečnosti je RAID1 nakonfigurován s diskem/raidem na serveru a síťový disk a čas od času (podle frekvence zálohování) přídavný disk synchronizované s hlavním diskem/raidem na serveru.

    Největší plus je rychlost. Délka synchronizace závisí pouze na počtu změn provedených za poslední den.
    Tento zálohovací systém se používá poměrně často, ale málokdo si uvědomuje, že záložní kopie získané s jeho pomocí mohou být neúčinné a zde je důvod. Po dokončení synchronizace disku se disk s záložní kopie vypne. Pokud například máme spuštěný DBMS, který zapisuje data lokální diskčásti, ukládající mezilehlá data do mezipaměti, není zaručeno, že skončí i na záložním disku. V nejlepším případě přijdeme o některá měněná data. Proto lze takové zálohy jen stěží považovat za spolehlivé.

  2. LVM+dd
    Snímky jsou skvělým nástrojem pro vytváření konzistentních záloh. Před vytvořením snímku musíte resetovat mezipaměť FS a vašeho softwaru na diskový subsystém.

Například se samotným MySQL by to vypadalo takto:
$ sudo mysql -e "VYPLACHOVAT TABULKY SE ZÁMEKEM ČTENÍ;" $ sudo mysql -e "FLUSH LOGS;" $ sudo sync $ sudo lvcreate -s -p r -l100%zdarma -n %s_backup /dev/vg/%s $ sudo mysql -e "ODEMKNUTÍ TABULEK;"

* Kolegové vyprávějí příběhy o tom, jak něčí „zámek čtení“ někdy vedl k uváznutí, ale v mé paměti se to nikdy nestalo.

Zálohy DBMS lze vytvářet samostatně (například pomocí binárních protokolů), čímž se eliminují prostoje během resetování mezipaměti. Můžete také vytvořit výpisy v úložišti spuštěním instance DBMS tam. Zálohování různých DBMS je téma pro samostatné publikace.

Snímek můžete zkopírovat pomocí obnovení (například rsync s opravou pro kopírování blokových zařízení bugzilla.redhat.com/show_bug.cgi?id=494313), můžete blokovat po bloku a bez šifrování (netcat, ftp). Bloky můžete přenášet v komprimované podobě a připojit je do úložiště pomocí AVFS a na server připojit oddíl se zálohami přes SMB.

Komprese odstraňuje problémy s přenosovou rychlostí, přetížením kanálů a úložným prostorem. Pokud však nepoužíváte AVFS v úložišti, pak vám obnovení pouze části dat zabere spoustu času. Pokud používáte AVFS, setkáte se s jeho „vlhkostí“.
Alternativou k blokové kompresi je squashfs: k serveru můžete připojit například oddíl Samba a spustit mksquashfs, ale tento nástroj pracuje i se soubory, tzn. závisí na jejich množství.

Při vytváření squashfů se navíc plýtvá poměrně hodně RAM, což může snadno vést k volání oom-killer.

Bezpečnost

Je nutné se chránit před situací, kdy dojde k napadení úložiště nebo vašeho serveru. Pokud je server hacknutý, je lepší, aby uživatel, který tam zapisuje data, neměl práva na mazání/změnu souborů v úložišti.
Pokud je úložiště hacknuto, pak je také vhodné maximálně omezit práva uživatele zálohování na serveru.

Pokud lze záložní kanál odposlouchávat, je nutné šifrování.

Závěr

Každý zálohovací systém má svá pro a proti. V tomto článku jsme se pokusili zdůraznit některé nuance při výběru zálohovacího systému. Doufáme, že pomohou našim čtenářům.

V důsledku toho musíte při výběru zálohovacího systému pro váš projekt provést testy vybraného typu zálohování a věnovat pozornost:

  • čas zálohování v aktuální fázi projektu;
  • doba zálohování v případě, že je dat mnohem více;
  • zatížení kanálu;
  • zatížení diskového subsystému na serveru a v úložišti;
  • čas na obnovení všech dat;
  • doba obnovy pro dvojici souborů;
  • potřeba konzistence dat, zejména databází;
  • spotřeba paměti a přítomnost volání oom-killer;

Jako zálohovací řešení můžete použít supload a naše cloudové úložiště.
Čtenáři, kteří zde nemohou zanechat komentáře, jsou zváni, aby se k nám přidali na blogu.

Štítky: Přidat štítky