Zpracování v paměti - In-memory processing

Ve vědě o počítačích , v paměti zpracování je nově vznikající technologie pro zpracování dat uložených v databázi v paměti . Starší systémy byly založeny na diskovém úložišti a relačních databázích využívajících dotazovací jazyk SQL , ale ty jsou stále častěji považovány za nedostatečné ke splnění potřeb business intelligence (BI). Protože k uloženým datům je mnohem rychlejší přístup, když jsou umístěny do paměti RAM nebo flash paměti , zpracování v paměti umožňuje analýzu dat v reálném čase , což umožňuje rychlejší vykazování a rozhodování v podnikání.

Business Intelligence na disku

Datové struktury

Díky technologii založené na disku se data načítají na pevný disk počítače ve formě více tabulek a vícerozměrných struktur, proti nimž jsou spuštěny dotazy. Diskové technologie jsou systémy pro správu relačních databází (RDBMS), často založené na strukturovaném dotazovacím jazyce ( SQL ), jako je SQL Server , MySQL , Oracle a mnoho dalších. RDBMS jsou navrženy pro požadavky transakčního zpracování . Pomocí databáze, která podporuje vkládání a aktualizace a také provádění agregací, jsou spoje (typické pro řešení BI) obvykle velmi pomalé. Další nevýhodou je, že SQL je navržen tak, aby efektivně načítal řádky dat, zatímco dotazy BI obvykle zahrnují načítání dílčích řádků dat zahrnujících náročné výpočty.

Pro zlepšení výkonu dotazů jsou konstruovány vícerozměrné databáze nebo krychle OLAP - nazývané také multidimenzionální online analytické zpracování (MOLAP). Navrhování krychle je komplikovaný a zdlouhavý proces a změnit strukturu krychle tak, aby se přizpůsobila dynamicky se měnícím obchodním potřebám, může být těžkopádné. Kostky jsou předvyplněny daty odpovídajícími na konkrétní dotazy a přestože zvyšují výkon, stále nejsou vhodné pro odpovídání na dotazy ad-hoc.

Pracovníci informačních technologií (IT) tráví značný čas vývojem optimalizací databází, vytvářením indexů a agregátů , navrhováním kostek a schémat hvězd , modelováním dat a analýzou dotazů.

Rychlost zpracování

Čtení dat z pevného disku je mnohem pomalejší (možná stokrát) ve srovnání se čtením stejných dat z RAM. Zejména při analýze velkých objemů dat je výkon vážně snížen. Ačkoli je SQL velmi účinný nástroj, složité dotazy se provádějí relativně dlouho a často vedou ke snížení výkonu transakčního zpracování. Aby bylo možné získat výsledky v přijatelné době odezvy, bylo mnoho datových skladů navrženo tak, aby předběžně počítaly souhrny a odpovídaly pouze na konkrétní dotazy. Ke zvýšení výkonu jsou zapotřebí optimalizované agregační algoritmy.

Nástroje pro zpracování v paměti

Zpracování paměti lze provádět prostřednictvím tradičních databází, jako je Oracle , DB2 nebo Microsoft SQL Server, nebo prostřednictvím nabídek NoSQL , jako je datová síť v paměti, jako je Hazelcast , Infinispan , Oracle Coherence nebo ScaleOut Software. S databází i datovou mřížkou v paměti se všechny informace zpočátku načítají do paměti RAM nebo flash paměti místo na pevné disky . S datovou mřížkou probíhá zpracování o tři řády rychleji než relační databáze, které mají pokročilé funkce, jako je ACID, které snižují výkon jako kompenzaci za další funkce. Příchod databází zaměřených na sloupce , které společně ukládají podobné informace, umožňuje ukládání dat efektivněji a s vyššími kompresními poměry. To umožňuje uložení velkého množství dat do stejného fyzického prostoru, což snižuje množství paměti potřebné k provedení dotazu a zvyšuje rychlost zpracování. Mnoho uživatelů a prodejců softwaru integrovalo do svých systémů flash paměť, aby systémy mohly ekonomicky škálovat na větší soubory dat. Společnost Oracle integrovala flash paměť do produktů Oracle Exadata za účelem zvýšení výkonu. Software Microsoft SQL Server 2012 BI/Data Warehousing byl spojen s poli flash paměti Violin Memory, aby bylo umožněno zpracování datových sad větších než 20 TB v paměti.

Uživatelé dotazují na data načtená do paměti systému, čímž se vyhnou pomalejšímu přístupu k databázi a problémům s výkonem. To se liší od ukládání do mezipaměti , což je velmi široce používaná metoda pro zrychlení výkonu dotazů, v tom, že mezipaměti jsou podmnožinami velmi specifických předem definovaných organizovaných dat. S nástroji v paměti mohou být data dostupná pro analýzu stejně velká jako datový trh nebo malý datový sklad, který je zcela v paměti. K tomu může rychle přistupovat více souběžných uživatelů nebo aplikací na podrobné úrovni a nabízí potenciál pro vylepšenou analytiku a pro škálování a zvyšování rychlosti aplikace. Ve srovnání s diskem je zlepšení rychlosti přístupu k datům teoreticky 10 000 až 1 000 000krát. Minimalizuje také potřebu ladění výkonu pracovníky IT a poskytuje rychlejší služby koncovým uživatelům.

Výhody technologie zpracování v paměti

Určitý vývoj v oblasti výpočetní techniky a obchodních potřeb má tendenci zvyšovat relativní výhody technologie v paměti.

  • Podle Moorova zákona se hardware postupně stává levnějším a výkonnějším . Výpočetní výkon se zdvojnásobuje každé dva až tři roky a současně se snižují náklady. Procesor CPU, paměť a diskové úložiště podléhají určitým odchylkám tohoto zákona. Také hardwarové inovace, jako je vícejádrová architektura , paměť NAND flash , paralelní servery a rozšířené možnosti zpracování paměti, kromě softwarových inovací, jako jsou sloupcově orientované databáze, kompresní techniky a manipulace s agregačními tabulkami, to vše přispělo k poptávce po paměti produkty.
  • Příchod 64bitových operačních systémů , které umožňují přístup k mnohem větší RAM (až 100 GB nebo více) než 2 nebo 4 GB přístupné na 32bitových systémech. Díky poskytnutí terabajtů (1 TB = 1 024 GB) prostoru pro úložiště a analýzu umožňují 64bitové operační systémy škálovatelnost zpracování v paměti. Využití flash paměti umožňuje systémům ekonomičtější škálování na mnoho terabajtů.
  • Rostoucí objemy dat znamenaly, že tradiční datové sklady již nejsou schopny data zpracovávat včas a přesně. Proces extrakce, transformace, načítání (ETL), který pravidelně aktualizuje datové sklady s provozními daty, může trvat několik hodin až týdnů. V každém daném časovém okamžiku jsou tedy údaje staré alespoň jeden den. Zpracování v paměti umožňuje okamžitý přístup k terabajtům dat pro hlášení v reálném čase.
  • Zpracování v paměti je k dispozici za nižší cenu ve srovnání s tradičními nástroji BI a lze jej snadněji nasadit a udržovat. Podle průzkumu společnosti Gartner může nasazení tradičních nástrojů BI trvat až 17 měsíců. Mnoho prodejců datových skladů volí technologii v paměti oproti tradičnímu BI, aby urychlili implementaci.

Aplikace v podnikání

Řada produktů v paměti poskytuje možnost připojení ke stávajícím zdrojům dat a přístup k vizuálně bohatým interaktivním řídicím panelům. To umožňuje obchodním analytikům a koncovým uživatelům vytvářet vlastní zprávy a dotazy bez velkého školení nebo odborných znalostí. Snadná navigace a schopnost upravovat dotazy za běhu je přínosem pro mnoho uživatelů. Vzhledem k tomu, že tyto řídicí panely lze naplnit novými daty, mají uživatelé přístup k datům v reálném čase a mohou vytvářet zprávy během několika minut. Zpracování v paměti může být zvláště výhodné v call centrech a správě skladu.

Při zpracování v paměti je zdrojová databáze dotazována pouze jednou místo přístupu k databázi při každém spuštění dotazu, čímž se eliminuje opakované zpracování a snižuje zátěž databázových serverů. Plánováním naplnění databáze v paměti přes noc mohou být databázové servery použity pro provozní účely ve špičce.

Přijetí technologie v paměti

Při velkém počtu uživatelů je pro konfiguraci v paměti potřeba velké množství paměti RAM, což zase ovlivňuje náklady na hardware. Investice bude vhodnější v situacích, kde je rychlost odezvy dotazů vysokou prioritou a kde dochází k významnému nárůstu objemu dat a zvýšení poptávky po zařízeních pro podávání zpráv; stále nemusí být efektivní z hlediska nákladů, pokud informace nepodléhají rychlé změně. Zabezpečení je dalším hlediskem, protože nástroje v paměti odhalují koncovým uživatelům obrovské množství dat. Tvůrci doporučují zajistit, aby k datům měli přístup pouze autorizovaní uživatelé.

Viz také

Reference