Nestrukturovaná data - Unstructured data

Nestrukturovaná data (nebo nestrukturované informace ) jsou informace, které buď nemají předdefinovaný datový model, nebo nejsou organizovány předem definovaným způsobem. Nestrukturované informace jsou obvykle textově náročné, ale mohou obsahovat také data, jako jsou data, čísla a fakta. Výsledkem jsou nesrovnalosti a nejasnosti, které ztěžují pochopení pomocí tradičních programů ve srovnání s daty uloženými v polní formě v databázích nebo anotovanými ( sémanticky označenými ) v dokumentech.

V roce 1998 Merrill Lynch uvedl, že „nestrukturovaná data zahrnují drtivou většinu dat nalezených v organizaci, některé odhady dosahují až 80%“. Není jasné, co je zdrojem tohoto čísla, ale přesto to někteří akceptují. Jiné zdroje uvádějí podobná nebo vyšší procenta nestrukturovaných dat.

Od roku 2012 IDC a Dell EMC předpokládají, že do roku 2020 narostou data na 40 zettabytů , což bude mít od začátku roku 2010 50násobný růst. V poslední době IDC a Seagate předpovídají, že globální datová sféra do roku 2025 naroste na 163 zettabytů a většina z toho bude nestrukturovaná. The Computer World Časopis uvádí, že nestrukturované informace mohou tvoří více než 70-80% všech dat v organizacích.

Pozadí

Nejčasnější výzkum obchodní inteligence se zaměřil spíše na nestrukturovaná textová data než na numerická data. Již v roce 1958 se vědci v oboru informatiky jako HP Luhn zabývali zejména extrakcí a klasifikací nestrukturovaného textu. Teprve od přelomu století však technologie dotáhla zájem výzkumu. V roce 2004 institut SAS vyvinul SAS Text Miner, který pomocí Singular Value Decomposition (SVD) redukuje hyperdimenzionální textový prostor na menší rozměry pro výrazně efektivnější strojovou analýzu. Matematické a technologické pokroky vyvolané strojovou textovou analýzou přiměly řadu podniků k výzkumu aplikací, což vedlo k rozvoji oblastí, jako je analýza sentimentu , dolování zákazníků a optimalizace call centra. Vznik velkých objemů dat koncem roku 2000 vedl ke zvýšenému zájmu o aplikace nestrukturované analýzy dat v současných oblastech, jako je prediktivní analýza a analýza příčin .

Problémy s terminologií

Termín je nepřesný z několika důvodů:

Struktura , i když není formálně definována, může být implikována.
Data s nějakou formou struktury mohou být stále charakterizována jako nestrukturovaná, pokud její struktura není nápomocna pro zpracovávaný úkol.
Nestrukturované informace mohou mít určitou strukturu ( polostrukturovanou ) nebo dokonce vysoce strukturované, ale způsoby, které jsou neočekávané nebo neohlášené.

Nakládání s nestrukturovanými daty

Techniky, jako je dolování dat , zpracování přirozeného jazyka (NLP) a textová analýza, poskytují různé metody k hledání vzorů v těchto informacích nebo k jejich jiné interpretaci. Běžné techniky strukturování textu obvykle zahrnují ruční značkování pomocí metadat nebo značení části řeči pro další strukturování založené na těžbě textu . Standard UIMA (Unstructured Information Management Architecture ) poskytl společný rámec pro zpracování těchto informací za účelem získání významu a vytvoření strukturovaných dat o informacích.

Software, který vytváří strojově zpracovatelnou strukturu, může využívat jazykovou, sluchovou a vizuální strukturu, která existuje ve všech formách lidské komunikace. Algoritmy mohou tuto inherentní strukturu odvodit z textu, například zkoumáním morfologie slov , syntaxe vět a dalších vzorů malého a velkého rozsahu. Nestrukturované informace pak mohou být obohaceny a označeny tak, aby řešily nejednoznačnosti a techniky založené na relevanci, a poté se používaly k usnadnění vyhledávání a objevování. Příklady „nestrukturovaných dat“ mohou zahrnovat knihy, časopisy, dokumenty, metadata , zdravotní záznamy , audio , videa , analogová data , obrázky, soubory a nestrukturovaný text, jako je například těle e-mailové zprávy, webové stránky , nebo word- dokument procesoru . Přestože hlavní přenášený obsah nemá definovanou strukturu, obvykle se dodává zabalený v objektech (např. V souborech nebo dokumentech, ...), které samy mají strukturu, a jsou tedy kombinací strukturovaných a nestrukturovaných dat, ale souhrnně je to stále označovány jako „nestrukturovaná data“. Například, HTML webové stránky je označen, ale HTML mark-up obvykle slouží pouze pro vykreslování. Nezachycuje význam ani funkci označených prvků způsoby, které podporují automatizované zpracování informačního obsahu stránky. Značení XHTML umožňuje strojové zpracování prvků, i když obvykle nezachycuje ani nepředává sémantický význam označených výrazů.

Jelikož se v elektronických dokumentech běžně vyskytují nestrukturovaná data, je často preferováno použití systému pro správu obsahu nebo dokumentů, který dokáže kategorizovat celé dokumenty, před přenosem dat a manipulací s dokumenty. Správa dokumentů tak poskytuje prostředky k přenosu struktury do sbírek dokumentů .

Vyhledávače se staly oblíbenými nástroji pro indexování a prohledávání takových dat, zejména textu.

Přístupy ve zpracování přirozeného jazyka

Byly vyvinuty specifické výpočetní pracovní toky, které vnucují strukturu nestrukturovaným datům obsaženým v textových dokumentech. Tyto pracovní toky jsou obecně navrženy tak, aby zvládly sady tisíců nebo dokonce milionů dokumentů, nebo mnohem více, než dovolují manuální přístupy k anotacím. Některé z těchto přístupů jsou založeny na konceptu online analytického zpracování nebo OLAP a mohou být podporovány datovými modely, jako jsou textové kostky. Jakmile jsou metadata dokumentu k dispozici prostřednictvím datového modelu, lze generovat souhrny podmnožin dokumentů (tj. Buněk v textové krychli) pomocí přístupů založených na frázích.

Přístupy v medicíně a biomedicínském výzkumu

Biomedicínský výzkum generuje jeden hlavní zdroj nestrukturovaných dat, protože výzkumníci často publikují svá zjištění v odborných časopisech. Ačkoli jazyk v těchto dokumentech je obtížné odvodit strukturální prvky (např. Kvůli komplikované technické slovní zásobě obsažené v této oblasti a znalosti domény potřebné k plné kontextualizaci pozorování), výsledky těchto aktivit mohou poskytnout vazby mezi technickými a lékařskými studiemi a indiciemi ohledně nových terapií nemocí. Nedávné snahy prosadit strukturu na biomedicínských dokumentech zahrnují samoorganizující se přístupy k mapování pro identifikaci témat mezi dokumenty, obecné nekontrolované algoritmy a aplikaci pracovního postupu CaseOLAP k určení asociací mezi názvy proteinů a tématy kardiovaskulárních chorob v literatuře. CaseOLAP definuje vztahy kategorie frází přesným (identifikuje vztahy), konzistentním (vysoce reprodukovatelným) a efektivním způsobem. Tato platforma nabízí lepší přístupnost a umožňuje biomedicínské komunitě nástroje pro těžbu frází pro rozšířené aplikace biomedicínského výzkumu.

Použití „nestrukturovaného“ v předpisech o ochraně osobních údajů

V předchozích letech bylo možné některé předpisy o ochraně osobních údajů přeskočit, pokud byla data potvrzena jako „nestrukturovaná“. Tato terminologie se však používá jen zřídka poté, co evropský právní rámec GDPR vstoupil v platnost 2018. GDPR jako takový „nestrukturovaná data“ nezmiňuje ani nedefinuje. Používá však slovo „strukturovaný“ následujícím způsobem (bez definování);

Části 15. bodu odůvodnění „Ochrana fyzických osob by se měla vztahovat na zpracování osobních údajů ... pokud ... jsou obsaženy v informačním systému“.
Článek 4, „„ registrační systém “znamená jakýkoli strukturovaný soubor osobních údajů, které jsou přístupné podle konkrétních kritérií ...“

Judikatura GDPR objasňuje, co definuje „registrační systém“; „Konkrétní kritérium a konkrétní forma, ve které je soubor osobních údajů shromážděných každým z členů zapojených do kázání skutečně strukturován, je irelevantní, pokud tento soubor údajů umožňuje údaje týkající se konkrétní osoby, která byl kontaktován, aby jej bylo možné snadno vyhledat , což však musí předkládající soud ověřit s ohledem na všechny okolnosti případu v původním řízení. “ ( Soudní dvůr Evropské unie , Todistajat v. Tietosuojavaltuutettu, Jehovan, bod 61 ).

Pokud jsou tedy osobní údaje snadno načteny - pak se jedná o registrační systém a - pak jsou v rozsahu působnosti GDPR a „strukturované“ nebo „nestrukturované“ jsou irelevantní. Většina dnešních elektronických systémů, které podléhají přístupu a aplikovanému softwaru, umožňuje snadné získávání dat.

Viz také

Poznámky

^ Dnešní výzva ve vládě: Co dělat s nestrukturovanými informacemi a proč nedělat nic není možné, Noel Yuhanna, hlavní analytik,Forrester Research, listopad 2010

Languages

In other projects