Soubor dat - Data set
Soubor dat (nebo datový soubor ) je soubor dat . V případě tabulkových dat odpovídá datová sada jedné nebo více databázovým tabulkám , kde každý sloupec tabulky představuje konkrétní proměnnou a každý řádek odpovídá danému záznamu dané datové sady. Datová sada uvádí hodnoty pro každou z proměnných, jako je výška a hmotnost objektu, pro každého člena datové sady. Každá hodnota je známá jako vztažný bod. Datové sady mohou také sestávat ze sbírky dokumentů nebo souborů.
V disciplíně otevřených dat je datová sada jednotkou pro měření informací zveřejněných ve veřejném otevřeném datovém úložišti. Evropský portál pro otevřená data agreguje více než půl milionu datových sad. Některé další problémy (zdroje dat v reálném čase, soubory nerelačních dat atd.) Zvyšují obtížnost dosažení konsensu v této oblasti.
Vlastnosti
Několik charakteristik definuje strukturu a vlastnosti datové sady. Patří sem počet a typy atributů nebo proměnných a různá statistická opatření, která se na ně vztahují, jako je standardní odchylka a kurtóza .
Hodnoty mohou být čísla, například skutečná čísla nebo celá čísla , například představující výšku osoby v centimetrech, ale mohou to být také nominální údaje (tj. Nesestávající z číselných hodnot), například představující etnický původ osoby. Obecněji mohou být hodnoty jakéhokoli druhu popsaného jako úroveň měření . Pro každou proměnnou jsou hodnoty obvykle stejného druhu. Mohou však také chybět hodnoty , které je třeba určitým způsobem naznačit.
V statistik , datové soubory obvykle pocházejí od skutečných pozorování získaných vzorkováním na statistickou populaci , a každý řádek odpovídá vyjádření jeden prvek této populace. Datové sady mohou být dále generovány algoritmy za účelem testování určitých druhů softwaru . Některé moderní software pro statistickou analýzu, jako je SPSS, stále prezentují svá data klasickým způsobem. Pokud data chybí nebo jsou podezřelá, lze k dokončení datové sady použít metodu imputace .
Klasické datové sady
Ve statistické literatuře bylo široce používáno několik klasických datových souborů :
- Datový soubor květu kosatce - Soubor vícerozměrných dat zavedený Ronaldem Fisherem (1936).
- Databáze MNIST - obrazy ručně psaných číslic běžně používaných k testování klasifikace, shlukování a algoritmů zpracování obrazu
- Kategorická analýza dat - Soubory dat použité v knize, Úvod do kategorické analýzy dat .
- Robustní statistika - Datové soubory používané v Robustní regresi a detekci odlehlých hodnot ( Rousseeuw a Leroy, 1986). Poskytováno on-line na univerzitě v Kolíně nad Rýnem.
- Časové řady - Údaje používané v Chatfield knihy, Analýza časových řad , jsou poskytovány on-line by StatLib.
- Extrémní hodnoty -Data použitá v knize, Úvod do statistického modelování extrémních hodnot jsou snímek dat, jak je poskytl on-line Stuart Coles , autor knihy.
- Bayesian analýza dat - Údaje používané v této knize jsou poskytovány on-line od Andrew Gelman , jeden z autorů knihy.
- Údaje o játrech Bupa - Používá se v několika článcích v literatuře o strojovém učení (dolování dat).
- Anscombeho kvarteto - malý soubor dat ilustrující důležitost vykreslení dat, aby se zabránilo statistickým omylům
Viz také
Reference
externí odkazy
- Datahub -komunita spravovaný domov pro otevřené datové sady
- Data.gov - otevřená data vlády USA
- data.world
- GCMD - Global Change Master Directory obsahující více než 34 000 popisů datových sad a služeb pro vědu o Zemi a pro vědu o životním prostředí
- Humanitarian Data Exchange (HDX) - Humanitarian Data Exchange (HDX) je otevřená platforma pro sdílení humanitárních dat spravovaná Úřadem OSN pro koordinaci humanitárních záležitostí .
- NYC Open Data - bezplatná veřejná data publikovaná agenturami New Yorku a dalšími partnery.
- Úložiště relačních datových sad
- Research Pipeline - wiki/webová stránka s odkazy na soubory dat o mnoha různých tématech
- Datový archiv StatLib – JASA
- UCI - úložiště strojového učení
- Veřejná data vlády Spojeného království
- Světová banka Otevřená data - volný a otevřený přístup ke globálním vývojovým datům Světové banky
- Sbírka jednoduchých 2D datových sad