Pravidlo klasifikace - Classification rule

Vzhledem k populaci, jejíž členové každý patří do jedné z řady různých sad nebo tříd , je klasifikační pravidlo nebo klasifikátor postup, při kterém se předpokládá, že prvky sady populací patří do jedné z tříd. Dokonalá klasifikace je klasifikace, pro kterou je každý prvek v populaci přiřazen ke třídě, do které skutečně patří. Nedokonalá klasifikace je klasifikace, ve které se objevují některé chyby, a poté je nutné provést statistickou analýzu k analýze klasifikace.

Zvláštním druhem pravidla klasifikace je binární klasifikace pro problémy, ve kterých existují pouze dvě třídy.

Testování klasifikačních pravidel

Vzhledem k datové sadě skládající se z dvojic x a y , kde x označuje prvek populace a y třídu, do které patří, je klasifikační pravidlo h ( x ) funkce, která přiřadí každý prvek x předpovězené třídě A binární klasifikace je tak, že popisek y může nabývat pouze jedné ze dvou hodnot.

Pravé popisky y i mohou být známy, ale nemusí nutně odpovídat jejich aproximacím . V binární klasifikaci jsou prvky, které nejsou správně klasifikovány, pojmenovány falešně pozitivní a falešně negativní.

Některá klasifikační pravidla jsou statické funkce. Jiné mohou být počítačové programy. Počítač klasifikátor může být schopen se naučit, nebo mohou implementovat statické klasifikační pravidla. Pro tréninkové souboru dat se skutečnými štítky y j jsou neznámé, ale to je hlavním cílem pro postup klasifikace tím, že sbližování , stejně jako je to možné, v nichž je kvalita této aproximace potřeb, které mají být posuzovány na základě statistických nebo pravděpodobnostní vlastnosti celkové populace, ze které budou čerpána budoucí pozorování.

Vzhledem k pravidlu klasifikace je test klasifikace výsledkem použití pravidla na konečný vzorek počáteční sady dat.

Binární a multiklasová klasifikace

Klasifikaci lze považovat za dva samostatné problémy - binární klasifikaci a klasifikaci více tříd . V binární klasifikaci, lépe pochopené úloze, jsou zahrnuty pouze dvě třídy, zatímco klasifikace více tříd zahrnuje přiřazení objektu k jedné z několika tříd. Vzhledem k tomu, že mnoho metod klasifikace bylo vyvinuto speciálně pro binární klasifikaci, klasifikace více tříd často vyžaduje kombinované použití více binárních klasifikátorů. Důležitým bodem je, že v mnoha praktických problémech s binární klasifikací nejsou obě skupiny symetrické - spíše než celková přesnost je zajímavý relativní podíl různých typů chyb. Například v lékařském testování je falešně pozitivní (detekce nemoci, pokud není přítomna) považováno odlišně od falešně negativní (nedetekování choroby, pokud je přítomna). V klasifikaci více tříd mohou být třídy považovány za symetrické (všechny chyby jsou ekvivalentní) nebo asymetrické, což je podstatně složitější.

Metody binární klasifikace zahrnují regresi probitů a logistickou regresi . Metody klasifikace více tříd zahrnují multinomiální probit a multinomiální logit .

Matice zmatků a klasifikátory

Levá a pravá polovina obsahují instance, které ve skutečnosti mají a nemají podmínku. Ovál obsahuje instance, které jsou klasifikovány (předpovídány) jako pozitivní (s podmínkou). Zelená a červená obsahují instance, které jsou správně (true) a nesprávně (false) klasifikovány.
TP = skutečně pozitivní; TN = True Negative; FP = False Positive (chyba typu I); FN = False Negative (chyba typu II); TPR = skutečná kladná sazba; FPR = falešně pozitivní poměr; PPV = pozitivní prediktivní hodnota; NPV = negativní prediktivní hodnota.

Pokud klasifikační funkce není dokonalá, zobrazí se nesprávné výsledky. V příkladu na obrázku vpravo. Na levé straně čáry (pravá strana) je 20 teček, zatímco pouze 8 z těchto 20 bylo ve skutečnosti pravdivých. V podobné situaci pro pravou stranu čáry (falešná strana), kde je na pravé straně 16 bodů a 4 z těchto 16 bodů byly nepřesně označeny jako pravdivé. Pomocí umístění teček můžeme vytvořit matici zmatku pro vyjádření hodnot. Můžeme použít 4 různé metriky k vyjádření 4 různých možných výsledků. Existují true positive (TP), false positive (FP), false positive (FN), and true positive (TN).

Příklad matice záměny
  Předpovězeno

Aktuální
Skutečný Nepravdivé
Skutečný 8 4
Nepravdivé 12 12

Falešné pozitivy

Falešně pozitivní výsledky, když test nesprávně (nesprávně) ohlásí pozitivní výsledek. Například lékařský test na nemoc může vrátit pozitivní výsledek, který naznačuje, že pacient má nemoc, i když nemoc nemá. Falešně pozitivní je obvykle označována jako jednotka vpravo nahoře (podmínka negativní X výsledek testu pozitivní) v matici zmatku .

Falešné negativy

Na druhé straně, falešně negativní způsobit při testu falešně nebo nesprávně hlásí negativní výsledek. Například lékařský test na nemoc může vrátit negativní výsledek, což naznačuje, že pacient nemá nemoc, přestože pacient ve skutečnosti nemoc má. Falešně negativní je běžně označován jako jednotka vlevo dole (podmínka pozitivní X výsledek testu negativní) v matici zmatku .

Skutečná pozitiva

Skutečné pozitivní výsledky, když test správně ohlásí pozitivní výsledek. Například lékařský test na onemocnění může vrátit pozitivní výsledek, který naznačuje, že pacient má onemocnění. To se ukazuje jako pravdivé, když test pacienta potvrdí existenci onemocnění. Pravda pozitivní je běžně označována jako jednotka vlevo nahoře (pozitivní výsledek testu X podmínka pozitivní) v matici zmatku .

Skutečné negativy

Skutečný negativní výsledek, když test správně nahlásí negativní výsledek. Například lékařský test na nemoc může vrátit pozitivní výsledek, který naznačuje, že pacient nemoc nemá. To se ukazuje jako pravdivé, když pacientský test také uvádí, že nemoc nemá. Pravda záporná je běžně označována jako jednotka vpravo dole (podmínka negativní X výsledek testu negativní) v matici zmatku .

Aplikace s Bayesovou větou

Můžeme také vypočítat skutečné pozitivy, falešně pozitivní, skutečně negativní a falešné negativy pomocí Bayesovy věty . Za použití Bayesův teorém pomůže popsat Pravděpodobnost a o události (teorie pravděpodobnosti) , založenou na předchozí znalosti podmínek, které by mohly být v souvislosti s událostí. Vyjádřeny jsou čtyři klasifikace pomocí níže uvedeného příkladu.

  • Pokud testovaný pacient nemá toto onemocnění, vrátí test pozitivní výsledek 5% času nebo s pravděpodobností 0,05.
  • Předpokládejme, že toto onemocnění má pouze 0,1% populace, takže náhodně vybraný pacient má 0,001 předchozí pravděpodobnost onemocnění.
  • Nechť A představuje stav, ve kterém má pacient nemoc
  • Nechť \ neg A představuje stav, ve kterém pacient nemá nemoc
  • Nechť B představuje důkaz pozitivního výsledku testu.
  • Nechť \ neg B představuje důkaz negativního výsledku testu.

Pokud jde o skutečně pozitivní, falešně pozitivní, falešně negativní a skutečně negativní:

  • Falešně pozitivní je pravděpodobnost P, že \ neg A (Pacient nemá nemoc), pak B (Pacient má pozitivní test na onemocnění), také vyjádřeno jako P (\ neg A | B)
  • Falešně negativní je pravděpodobnost P, že A (Pacient má nemoc), pak \ neg B (Pacient má negativní test na nemoc) také vyjádřeno jako P (A | \ neg B)
  • Skutečně pozitivní je pravděpodobnost P, že A (Pacient má nemoc), pak B (Pacient má pozitivní test na onemocnění), také vyjádřeno jako P (A | B)
  • Skutečně negativní je pravděpodobnost P, že \ neg A (Pacient nemá nemoc), pak \ neg B (Pacient má negativní test na nemoc) také vyjádřený jako P (\ neg A | \ neg B)

Falešné pozitivy

Můžeme použít Bayesovu větu k určení pravděpodobnosti, že pozitivní výsledek je ve skutečnosti falešně pozitivní. Zjistili jsme, že pokud je onemocnění vzácné, pak většina pozitivních výsledků může být falešně pozitivní, i když je test relativně přesný.

Naivně by si někdo mohl myslet, že pouze 5% pozitivních výsledků testů je falešných, ale to je docela špatné, jak uvidíme.

Předpokládejme, že toto onemocnění má pouze 0,1% populace, takže náhodně vybraný pacient má 0,001 předchozí pravděpodobnost onemocnění.

Můžeme použít Bayesovu větu k výpočtu pravděpodobnosti, že pozitivní výsledek testu bude falešně pozitivní.

a tudíž pravděpodobnost, že pozitivní výsledek je falešně pozitivní, je přibližně 1 - 0,019 = 0,98 nebo 98%.

Navzdory zjevné vysoké přesnosti testu je výskyt onemocnění tak nízký, že drtivá většina pacientů, kteří mají pozitivní test, toto onemocnění nemá. Podíl pacientů s pozitivním testem, kteří mají toto onemocnění (0,019), je nicméně 19krát větší než podíl lidí, kteří test ještě neprovedli, a kteří mají toto onemocnění (0,001). Test tedy není zbytečný a opakované testování může zlepšit spolehlivost výsledku.

Aby se snížil problém falešně pozitivních výsledků, měl by být test velmi přesný při hlášení negativního výsledku, pokud pacient nemá onemocnění. Pokud test vykázal negativní výsledek u pacientů bez onemocnění s pravděpodobností 0,999, pak

takže 1 - 0,5 = 0,5 je nyní pravděpodobnost falešně pozitivního výsledku.

Falešné negativy

Můžeme použít Bayesovu větu k určení pravděpodobnosti, že negativní výsledek je ve skutečnosti falešně negativní pomocí příkladu shora:

Pravděpodobnost, že negativní výsledek bude falešně negativní, je přibližně 0,0000105 nebo 0,00105%. Pokud je onemocnění vzácné, nebudou falešné negativy hlavním problémem testu.

Pokud by však onemocnění mělo 60% populace, pravděpodobnost falešně negativního výsledku by byla větší. S výše uvedeným testem by byla pravděpodobnost falešně negativního výsledku

Pravděpodobnost, že negativní výsledek bude falešně negativní, stoupne na 0,0155 nebo 1,55%.

Skutečná pozitiva

Můžeme použít Bayesovu větu k určení pravděpodobnosti, že pozitivní výsledek je ve skutečnosti skutečně pozitivní, a to pomocí příkladu shora:

  • Pokud má testovaný pacient onemocnění, test vrátí pozitivní výsledek 99% času nebo s pravděpodobností 0,99.
  • Pokud testovaný pacient nemá toto onemocnění, vrátí test pozitivní výsledek 5% času nebo s pravděpodobností 0,05.
  • Předpokládejme, že toto onemocnění má pouze 0,1% populace, takže náhodně vybraný pacient má 0,001 předchozí pravděpodobnost onemocnění.

Nechť A představuje stav, ve kterém má pacient nemoc, a B představuje důkaz pozitivního výsledku testu. Pravděpodobnost, že pacient skutečně trpí onemocněním s pozitivním výsledkem testu, je pak:

Pravděpodobnost, že pozitivní výsledek je skutečně pozitivní, je asi 0,019%

Skutečné negativy

Můžeme také použít Bayesovu větu k výpočtu pravděpodobnosti skutečného záporného výsledku. Pomocí výše uvedených příkladů:

  • Pokud má testovaný pacient onemocnění, test vrátí pozitivní výsledek 99% času nebo s pravděpodobností 0,99.

Pravděpodobnost, že záporný výsledek bude skutečný zápor, je 0,9999494 nebo 99,99%. Jelikož je onemocnění vzácné a poměr pozitivních k pozitivním je vysoký a poměr negativních k negativním je také vysoký, vytvoří se velká míra skutečných negativů.

Měření klasifikátoru s citlivostí a specificitou

Při výcviku klasifikátora si můžete přát měřit jeho výkon pomocí dobře přijímaných metrik citlivosti a specifičnosti. Může být poučné porovnat klasifikátor s náhodným klasifikátorem, který hodí minci na základě prevalence nemoci. Předpokládejme, že pravděpodobnost, že osoba onemocní, je a pravděpodobnost, že ji nemá, je . Předpokládejme tedy, že máme náhodný klasifikátor, který odhaduje, že pacient má onemocnění se stejnou pravděpodobností, a odhaduje, že není se stejnou pravděpodobností .

Pravděpodobnost skutečného pozitivu je pravděpodobnost, že pacient má nemoc, krát pravděpodobnost, že to náhodný klasifikátor správně odhadne, nebo . Při podobném uvažování je pravděpodobnost falešně negativního výsledku . Z výše uvedených definic je citlivost tohoto klasifikátoru . S podobným uvažováním můžeme vypočítat specificitu jako .

I když je samotné opatření nezávislé na prevalenci onemocnění, výkonnost tohoto náhodného klasifikátoru závisí na prevalenci nemoci. Klasifikátor může mít výkon podobný tomuto náhodnému klasifikátoru, ale s lépe váženou mincí (vyšší citlivost a specificita). Tato opatření tedy mohou být ovlivněna prevalencí onemocnění. Alternativním měřítkem výkonu je Matthewsův korelační koeficient , za který každý náhodný klasifikátor získá průměrné skóre 0.

Rozšíření tohoto konceptu na nebinární klasifikace poskytuje matici záměny .

Viz také

Poznámky

Reference