Formát s plovoucí desetinnou čárkou s jednoduchou přesností- Single-precision floating-point format

Formát s plovoucí desetinnou čárkou s jednou přesností (někdy nazývaný FP32 nebo float32 ) je formát počítačového čísla , obvykle zabírá 32 bitů v paměti počítače ; představuje široký dynamický rozsah číselných hodnot pomocí plovoucího bodu radix .

Proměnná s plovoucí desetinnou čárkou může představovat širší rozsah čísel než proměnná s pevným bodem se stejnou šířkou bitu za cenu přesnosti. Podepsal 32-bitové celé číslo proměnná má maximální hodnotu 2 ³¹ - 1 = 2,147,483,647, vzhledem k tomu, IEEE 754 32-bit báze-2 s plovoucí desetinnou čárkou proměnná má maximální hodnotu (2 - 2 ^-23 ) x 2 ¹²⁷ ≈ 3.4028235 × 10 ³⁸ . Všechna celá čísla se 7 nebo méně desetinnými číslicemi a jakákoli 2 ⁿ pro celé číslo −149 ≤ n ≤ 127 lze převést přesně na hodnotu s plovoucí desetinnou čárkou s jednoduchou přesností IEEE 754.

Ve standardu IEEE 754-2008 je 32bitový formát base-2 oficiálně označován jako binary32 ; v IEEE 754-1985 se tomu říkalo single . IEEE 754 specifikuje další typy s plovoucí desetinnou čárkou, například 64bitovou dvojitou přesnost base-2 a v poslední době reprezentace base-10.

Jedním z prvních programovacích jazyků, které poskytovaly datové typy s plovoucí desetinnou čárkou s jednoduchou a dvojitou přesností, byl Fortran . Před širokým přijetím IEEE 754-1985, reprezentace a vlastnosti datových typů s plovoucí desetinnou čárkou závisely na výrobci počítače a počítačovém modelu a na rozhodnutích návrhářů programovacího jazyka. Například datový typ s jednou přesností GW-BASIC byl 32bitový formát MBF s plovoucí desetinnou čárkou.

Jedna přesnost se ve Fortranu nazývá REAL , SINGLE-FLOAT v Common Lisp , float v C , C ++ , C# , Java , Float v Haskell a Swift a Single in Object Pascal ( Delphi ), Visual Basic a MATLAB . Nicméně, float v Python , Ruby , PHP a OCaml a jediná ve verzích Octave před 3,2 odkazují na dvojitou přesností čísla. Ve většině implementací PostScriptu a některých vestavěných systémů je jediná podporovaná přesnost jednoduchá.

IEEE 754 binární formát s plovoucí desetinnou čárkou s jednoduchou přesností: binary32

Standard IEEE 754 specifikuje binary32 jako mající:

Signální bit : 1 bit
Šířka exponentu : 8 bitů
Významná přesnost : 24 bitů (23 explicitně uloženo)

To dává přesnost od 6 do 9 platných desetinných číslic . Pokud je desetinný řetězec s nejvýše 6 platnými číslicemi převeden na reprezentaci s jednoduchou přesností IEEE 754 a poté převeden zpět na desetinný řetězec se stejným počtem číslic, konečný výsledek by měl odpovídat původnímu řetězci. Pokud je číslo IEEE 754 s jednoduchou přesností převedeno na desetinný řetězec s alespoň 9 platnými číslicemi a poté převedeno zpět na reprezentaci s jednoduchou přesností, konečný výsledek se musí shodovat s původním číslem.

Znaménkový bit určuje znaménko čísla, které je také znaménkem významu. Exponent je 8bitové celé číslo bez znaménka od 0 do 255, v předpojatém tvaru : hodnota exponentu 127 představuje skutečnou nulu. Exponenty se pohybují od −126 do +127, protože exponenty −127 (všechny 0 s) a +128 (všechny 1 s) jsou vyhrazeny pro speciální čísla.

Skutečný význam zahrnuje 23 zlomkových bitů napravo od binárního bodu a implicitní úvodní bit (nalevo od binárního bodu) s hodnotou 1, pokud není exponent uložen se všemi nulami. V paměťovém formátu se tedy objeví pouze 23 zlomkových bitů významu , ale celková přesnost je 24 bitů (ekvivalent log ₁₀ (2 ²⁴ ) ≈ 7,225 desetinných číslic). Bity jsou rozloženy následovně:

Skutečná hodnota předpokládaná danými 32bitovými binárními daty 32 s daným znaménkem , zkresleným exponentem e (8bitové celé číslo bez znaménka) a 23bitovým zlomkem je

{\ Displaystyle (-1)^{b_ {31}} \ times 2^{(b_ {30} b_ {29} \ dots b_ {23}) _ {2} -127} \ times (1.b_ {22 } b_ {21} \ tečky b_ {0}) _ {2}}

,

který přináší

{\ displaystyle {\ text {value}} = (-1)^{\ text {sign}} \ times 2^{(E-127)} \ times \ left (1+ \ sum _ {i = 1}^ {23} b_ {23-i} 2^{-i} \ right).}

V tomto příkladu:

${\ displaystyle {\ text {sign}} = b_ {31} = 0}$ ,
${\ Displaystyle (-1)^{\ text {sign}} = (-1)^{0} =+1 \ in \ {-1,+1 \}}$ ,
${\ Displaystyle E = b_ {30} b_ {29} \ dots b_ {23} = \ sum _ {i = 0}^{7} b_ {23+i} 2^{+i} = 124 \ in \ { 1, \ ldots, (2^{8} -1) -1 \} = \ {1, \ ldots, 254 \}}$ ,
${\ Displaystyle 2^{(E-127)} = 2^{124-127} = 2^{-3} \ in \ {2^{-126}, \ ldots, 2^{127} \}}$ ,
${\ Displaystyle 1.b_ {22} b_ {21} ... b_ {0} = 1+\ sum _ {i = 1}^{23} b_ {23-i} 2^{-i} = 1+ 1 \ cdot 2^{-2} = 1,25 \ in \ {1,1+2^{-23}, \ ldots, 2-2^{-23} \} \ podmnožina [1; 2-2^{- 23}] \ podmnožina [1; 2)}$ .

tím pádem:

${\ displaystyle {\ text {value}} = (+1) \ times 2^{-3} \ times 1,25 =+0,15625}$ .

Poznámka:

${\ Displaystyle 1+2^{-23} \ cca 1 000 \, 000 \, 119}$ ,
${\ Displaystyle 2-2^{-23} \ cca 1,999 \, 999 \, 881}$ ,
${\ Displaystyle 2^{-126} \ cca 1,175 \, 494 \, 35 \ times 10^{-38}}$ ,
${\ Displaystyle 2^{+127} \ cca 1,701 \, 411 \, 83 \ krát 10^{+38}}$ .

Kódování exponentů

Jednosměrný binární exponent s plovoucí desetinnou čárkou je kódován pomocí offset-binární reprezentace, přičemž nulový offset je 127; také známý jako zkreslení exponentu ve standardu IEEE 754.

E _min = 01 _H -7F _H = -126
E _max = FE _H -7F _H = 127
Zkreslení exponentu = 7F _H = 127

Aby se tedy získal skutečný exponent definovaný ofsetovou binární reprezentací, musí být offset 127 odečten od uloženého exponentu.

Uložené exponenty 00 _H a FF _H jsou interpretovány speciálně.

Exponent	zlomek = 0	zlomek ≠ 0	Rovnice
00 _H = 00000000 ₂	± nula	podnormální číslo	${\ Displaystyle (-1)^{sign} \ times 2^{-126} \ times 0.fraction}$
01 _H , ..., FE _H = 00000001 ₂ , ..., 11111110 ₂	normální hodnota		${\ Displaystyle (-1)^{sign} \ times 2^{exponent-127} \ times 1.fraction}$
FF _H = 11111111 ₂	± nekonečno	NaN (tichý, signalizace)

Minimální kladná normální hodnota je a minimální kladná (subnormální) hodnota je . ${\ Displaystyle 2^{-126} \ cca 1,18 \ krát 10^{-38}}$ ${\ Displaystyle 2^{-149} \ cca 1,4 \ krát 10^{-45}}$

Převod z desítkové reprezentace na formát binary32

Obecně platí, že striktní převod (včetně chování zaokrouhlování) skutečného čísla do ekvivalentního formátu binary32 naleznete v samotném standardu IEEE 754.

Zde můžeme ukázat, jak převést reálné číslo na bázi 10 na formát IEEE 754 binary32 pomocí následující osnovy:

Zvažte skutečné číslo s celým číslem a zlomkovou částí, například 12,375
Převést a normalizovat celočíselnou část na binární
Převeďte zlomkovou část pomocí následující techniky, jak je znázorněno zde
Přidejte dva výsledky a upravte je tak, abyste získali správnou konečnou konverzi

Převod zlomkové části: Uvažujte 0,375, zlomková část 12,375. Chcete -li jej převést na binární zlomek, vynásobte zlomek 2, vezměte celočíselnou část a opakujte s novým zlomkem 2, dokud nenajdete zlomek nuly nebo dokud nedosáhnete limitu přesnosti, což je 23 zlomků číslic pro formát IEEE 754 binary32 .

{\ displaystyle 0,375 \ times 2 = 0,750 = 0+0,750 \ Rightarrow b _ {-1} = 0}

, celočíselná část představuje binární zlomkovou číslici. Pokračujte opakováním 0,750 o 2

{\ Displaystyle 0,750 \ times 2 = 1,500 = 1+0,500 \ Rightarrow b _ {-2} = 1}

{\ displaystyle 0,500 \ times 2 = 1.000 = 1+0,000 \ Rightarrow b _ {-3} = 1}

, zlomek = 0,011, ukončit

Vidíme, že to lze přesně vyjádřit binárně jako . Ne všechny desetinné zlomky mohou být reprezentovány v binárním zlomku s konečnými číslicemi. Například desetinnou desítku nelze přesně vyjádřit binárně, pouze aproximovat. Proto: ${\ displaystyle (0,375) _ {10}}$ ${\ displaystyle (0,011) _ {2}}$

{\ Displaystyle (12,375) _ {10} = (12) _ {10}+(0,375) _ {10} = (1100) _ {2}+(0,011) _ {2} = (1100,011) _ {2} }

Protože formát IEEE 754 binary32 vyžaduje, aby ve formátu byly zobrazeny skutečné hodnoty (viz Normalizované číslo , Denormalizované číslo ), 1100.011 se posune doprava o 3 číslice, aby se stal ${\ Displaystyle (1.x_ {1} x_ {2} ... x_ {23}) _ {2} \ times 2^{e}}$ ${\ displaystyle (1.100011) _ {2} \ times 2^{3}}$

Konečně vidíme, že: ${\ Displaystyle (12.375) _ {10} = (1.100011) _ {2} \ times 2^{3}}$

Z čehož usuzujeme:

Exponent je 3 (a ve zkreslené podobě je proto ) ${\ displaystyle 130 = 1000 \ 0010}$
Zlomek je 100011 (při pohledu napravo od binárního bodu)

Z nich můžeme vytvořit výslednou 32bitovou reprezentaci formátu binárního souboru IEEE 754 v binárním formátu 12,375:

{\ Displaystyle (12.375) _ {10} = (0 \ 10000010 \ 1000110000000000000000000) _ {2} = (41460000) _ {16}}

Poznámka: zvažte převod 68.123 do formátu IEEE 754 binary32: Pomocí výše uvedeného postupu očekáváte, že poslední 4 bity budou 1001. Vzhledem k výchozímu chování zaokrouhlování formátu IEEE 754 však získáte , jehož poslední 4 bity jsou 1010. ${\ displaystyle ({\ text {42883EF9}}) _ {16}}$ ${\ displaystyle ({\ text {42883EFA}}) _ {16}}$

Příklad 1: Uvažujme desítkové číslo 1. Vidíme, že: ${\ displaystyle (1) _ {10} = (1,0) _ {2} \ times 2^{0}}$

Z čehož usuzujeme:

Exponent je 0 (a ve zkreslené podobě je proto ) ${\ Displaystyle 127 = 0111 \ 1111}$
Zlomek je 0 (při pohledu napravo od binárního bodu v 1.0 je vše ) ${\ displaystyle 0 = 000 ... 0}$

Z nich můžeme vytvořit výslednou 32bitovou reprezentaci skutečného čísla 1 v binárním formátu IEEE 754:

{\ displaystyle (1) _ {10} = (0 \ 01111111 \ 0000000000000000000000000) _ {2} = ({\ text {3F800000}}) _ {16}}

Příklad 2: Uvažujte hodnotu 0,25. Můžeme vidět, že: ${\ Displaystyle (0.25) _ {10} = (1.0) _ {2} \ times 2^{-2}}$

Z čehož usuzujeme:

Exponent je −2 (a ve zkreslené podobě je ) ${\ Displaystyle (127+(-2)) _ {10} = (125) _ {10} = (0111 \ 1101) _ {2}}$
Zlomek je 0 (při pohledu napravo od binárního bodu v 1.0 jsou všechny nuly)

Z nich můžeme vytvořit výslednou 32bitovou reprezentaci formátu binárního souboru IEEE 754 v binárním formátu reálného čísla 0,25:

{\ displaystyle (0.25) _ {10} = (0 \ 01111101 \ 0000000000000000000000000) _ {2} = ({\ text {3E800000}}) _ {16}}

Příklad 3: Uvažujte hodnotu 0,375. Viděli jsme to ${\ displaystyle 0,375 = {(1.1) _ {2}} \ times 2^{-2}}$

Po stanovení reprezentace 0,375, jak můžeme postupovat výše: ${\ displaystyle {(1.1) _ {2}} \ times 2^{-2}}$

Exponent je −2 (a ve zkreslené podobě je ) ${\ Displaystyle (127+(-2)) _ {10} = (125) _ {10} = (0111 \ 1101) _ {2}}$
Zlomek je 1 (při pohledu napravo od binárního bodu v 1.1 je jediný ) ${\ displaystyle 1 = x_ {1}}$

Z nich můžeme vytvořit výslednou 32bitovou reprezentaci formátu binárního souboru IEEE 754 v binárním formátu reálného čísla 0,375:

{\ Displaystyle (0,375) _ {10} = (0 \ 01111101 \ 100000000000000000000000000) _ {2} = ({\ text {3EC00000}}) _ {16}}

Příklady s jednou přesností

Tyto příklady jsou uvedeny v bitové reprezentaci hodnoty s plovoucí desetinnou čárkou , v hexadecimálním a binárním formátu. To zahrnuje znaménko, (zkreslený) exponent a význam.

0 00000000 00000000000000000000001₂ = 0000 0001₁₆ = 2⁻¹²⁶ × 2⁻²³ = 2⁻¹⁴⁹ ≈ 1.4012984643 × 10⁻⁴⁵
                                                   (smallest positive subnormal number)

0 00000000 11111111111111111111111₂ = 007f ffff₁₆ = 2⁻¹²⁶ × (1 − 2⁻²³) ≈ 1.1754942107 ×10⁻³⁸
                                                   (largest subnormal number)

0 00000001 00000000000000000000000₂ = 0080 0000₁₆ = 2⁻¹²⁶ ≈ 1.1754943508 × 10⁻³⁸
                                                   (smallest positive normal number)

0 11111110 11111111111111111111111₂ = 7f7f ffff₁₆ = 2¹²⁷ × (2 − 2⁻²³) ≈ 3.4028234664 × 10³⁸
                                                   (largest normal number)

0 01111110 11111111111111111111111₂ = 3f7f ffff₁₆ = 1 − 2⁻²⁴ ≈ 0.999999940395355225
                                                   (largest number less than one)

0 01111111 00000000000000000000000₂ = 3f80 0000₁₆ = 1 (one)

0 01111111 00000000000000000000001₂ = 3f80 0001₁₆ = 1 + 2⁻²³ ≈ 1.00000011920928955
                                                   (smallest number larger than one)

1 10000000 00000000000000000000000₂ = c000 0000₁₆ = −2
0 00000000 00000000000000000000000₂ = 0000 0000₁₆ = 0
1 00000000 00000000000000000000000₂ = 8000 0000₁₆ = −0
                                   
0 11111111 00000000000000000000000₂ = 7f80 0000₁₆ = infinity
1 11111111 00000000000000000000000₂ = ff80 0000₁₆ = −infinity
                                   
0 10000000 10010010000111111011011₂ = 4049 0fdb₁₆ ≈ 3.14159274101257324 ≈ π ( pi )
0 01111101 01010101010101010101011₂ = 3eaa aaab₁₆ ≈ 0.333333343267440796 ≈ 1/3
                                   
x 11111111 10000000000000000000001₂ = ffc0 0001₁₆ = qNaN (on x86 and ARM processors)
x 11111111 00000000000000000000001₂ = ff80 0001₁₆ = sNaN (on x86 and ARM processors)

Ve výchozím nastavení se 1/3 zaokrouhluje nahoru, místo dolů jako dvojitá přesnost , kvůli sudému počtu bitů v mantinelu. Bity 1/3 za bodem zaokrouhlení jsou, 1010...což je více než 1/2 jednotky na posledním místě .

Kódování qNaN a sNaN nejsou v IEEE 754 specifikována a implementována odlišně na různých procesorech. Rodina x86 a procesory řady ARM používají nejvýznamnější bit pole Význam k označení tichého NaN. Tyto PA-RISC procesory používají bit pro indikaci signalizační Nan.

Převod binárních dat s jednoduchou přesností na desítkové

Začneme hexadecimálním vyjádřením hodnoty 41C80000 v tomto příkladu a převedeme ji na binární:

{\ displaystyle {\ text {41C8 0000}} _ {16} = 0100 \ 0001 \ 1100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2}}

pak to rozdělíme na tři části: znaménkový bit, exponent a význam.

Podpisový bit: ${\ displaystyle 0_ {2}}$
Exponent: ${\ displaystyle 1000 \ 0011_ {2} = 83_ {16} = 131_ {10}}$
Význam: ${\ Displaystyle 100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2} = 480000_ {16}}$

Potom přidáme implicitní 24. bit k významu:

Význam: ${\ Displaystyle \ mathbf {1} 100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2} = {\ text {C80000}} _ {16}}$

a dekódovat hodnotu exponentu odečtením 127:

Surový exponent: ${\ displaystyle 83_ {16} = 131_ {10}}$
Dekódovaný exponent: ${\ displaystyle 131-127 = 4}$

Každý z 24 bitů významu (včetně implicitního 24. bitu), bit 23 až bit 0, představuje hodnotu začínající na 1 a polovinu pro každý bit následujícím způsobem:

bit 23 = 1
bit 22 = 0.5
bit 21 = 0.25
bit 20 = 0.125
bit 19 = 0.0625
bit 18 = 0.03125
.
.
bit 0 = 0.00000011920928955078125

Význam v tomto příkladu má tři sady bitů: bit 23, bit 22 a bit 19. Nyní můžeme dekódovat význam přidáním hodnot reprezentovaných těmito bity.

Dekódovaný význam: ${\ Displaystyle 1+0,5+0,0625 = 1,5625 = {\ text {C80000}}/2^{23}}$

Potom potřebujeme znásobit základnu 2 na mocninu exponentu, abychom získali konečný výsledek:

{\ displaystyle 1,5625 \ times 2^{4} = 25}

Tím pádem

{\ displaystyle {\ text {41C8 0000}} = 25}

To je ekvivalentní:

{\ Displaystyle n = (-1)^{s} \ times (1+m*2^{-23}) \ times 2^{x-127}}

kde $s$ je znaménkový bit, $x$ je exponent a $m$ je význam.

Přesná omezení desetinných hodnot v [1, 16777216]

^Desetinná čísla mezi 1 a 2: pevný interval 2 ⁻²³ (1+2 ⁻²³ je další největší float po 1)
Desetinná čísla mezi 2 a 4: pevný interval 2 ⁻²²
Desetinná čísla mezi 4 a 8: pevný interval 2 ⁻²¹
...
Desetinná čísla mezi 2 ⁿ a 2 ⁿ⁺¹ : pevný interval 2 ^n-23
...
Desetinná čísla mezi 2 ²² = 4194304 a 2 ²³ = 8388608: pevný interval 2 ⁻¹ = 0,5
Desetinná čísla mezi 2 ²³ = 8388608 a 2 ²⁴ = 16777216: pevný interval 2 ⁰ = 1

Přesná omezení celočíselných hodnot

Lze přesně reprezentovat celá čísla mezi 0 a 16777216 (platí také pro záporná celá čísla mezi −16777216 a 0)
Celá čísla mezi 2 ²⁴ = 16777216 a 2 ²⁵ = 33554432 zaokrouhlená na násobek 2 (sudé číslo)
Celá čísla mezi 2 ²⁵ a 2 ²⁶ zaokrouhlená na násobek 4
...
Celá čísla mezi 2 ⁿ a 2 ⁿ⁺¹ kolo na násobek 2 ^n-23
...
Celá čísla mezi 2 ¹²⁷ a 2 ¹²⁸ zaokrouhlují na násobek 2 ¹⁰⁴
Celá čísla větší nebo rovna 2 ¹²⁸ jsou zaokrouhlena na „nekonečno“.

Optimalizace

Konstrukce formátu s plovoucí desetinnou čárkou umožňuje různé optimalizace, vyplývající ze snadného generování aproximace logaritmu báze 2 z celočíselného pohledu na surový bitový vzor. Celočíselná aritmetika a přesouvání bitů může přinést přiblížení k reciproční odmocnině ( rychlá inverzní odmocnina ), běžně vyžadované v počítačové grafice .

Viz také

Standard IEEE pro aritmetiku s pohyblivou řádovou čárkou (IEEE 754)
ISO/IEC 10967 , jazykově nezávislá aritmetika
Primitivní datový typ
Numerická stabilita

Languages

In other projects

Formát s plovoucí desetinnou čárkou s jednoduchou přesností- Single-precision floating-point format

Obsah

IEEE 754 binární formát s plovoucí desetinnou čárkou s jednoduchou přesností: binary32

Kódování exponentů

Převod z desítkové reprezentace na formát binary32

Příklady s jednou přesností

Převod binárních dat s jednoduchou přesností na desítkové

Přesná omezení desetinných hodnot v [1, 16777216]

Přesná omezení celočíselných hodnot

Optimalizace

Viz také

Reference

externí odkazy