PDF - PDF

Přenosný formát dokumentu
Ikona Adobe-PDF
Ikona Adobe PDF
Adobe PDF.svg
Přípona názvu souboru .pdf
Typ internetového média
Zadejte kód PDF (včetně jednoho místa)
Jednotný identifikátor typu (UTI) com.adobe.pdf
Kouzelné číslo %PDF
Vyvinutý Adobe Inc. (1991–2008)
ISO (2008–)
První vydání 15. června 1993 ; Před 28 lety ( 1993-06-15 )
Poslední vydání
2.0
Rozšířeno na PDF/A , PDF/E , PDF/UA , PDF/VT , PDF/X
Standard ISO 32000-2
Otevřený formát ? Ano
webová stránka www .iso .org /standard /75839 .html

Portable Document Format ( PDF ), standardizovaný jako ISO 32000 , je formát souboru vyvinutý společností Adobe v roce 1992 k prezentaci dokumentů , včetně formátování textu a obrázků, způsobem nezávislým na aplikačním softwaru , hardwaru a operačních systémech . Na základě jazyka PostScript každý soubor PDF zapouzdřuje úplný popis plochého dokumentu s pevným rozvržením, včetně textu, písem , vektorové grafiky , rastrových obrázkůa další informace potřebné k jeho zobrazení. PDF má své kořeny v „The Camelot Project“ iniciovaném spoluzakladatelem Adobe Johnem Warnockem v roce 1991.

PDF byl standardizován jako ISO 32000 v roce 2008. Poslední vydání jako ISO 32000-2: 2020 bylo zveřejněno v prosinci 2020.

Soubory PDF mohou kromě plochého textu a grafiky obsahovat i další obsah, včetně prvků logické strukturace, interaktivních prvků, jako jsou anotace a pole formuláře, vrstvy, multimediální soubory (včetně video obsahu), trojrozměrné objekty využívající U3D nebo PRC a různé další datové formáty. Specifikace PDF také umožňuje šifrování a digitální podpisy , přílohy souborů a metadata, což umožňuje pracovní toky vyžadující tyto funkce.

Dějiny

Adobe Systems udělal specifikace PDF zdarma k dispozici v roce 1993. V prvních letech PDF byl populární hlavně v DTP pracovních postupů , a soutěžil s řadou formátů, jako DjVu , Envoy nesporné, digitální knihy, Farallon Replika a dokonce Adobe vlastní Formát PostScript .

PDF byl proprietární formát kontrolovaný společností Adobe, dokud nebyl vydán jako otevřený standard 1. července 2008, a publikoval Mezinárodní organizace pro normalizaci jako ISO 32000-1: 2008, kdy kontrola specifikace přešla na výbor ISO odborníků z dobrovolnického průmyslu. V roce 2008 společnost Adobe zveřejnila veřejnou patentovou licenci podle normy ISO 32000-1, která uděluje bezplatná práva pro všechny patenty vlastněné společností Adobe, které jsou nezbytné k výrobě, používání, prodeji a distribuci implementací kompatibilních s formátem PDF.

PDF 1.7, šesté vydání specifikace PDF, která se stala ISO 32000-1, obsahuje některé proprietární technologie definované pouze společností Adobe, například Adobe XML Forms Architecture (XFA) a JavaScript rozšíření pro Acrobat, na které ISO 32000-1 odkazuje jako na normativní a nepostradatelné pro úplnou implementaci specifikace ISO 32000-1. Tyto patentované technologie nejsou standardizované a jejich specifikace je zveřejněna pouze na webových stránkách společnosti Adobe. Mnoho z nich také není podporováno populárními implementacemi PDF od třetích stran.

V prosinci 2020 bylo vydáno druhé vydání PDF 2.0, ISO 32000-2: 2020, včetně objasnění, oprav a kritických aktualizací normativních odkazů. ISO 32000-2 nezahrnuje žádné patentované technologie jako normativní odkazy.

Technické údaje

Soubor PDF je často kombinací vektorové grafiky , textu a bitmapové grafiky . Základní typy obsahu v PDF jsou:

  • Text uložený jako toky obsahu (tj. Nekódovaný ve formátu prostého textu );
  • Vektorová grafika pro ilustrace a návrhy, které se skládají z tvarů a čar;
  • Rastrová grafika pro fotografie a jiné typy obrázků
  • Multimediální objekty v dokumentu.

V pozdějších revizích PDF může dokument PDF také podporovat odkazy (uvnitř dokumentu nebo webové stránky), formuláře, JavaScript (původně k dispozici jako plugin pro Acrobat 3.0) nebo jakýkoli jiný typ vloženého obsahu, který lze zpracovat pomocí zásuvných modulů.

PDF kombinuje tři technologie:

  • Podmnožina programovacího jazyka popisu stránky PostScript pro generování rozvržení a grafiky.
  • Systém pro vkládání /nahrazování písem, který umožňuje cestování písem s dokumenty.
  • Strukturovaný úložný systém, který spojuje tyto prvky a veškerý související obsah do jednoho souboru, případně s kompresí dat .

Jazyk PostScript

PostScript je jazyk popisu stránky, který se spouští v překladači ke generování obrázku, což je proces vyžadující mnoho zdrojů. Dokáže zpracovat grafiku a standardní funkce programovacích jazyků, jako jsou ifpříkazy a looppříkazy. PDF je z velké části založen na PostScriptu, ale je zjednodušen, aby se odstranily funkce řízení toku, jako jsou tyto, zatímco grafické příkazy jako linetozůstávají.

Často je kód PDF podobný PostScriptu generován ze zdrojového souboru PostScript. Shromažďují se a tokenizují grafické příkazy, které jsou generovány pomocí kódu PostScript . Shromažďují se také všechny soubory, grafika nebo písma, na která se dokument vztahuje. Poté je vše komprimováno do jednoho souboru. Celý svět PostScriptu (písma, rozložení, měření) proto zůstává nedotčen.

Jako formát dokumentu má PDF oproti PostScriptu několik výhod:

  • PDF obsahuje tokenizované a interpretované výsledky zdrojového kódu PostScript pro přímou korespondenci mezi změnami položek v popisu stránky PDF a změnami výsledného vzhledu stránky.
  • PDF (od verze 1.4) podporuje průhlednou grafiku ; PostScript ne.
  • PostScript je interpretovaný programovací jazyk s implicitním globálním stavem, takže pokyny doprovázející popis jedné stránky mohou ovlivnit vzhled jakékoli následující stránky. Proto musí být všechny předchozí stránky v dokumentu PostScript zpracovány, aby se určil správný vzhled dané stránky, zatímco každá stránka v dokumentu PDF není ostatními ovlivněna. Výsledkem je, že prohlížeče PDF umožňují uživateli rychle přeskočit na konečné stránky dlouhého dokumentu, zatímco prohlížeč PostScript musí zpracovat všechny stránky postupně, než bude moci zobrazit cílovou stránku (pokud nebyly pečlivě zvoleny volitelné konvence strukturování dokumentu PostScript sestaven a zahrnut).

PDF 1.6 podporuje interaktivní 3D dokumenty vložené do souboru PDF: 3D kresby lze vkládat pomocí U3D nebo PRC a různých dalších datových formátů.

Formát souboru

Soubor PDF obsahuje 7bitové znaky ASCII , s výjimkou určitých prvků, které mohou mít binární obsah. Soubor začíná záhlavím obsahujícím například magické číslo (jako čitelný řetězec) a verzi formátu %PDF-1.7. Formát je podmnožinou formátu COS ("Carousel" Object Structure). Stromový soubor COS se skládá převážně z objektů , kterých je devět typů:

  • Booleovské hodnoty představující true nebo false
  • Skutečná čísla
  • Celá čísla
  • Řetězce , uzavřené v závorkách ( (...)). Řetězce mohou obsahovat 8bitové znaky.
  • Jména, začínající lomítkem ( /)
  • Pole , seřazené kolekce objektů uzavřených do hranatých závorek ( [...])
  • Slovníky , kolekce objektů indexovaných názvy uzavřenými v závorkách s dvojitým úhlem ( <<...>>)
  • Datové proudy , obvykle obsahující velké množství volitelně komprimovaných binárních dat, jimž předchází slovník a jsou uzavřeny mezi klíčová slova streama endstream.
  • Null objekt

Kromě toho mohou existovat komentáře zavedené znakem procenta ( %). Komentáře mohou obsahovat 8bitové znaky.

Objekty mohou být buď přímé (vložené do jiného objektu), nebo nepřímé . Nepřímé objekty jsou očíslovány číslem objektu a generačním číslem a definovány mezi klíčovými slovy obja, endobjpokud jsou umístěny v kořenovém adresáři dokumentu. Počínaje verzí PDF 1.5 mohou být nepřímé objekty (kromě jiných proudů) také umístěny ve speciálních proudech známých jako proud objektů (označeny /Type /ObjStm). Tato technika umožňuje objektům bez proudu použít standardní filtry streamů, zmenšuje velikost souborů s velkým počtem malých nepřímých objektů a je zvláště užitečná pro tagované PDF . Datové toky objektů nepodporují zadávání čísla generování objektu (jiné než 0).

Tabulka indexů, nazývaná také tabulka křížových odkazů, se nachází blízko konce souboru a udává posun bajtů každého nepřímého objektu od začátku souboru. Tento design umožňuje efektivní náhodný přístup k objektům v souboru a také umožňuje provádět malé změny bez přepisování celého souboru ( přírůstková aktualizace ). Před verzí PDF 1.5 byla tabulka vždy ve speciálním formátu ASCII, označena xrefklíčovým slovem a sledovala hlavní část složenou z nepřímých objektů. Verze 1.5 představila volitelné toky křížových odkazů , které mají formu standardního objektu streamu, případně s aplikovanými filtry. Takový stream lze použít místo tabulky křížových odkazů ASCII a obsahuje offsety a další informace v binárním formátu. Formát je flexibilní v tom, že umožňuje specifikaci šířky celého čísla (pomocí /Wpole), takže například dokument nepřesahující velikost 64  KiB může vyhradit pouze 2 bajty pro odsazení objektů.

Na konci souboru PDF je zápatí obsahující:

  • Za startxrefklíčovým slovem následuje posun na začátek tabulky křížových odkazů (počínaje xrefklíčovým slovem) nebo objektu streamu křížové reference, za kterým následuje
  • Značka %%EOF konce souboru .

Pokud proud křížových odkazů není používán, zápatí předchází trailerklíčové slovo následované slovníkem obsahujícím informace, které by jinak byly obsaženy ve slovníku objektu proudu křížového odkazu:

  • Odkaz na kořenový objekt stromové struktury, známý také jako catalog ( /Root)
  • Počet nepřímých objektů v tabulce křížových odkazů ( /Size)
  • Další volitelné informace

Soubory PDF mají dvě rozvržení: nelineární (nikoli „optimalizované“) a linearizované („optimalizované“). Nelineární soubory PDF mohou být menší než jejich lineární protějšky, i když k nim je přístup pomalejší, protože části dat potřebných k sestavení stránek dokumentu jsou roztroušeny po celém souboru PDF. Linearizované soubory PDF (nazývané také „optimalizované“ nebo „optimalizované pro web“ soubory PDF) jsou konstruovány způsobem, který jim umožňuje čtení v pluginu webového prohlížeče bez čekání na stažení celého souboru, protože všechny objekty nutné pro první stránku k zobrazení jsou optimálně uspořádány na začátku souboru. Soubory PDF lze optimalizovat pomocí softwaru Adobe Acrobat nebo QPDF .

Zobrazovací model

Základní návrh, jak jsou obrázky v PDF reprezentovány, je velmi podobný tomu v PostScriptu , s výjimkou použití průhlednosti , která byla přidána v PDF 1.4.

Grafika PDF používá k popisu povrchu stránky kartézský souřadnicový systém nezávislý na zařízení . Popis PDF stránka může použít matice na stupnici , otáčejí , nebo šikmých grafickými prvky. Klíčovým konceptem v PDF je stav grafiky , což je kolekce grafických parametrů, které lze měnit, ukládat a obnovovat pomocí popisu stránky . PDF má (od verze 2.0) 25 vlastností grafického stavu, z nichž některé z nejdůležitějších jsou:

Vektorová grafika

Stejně jako v PostScriptu je vektorová grafika v PDF konstruována s cestami . Cesty se obvykle skládají z čar a krychlových Bézierových křivek , ale lze je také sestrojit z obrysů textu. Na rozdíl od PostScriptu PDF neumožňuje jedinou cestu pro míchání obrysů textu s čarami a křivkami. Cesty lze hladit, vyplňovat, vyplňovat a pak je hladit nebo je lze použít k oříznutí . Tahy a výplně mohou používat libovolnou sadu barev v grafickém stavu, včetně vzorů . PDF podporuje několik typů vzorů. Nejjednodušší je obkladový vzor, ve kterém je umělecké dílo určeno k opakovanému kreslení. Může to být barevný obkladový vzor s barvami specifikovanými v objektu vzoru nebo nebarevný obkladový vzor , který odchyluje specifikaci barev do doby kreslení vzoru. Počínaje PDF 1.3 existuje také stínovací vzor , který kreslí průběžně se měnící barvy. Existuje sedm typů stínovacích vzorů, z nichž nejjednodušší jsou axiální stínování (typ 2) a radiální stínování (typ 3).

Rastrové obrázky

Rastrové obrázky v PDF (nazývané Image XObjects ) jsou reprezentovány slovníky s přidruženým streamem. Slovník popisuje vlastnosti obrázku a datový proud obsahuje obrazová data. (Méně často mohou být malé rastrové obrázky vloženy přímo do popisu stránky jako vložený obrázek .) Obrázky jsou obvykle filtrovány pro účely komprese. Obrazové filtry podporované v PDF zahrnují následující obecné filtry:

  • ASCII85Decode , filtr používaný k vložení streamu do 7bitového ASCII ,
  • ASCIIHexDecode , podobný ASCII85Decode, ale méně kompaktní,
  • FlateDecode , běžně používaný filtr založený na algoritmu deflace definovaném v RFC  1951 (deflate se mimo jiné používá také ve formátech souborů gzip , PNG a zip ); zavedeno v PDF 1.2; může použít jednu ze dvou skupin prediktorových funkcí pro kompaktnější zlib/deflační kompresi: Predictor 2 ze specifikace TIFF 6.0 a prediktory (filtry) ze specifikace PNG ( RFC  2083 ),
  • LZWDecode , filtr založený na kompresi LZW ; pro kompaktnější kompresi LZW může používat jednu ze dvou skupin prediktorových funkcí: Predictor 2 ze specifikace TIFF 6.0 a prediktory (filtry) ze specifikace PNG,
  • RunLengthDecode , jednoduchá metoda komprese pro toky s opakujícími se daty pomocí algoritmu kódování běhu a filtrů specifických pro obrázky,
  • DCTDecode , ztrátový filtr založený na standardu JPEG ,
  • CCITTFaxDecode , bezztrátový dvouúrovňový (černobílý) filtr založený na standardu komprese faxu skupiny 3 nebo skupiny 4 CCITT (ITU-T) definovaném v ITU-T T.4 a T.6,
  • JBIG2Decode , ztrátový nebo bezeztrátový dvouúrovňový (černobílý) filtr založený na standardu JBIG2 , zavedený v PDF 1.4, a
  • JPXDecode , ztrátový nebo bezeztrátový filtr založený na standardu JPEG 2000 , zavedený v PDF 1.5.

Do souboru je obvykle vložen veškerý obsah obrázku v PDF. PDF však umožňuje ukládání obrazových dat do externích souborů pomocí externích streamů nebo alternativních obrázků . Standardizované podmnožiny PDF, včetně PDF/A a PDF/X , tyto funkce zakazují.

Text

Text v PDF je v proudech obsahu stránky reprezentován textovými prvky . Textový prvek určuje, že znaky by měly být kresleny na určitých pozicích. Znaky jsou specifikovány pomocí kódování vybraného prostředku písma .

Objekt písma v PDF je popis digitálního písma . Může buď popisovat vlastnosti písma, nebo může obsahovat vložený soubor písem . Druhému případu se říká vložené písmo, zatímco prvnímu se říká nezapuštěné písmo . Soubory písem, které mohou být vloženy, jsou založeny na široce používaných standardních formátech digitálních písem: Typ 1 (a jeho komprimovaná varianta CFF), TrueType a (počínaje PDF 1.6) OpenType . PDF navíc podporuje variantu Type 3, ve které jsou komponenty písma popsány grafickými operátory PDF.

Čtrnáct písem, známých jako standardní 14 písem , má v dokumentech PDF zvláštní význam:

  • Times (v3) (in, normal, italic, bold, and bold italic)
  • Kurýr (pravidelným, šikmým, tučným a tučným šikmým)
  • Helvetica (v3) (v pravidelných, šikmých, tučných a tučných šikmých)
  • Symbol
  • Zapf Dingbats

Tato písma se někdy označují jako základní čtrnáct písem . Tato písma nebo vhodná náhradní písma se stejnými metrikami by měla být k dispozici ve většině čteček PDF, ale není zaručeno, že budou ve čtečce k dispozici, a mohou se správně zobrazovat, pouze pokud je má systém nainstalován. Písma lze nahradit, pokud nejsou vložena do PDF.

V textových řetězcích se znaky zobrazují pomocí kódů znaků (celých čísel), které se mapují na glyfy v aktuálním písmu pomocí kódování . Existuje celá řada předdefinovaných kódování, včetně WinAnsi , MacRoman a mnoho kódování pro východoasijské jazyky a písmo může mít svůj vlastní vestavěné kódování. (Ačkoli jsou kódování WinAnsi a MacRoman odvozena z historických vlastností operačních systémů Windows a Macintosh , písma používající tato kódování fungují stejně dobře na jakékoli platformě.) PDF může určit předdefinované kódování, které má být použito, vestavěné kódování písma nebo vyhledávací tabulka rozdílů k předdefinovanému nebo vestavěnému kódování (nedoporučuje se u písem TrueType). Mechanismy kódování v PDF byly navrženy pro písma typu 1 a pravidla pro jejich použití u písem TrueType jsou složitá.

Pro velká písma nebo písma s nestandardními glyfy se používají speciální kódování Identity-H (pro horizontální psaní) a Identity-V (pro vertikální). U takových písem je nutné poskytnout tabulku ToUnicode, pokud mají být zachovány sémantické informace o postavách.

Průhlednost

Původní zobrazovací model PDF byl, stejně jako PostScript, neprůhledný : každý objekt nakreslený na stránce zcela nahradil vše, co bylo dříve označeno na stejném místě. V PDF 1.4 byl zobrazovací model rozšířen, aby umožňoval průhlednost. Když je použita průhlednost, nové objekty interagují s dříve označenými objekty a vytvářejí efekty prolnutí. Přidání průhlednosti do PDF bylo provedeno pomocí nových rozšíření, která byla navržena tak, aby byla ignorována v produktech zapsaných do PDF 1.3 a dřívějších specifikací. V důsledku toho mohou soubory, které používají malé množství průhlednosti, zobrazit přijatelně staršími diváky, ale soubory využívající rozsáhlé využití průhlednosti může starší divák bez varování zobrazit nesprávně.

Rozšíření průhlednosti jsou založena na klíčových konceptech skupin průhlednosti , režimů prolnutí , tvaru a alfa . Model je úzce sladěn s funkcemi aplikace Adobe Illustrator verze 9. Režimy prolnutí byly založeny na režimech, které v té době používal Adobe Photoshop . Když byla publikována specifikace PDF 1.4, byly vzorce pro výpočet režimů prolnutí společností Adobe utajeny. Od té doby byly zveřejněny.

Koncept skupiny průhledností ve specifikaci PDF je nezávislý na stávajících pojmech „skupina“ nebo „vrstva“ v aplikacích, jako je Adobe Illustrator. Tato seskupení odrážejí logické vztahy mezi objekty, které mají smysl při úpravách těchto objektů, ale nejsou součástí zobrazovacího modelu.

Další funkce

Logická struktura a přístupnost

„Označený“ soubor PDF (viz článek 14.8 v ISO 32000) obsahuje informace o struktuře dokumentu a sémantice, aby bylo možné spolehlivě extrahovat text a zpřístupnit jej . Technicky vzato, tagovaný PDF je stylizované použití formátu, který vychází z rámce logické struktury zavedeného v PDF 1.3. Tagged PDF definuje sadu standardních typů struktur a atributů, které umožňují extrahovat a znovu používat obsah stránky (text, grafiku a obrázky) pro jiné účely.

Označený soubor PDF není vyžadován v situacích, kdy je soubor PDF určen pouze pro tisk. Vzhledem k tomu, že tato funkce je volitelná a protože pravidla pro tagované PDF byly v ISO 32000-1 relativně vágní, podpora tagovaných PDF mezi náročnými zařízeními, včetně asistenční technologie (AT), je v tuto chvíli nerovnoměrná. ISO 32000-2 však obsahuje vylepšenou diskusi o tagovaných PDF, u nichž se předpokládá, že usnadní další přijetí.

Podskupina PDF standardizovaná podle ISO, konkrétně zaměřená na přístupnost, PDF/UA , byla poprvé publikována v roce 2012.

Volitelné skupiny obsahu (vrstvy)

Se zavedením verze PDF přišel 1.5 (2003) s konceptem vrstev. Vrstvy, nebo jak jsou formálně známější Volitelné skupiny obsahu (OCG), odkazují na části obsahu v dokumentu PDF, které mohou být selektivně zobrazeny nebo skryty autory dokumentů nebo spotřebiteli. Tato schopnost je užitečná ve výkresech CAD, vrstvených kresbách, mapách, vícejazyčných dokumentech atd.

V zásadě se skládá z volitelného slovníku vlastností obsahu přidaného do kořenového adresáře dokumentu. Tento slovník obsahuje řadu volitelných skupin obsahu (OCG), z nichž každá popisuje sadu informací a každá z nich může být jednotlivě zobrazena nebo potlačena, a dále sadu volitelných slovníků pro konfiguraci obsahu, které udávají stav (zobrazeno nebo potlačeno) dané OCG.

Šifrování a podpisy

Soubor PDF může být z bezpečnostních důvodů šifrován , v takovém případě je k zobrazení nebo úpravě obsahu potřeba heslo. PDF 2.0 definuje 256bitové šifrování AES jako standard pro soubory PDF 2.0. PDF Reference také definuje způsoby, kterými mohou třetí strany definovat své vlastní šifrovací systémy pro PDF.

Soubory PDF mohou být digitálně podepsány, aby zajistily bezpečné ověřování; úplné podrobnosti o implementaci digitálních podpisů v PDF jsou uvedeny v ISO 32000-2.

Soubory PDF mohou také obsahovat vložená omezení DRM, která poskytují další ovládací prvky omezující kopírování, úpravy nebo tisk. Tato omezení závisí na softwaru čtečky, který je bude dodržovat, takže zabezpečení, které poskytují, je omezené.

Standardní zabezpečení poskytované aplikací Acrobat PDF se skládá ze dvou různých metod a dvou různých hesel: uživatelského hesla , které šifruje soubor a brání jeho otevření, a hesla vlastníka , které určuje operace, které by měly být omezeny, i když je dokument dešifrován, což může zahrnovat úpravu, tisk nebo kopírování textu a grafiky z dokumentu nebo přidávání nebo úpravy textových poznámek a polí AcroForm . Uživatelské heslo soubor zašifruje, zatímco heslo vlastníka nikoli, místo toho se při dodržování těchto omezení spoléhá na klientský software. Heslo vlastníka lze snadno odstranit softwarem, včetně některých bezplatných online služeb. Omezení použití, která autor dokumentu klade na dokument PDF, tedy nejsou bezpečná a nelze je zajistit, jakmile bude soubor distribuován; toto varování se zobrazí při použití takových omezení pomocí softwaru Adobe Acrobat k vytváření nebo úpravám souborů PDF.

I bez odstranění hesla většina freewarových nebo open source čteček PDF ignoruje „ochrany“ oprávnění a umožňuje uživateli tisknout nebo kopírovat úryvky textu, jako by dokument nebyl omezen ochranou heslem.

Počínaje verzí PDF 1.5 se podpisy práv na používání (UR) používají k povolení dalších interaktivních funkcí, které ve výchozím nastavení nejsou v konkrétní aplikaci prohlížeče PDF k dispozici. Podpis se používá k ověření, že oprávnění byla udělena úřadem pro udělení dobré víry . Lze jej například použít k povolení uživatele:

  • Uložení dokumentu PDF spolu s upraveným formulářem a/nebo daty anotací
  • Importujte datové soubory formulářů ve formátech FDF, XFDF a text (CSV/TSV)
  • Exportujte datové soubory formuláře ve formátech FDF a XFDF
  • Odešlete data formuláře
  • Vytvořte instanci nových stránek z šablon pojmenovaných stránek
  • Použijte digitální podpis na stávající pole formuláře digitálního podpisu
  • Vytvářejte, odstraňujte, upravujte, kopírujte, importujte a exportujte poznámky

Například Adobe Systems uděluje oprávnění k povolení dalších funkcí v Adobe Readeru pomocí kryptografie s veřejným klíčem . Adobe Reader ověří, že podpis používá certifikát od certifikační autority schválené společností Adobe. Libovolná aplikace PDF může použít stejný mechanismus pro své vlastní účely.

Za specifických okolností, včetně nepatchovaných systémů příjemce, může s informacemi, které příjemce digitálně podepsaného dokumentu vidí, manipulovat odesílatel poté, co dokument podepsal podepisující.

PAdES ( PDF Advanced Electronic Signatures ) je sada omezení a rozšíření do formátu PDF a ISO 32000-1, která je vhodná pro pokročilé elektronické podpisy . Toto je publikováno společností ETSI jako TS 102778.

Přílohy souborů

Soubory PDF mohou mít přílohy souborů, ke kterým mohou procesory přistupovat a otevírat je nebo ukládat do místního souborového systému.

Metadata

Soubory PDF mohou obsahovat dva typy metadat. Prvním je slovník informací o dokumentu, sada klíčových/hodnotových polí, jako je autor, název, předmět, datum vytvoření a aktualizace. Toto je volitelné a je odkazováno z Infoklíče v upoutávce souboru. Je definována malá sada polí a v případě potřeby ji lze rozšířit o další textové hodnoty. Tato metoda je v PDF 2.0 zastaralá.

V PDF 1.4 byla přidána podpora pro Metadata Streams pomocí Extensible Metadata Platform (XMP) pro přidání rozšiřitelných metadat založených na standardech XML, jak se používají v jiných formátech souborů. PDF 2.0 umožňuje připojení metadat k jakémukoli objektu v dokumentu, například k informacím o vložených ilustracích, písmech, obrázcích, jakož i k celému dokumentu (připojení ke katalogu dokumentů), pomocí rozšiřitelného schématu.

Dokumenty PDF mohou také obsahovat nastavení zobrazení, včetně rozvržení zobrazení stránky a úrovně přiblížení v objektu Předvolby prohlížeče. Adobe Reader používá tato nastavení k přepsání výchozích nastavení uživatele při otevírání dokumentu. Bezplatný Adobe Reader nemůže tato nastavení odebrat.

Přístupnost

Soubory PDF lze vytvářet speciálně tak, aby byly přístupné pro osoby se zdravotním postižením. Formáty souborů PDF používané od roku 2014 mohou zahrnovat značky, textové ekvivalenty, titulky, zvukové popisy a další. Některý software může automaticky vytvářet označené soubory PDF , ale tato funkce není ve výchozím nastavení vždy povolena. Přední čtečky obrazovky , včetně JAWS , Window-Eyes , Hal a Kurzweil 1000 a 3000, dokážou číst tagované PDF. Značené soubory PDF lze navíc přetočit a zvětšit pro čtenáře se zrakovým postižením. Přidání značek do starších souborů PDF a do těch, které jsou generovány z naskenovaných dokumentů, může představovat určité problémy.

Jednou z významných výzev přístupnosti PDF je, že dokumenty PDF mají tři různá zobrazení, která v závislosti na vytvoření dokumentu mohou být navzájem nekonzistentní. Tyto tři pohledy jsou (i) fyzické zobrazení, (ii) zobrazení značek a (iii) zobrazení obsahu. Zobrazí se a vytiskne fyzické zobrazení (to, co většina lidí považuje za dokument PDF). Zobrazení značek je to, co čtečky obrazovky a další pomocné technologie používají k poskytování vysoce kvalitní navigace a čtení uživatelům s postižením. Zobrazení obsahu je založeno na fyzickém pořadí objektů v proudu obsahu PDF a může být zobrazeno softwarem, který plně nepodporuje zobrazení tagů, jako je například funkce Reflow v aplikaci Adobe Reader.

PDF/UA , mezinárodní standard pro přístupný PDF založený na ISO 32000-1, byl poprvé publikován jako ISO 14289-1 v roce 2012 a stanoví normativní jazyk pro přístupnou technologii PDF.

Multimédia

Rich Media PDF je soubor PDF včetně interaktivního obsahu, který lze do souboru vložit nebo propojit.

formuláře

Interactive Forms je mechanismus pro přidávání formulářů do formátu souboru PDF. PDF v současné době podporuje dvě různé metody pro integraci dat a formulářů PDF. Oba formáty dnes koexistují ve specifikaci PDF:

  • AcroForms (také známý jako Acrobat formuláře), zavedený ve specifikaci formátu PDF 1.2 a zahrnutý ve všech pozdějších specifikacích PDF.
  • Formuláře XML Forms Architecture (XFA), zavedené ve specifikaci formátu PDF 1.5. Formuláře Adobe XFA nejsou kompatibilní s AcroForms. Podpora XFA byla ukončena z PDF s PDF 2.0.

AcroForms byly představeny ve formátu PDF 1.2. Prvky AcroForm umožňují pomocí objektů ( například textová pole , přepínací tlačítka , atd ) a nějaký kód ( např JavaScript ). Kromě standardních typů akcí PDF podporují interaktivní formuláře (AcroForms) odesílání, resetování a import dat. Akce "odeslat" přenáší názvy a hodnoty vybraných polí interaktivního formuláře do určeného jednotného vyhledávače zdrojů (URL). Názvy a hodnoty interaktivních polí formuláře lze odeslat v kterémkoli z následujících formátů (v závislosti na nastavení příznaků ExportFormat, SubmitPDF a XFDF akce):

Formát formuláře HTML
Specifikace HTML 4.01 od PDF 1.5; HTML 2.0 od 1.2
Formát dat formulářů (FDF)
založený na PDF, používá stejnou syntaxi a má v podstatě stejnou strukturu souborů, ale je mnohem jednodušší než PDF, protože tělo dokumentu FDF se skládá pouze z jednoho požadovaného objektu. Formát dat formulářů je definován ve specifikaci PDF (od PDF 1.2). Formát dat formulářů lze použít při odesílání dat formuláře na server, přijímání odpovědí a jejich začlenění do interaktivního formuláře. Lze jej také použít k exportu dat formuláře do samostatných souborů, které lze importovat zpět do odpovídajícího interaktivního formuláře PDF. FDF byl původně definován v roce 1996 jako součást ISO 32000-2: 2017.
XML Forms Data Format (XFDF)
(externí specifikace formátu dat formulářů XML, verze 2.0; podporováno od PDF 1.5; nahradilo formát pro odesílání formulářů „XML“ definovaný v PDF 1.4) verze XML formátu dat formulářů, ale XFDF implementuje pouze podmnožinu formulářů obsahujících FDF a anotace. Některé položky ve slovníku FDF nemají ekvivalenty XFDF - například stav, kódování, JavaScript, klíče stránky, EmbeddedFDF, rozdíly a cíl. XFDF navíc neumožňuje tření nebo přidávání nových stránek na základě daných dat; jak lze provést při použití souboru FDF. Na specifikaci XFDF se odkazuje (ale není součástí) ve specifikaci PDF 1.5 (a v novějších verzích). Je popsáno samostatně ve specifikaci formátu dat XML formulářů . Specifikace PDF 1.4 umožňovala podávání formulářů ve formátu XML, ale toto bylo nahrazeno odesláním ve formátu XFDF ve specifikaci PDF 1.5. XFDF odpovídá standardu XML. XFDF lze použít stejným způsobem jako FDF; např. data formuláře jsou odeslána na server, provedeny změny, poté odeslány zpět a nová data formuláře jsou importována v interaktivní formě. Lze jej také použít k exportu dat formuláře do samostatných souborů, které lze importovat zpět do odpovídajícího interaktivního formuláře PDF. Od srpna 2019 je XFDF 3.0 standardem ISO/IEC pod formálním názvem ISO 19444-1: 2019-Správa dokumentů-Formát dat formulářů XML-Část 1: Použití ISO 32000-2 (XFDF 3.0) . Tato norma je normativní referencí ISO 32000-2.
PDF
celý dokument lze odeslat spíše než jednotlivá pole a hodnoty, jak bylo definováno v PDF 1.4.

AcroForms může uchovávat hodnoty pole formuláře v externích samostatných souborech obsahujících páry klíč: hodnota. Externí soubory mohou používat soubory Forms Data Format (FDF) a XML Forms Data Format (XFDF). Podpisy práv použití (UR) definují práva pro import datových souborů ve formátech FDF, XFDF a text ( CSV / TSV ) a pro export datových souborů ve formátech FDF a XFDF.

V PDF 1.5 zavedla společnost Adobe Systems proprietární formát formulářů; Architektura formulářů Adobe XML (XFA). Formuláře Adobe XFA nejsou kompatibilní s funkcí AcroForms ISO 32000 a většina procesorů PDF nezpracovává obsah XFA. Specifikace XFA je odkazována z ISO 32000-1/PDF 1.7 jako externí vlastní specifikace a byla zcela zastaralá z PDF s ISO 32000-2 (PDF 2.0).

Licencování

Kdokoli může vytvářet aplikace, které dokážou číst a zapisovat soubory PDF, aniž by museli platit licenční poplatky Adobe Systems ; Společnost Adobe vlastní patenty na soubory PDF, ale licencuje je pro účely bezplatného použití při vývoji softwaru, který odpovídá specifikaci PDF.

Bezpečnostní

V listopadu 2019 vědci z Ruhr University Bochum a Hackmanit GmbH zveřejnili útoky na digitálně podepsané soubory PDF. Ukázali, jak změnit viditelný obsah v podepsaném PDF bez zneplatnění podpisu u 21 z 22 prohlížečů PDF pro počítače a 6 z 8 online ověřovacích služeb zneužíváním nedostatků v implementaci. Na stejné konferenci navíc ukázali, jak exfiltrovat prostý text šifrovaného obsahu do souborů PDF. V roce 2021 ukázali nové takzvané stínové útoky na soubory PDF, které zneužívají flexibilitu funkcí uvedených ve specifikaci. Přehled bezpečnostních problémů v souborech PDF týkajících se odepření služby , zpřístupňování informací , manipulace s daty a útoků na spuštění libovolného kódu představil Jens Müller.

Přílohy PDF nesoucí viry byly poprvé objeveny v roce 2001. Virus, pojmenovaný OUTLOOK.PDFWorm nebo Peachy , používá Microsoft Outlook k odeslání jako připojený soubor Adobe PDF. Byl aktivován pomocí Adobe Acrobat, ale ne pomocí Acrobat Reader.

Čas od času se v různých verzích aplikace Adobe Reader objeví nové chyby zabezpečení, což přiměje společnost vydat opravy zabezpečení. Náchylné jsou i další čtečky PDF. Jedním přitěžujícím faktorem je, že lze konfigurovat čtečku PDF tak, aby se spouštěla ​​automaticky, pokud má webová stránka vložený soubor PDF, který poskytuje vektor pro útok. Pokud škodlivá webová stránka obsahuje infikovaný soubor PDF, který využívá chyby zabezpečení ve čtečce PDF, může dojít k ohrožení systému, i když je prohlížeč zabezpečený. Některé z těchto chyb zabezpečení jsou výsledkem standardu PDF, který umožňuje skriptování dokumentů PDF pomocí JavaScriptu. Zakázání spouštění JavaScriptu ve čtečce PDF může takové budoucí exploity zmírnit, i když nechrání před zneužitím v jiných částech softwaru pro prohlížení PDF. Bezpečnostní experti říkají, že JavaScript není pro čtečku PDF nezbytný a že bezpečnostní výhody plynoucí z deaktivace JavaScriptu převažují nad všemi problémy s kompatibilitou. Jedním ze způsobů, jak se vyhnout zneužívání souborů PDF, je nechat místní nebo webovou službu před prohlížením převést soubory do jiného formátu.

Dne 30.

Software

Diváci a redaktoři

Prohlížeče PDF jsou obecně poskytovány zdarma a mnoho verzí je k dispozici z různých zdrojů.

Existuje mnoho softwarových možností pro vytváření PDF, včetně možností tisku PDF integrovaných do macOS , iOS a většiny distribucí Linuxu , LibreOffice , Microsoft Office 2007 (pokud jsou aktualizovány na SP2 ) a novější, WordPerfect 9, Scribus , četné tiskové ovladače PDF pro Microsoft Windows , systém sazby pdfTeX , nástroje DocBook PDF, aplikace vyvinuté kolem Ghostscriptu a samotného Adobe Acrobatu a také Adobe InDesign , Adobe FrameMaker , Adobe Illustrator , Adobe Photoshop . Google je online kancelářský balík Google Docs umožňuje nahrávání a ukládání do formátu PDF. Některé webové aplikace nabízejí bezplatné nástroje pro úpravy a poznámky ve formátu PDF.

Free Software Foundation jednou myšlenka jako jeden z jejich vysoce prioritní projekty za „rozvoj svobodný, velmi kvalitní a plně funkční sadu knihoven a programů, které implementují formát souboru PDF a související technologie k normě ISO 32000.“ V roce 2011 byl však projekt GNU PDF vyškrtnut ze seznamu „projektů s vysokou prioritou“ kvůli zrání knihovny Poppler , která si užila širšího využití v aplikacích, jako je Evince s desktopovým prostředím GNOME . Poppler je založen na základně kódu Xpdf . K dispozici jsou také knihovny komerčního vývoje uvedené v seznamu softwaru PDF .

Projekt Apache PDFBox od Apache Software Foundation je open source knihovna Java pro práci s dokumenty PDF. PDFBox je licencován pod licencí Apache .

Tisk

Rastrové obrazové procesory (RIP) se používají k převodu souborů PDF do rastrového formátu vhodného pro zobrazování na papír a jiná média v tiskárnách, digitálních produkčních lisech a předtiskové přípravě v procesu známém jako rasterizace . RIPy schopné zpracovávat PDF přímo zahrnují Adobe PDF Print Engine od Adobe Systems and Jaws a Harlequin RIP od Global Graphics .

V roce 1993 se rastrový obrazový procesor Jaws od Global Graphics stal prvním přepravním předtiskovým RIP, který nativně interpretoval PDF bez převodu do jiného formátu. Společnost vydala v roce 1997 upgrade jejich Harlequin RIP se stejnou schopností.

Agfa-Gevaert představila a dodala Apogee, první předtiskový pracovní postup založený na formátu PDF, v roce 1997.

Mnoho komerčních ofsetových tiskáren přijalo odeslání souborů PDF připravených k tisku jako tiskového zdroje, konkrétně podmnožinu PDF/X-1a a její varianty. Odeslání souborů PDF připravených k tisku je náhradou za problematickou potřebu přijímání shromážděných nativních pracovních souborů.

V roce 2006 byl formát PDF široce přijímán jako standardní formát tiskové úlohy na tiskovém summitu Open Source Development Labs . Je podporován jako formát tiskové úlohy systémem Common Unix Printing System a projekty desktopových aplikací jako GNOME , KDE , Firefox , Thunderbird , LibreOffice a OpenOffice přešly na vydávání tiskových úloh ve formátu PDF.

Některé stolní tiskárny také podporují přímý tisk PDF, který dokáže interpretovat data PDF bez externí pomoci.

Nativní model displeje

PDF byl vybrán jako „nativní“ formát metasouboru pro Mac OS X , který nahradil formát PICT dřívějšího klasického Mac OS . Zobrazovací model grafické vrstvy Quartz vychází z modelu běžného pro Display PostScript a PDF, což vede k přezdívce Display PDF . Aplikace Preview může zobrazovat soubory PDF, stejně jako verze 2.0 a novější ve webovém prohlížeči Safari . Podpora na úrovni systému pro PDF umožňuje aplikacím Mac OS X vytvářet dokumenty PDF automaticky za předpokladu, že podporují tiskovou architekturu standardu OS. Soubory jsou poté exportovány ve formátu PDF 1.3 podle záhlaví souboru. Při pořizování snímku obrazovky v systému Mac OS X verze 10.0 až 10.3 byl snímek také zachycen jako PDF; novější verze ukládají snímky obrazovky jako soubor PNG , ačkoli toto chování lze v případě potřeby nastavit zpět na PDF.

Anotace

Adobe Acrobat je jedním příkladem proprietárního softwaru, který umožňuje uživateli přidávat poznámky, zvýrazňovat a přidávat poznámky k již vytvořeným souborům PDF. Jedna aplikace UNIX dostupná jako bezplatný software (pod licencí GNU General Public License ) je PDFedit . Freeware Foxit Reader , k dispozici pro Microsoft Windows , MacOS a Linux umožňuje anotace dokumentů. Prohlížeč PDF-XChange společnosti Tracker Software umožňuje ve své alternativě freewaru anotace a značky bez omezení. Apple 's MacOS je integrovaný prohlížeč PDF, náhled, to také umožnit anotace stejně jako open-source software bez tuku , s druhým nosným interakci s latexem , SyncTeX a PDFSync a integraci s BibDesk referenčního softwaru pro správu. Freeware Qiqqa může vytvořit anotační zprávu, která shrnuje všechny anotace a poznámky, které si kdo udělal v jejich knihovně PDF. Nástroj pro ověřování textu exportuje rozdíly v dokumentech jako poznámky a značky.

Existují také webové anotační systémy, které podporují anotaci ve formátu pdf a dalších dokumentech. V případech, kdy se očekává, že soubory PDF budou mít všechny funkce papírových dokumentů, je vyžadována inkoustová anotace.

Alternativy

Specifikace Open XML Paper je konkurenční formát použít i jako jazyk popisu stránky a jak nativním formátu zařazování tisku pro systém Microsoft Windows od Windows Vista .

Mixed Object: Document Content Architecture je konkurenční formát. MO: DCA-P je součástí prezentace pokročilých funkcí .

Viz také

Reference

Další čtení

externí odkazy