GPT -2 - GPT-2

Generativní předem vyškolený transformátor 2 (GPT-2)
GPT2-talks-about-GPT2.png
Dokončení GPT-2 pomocí webové stránky Hugging Face Write With Transformer s výzvou k textu z tohoto článku na Wikipedii (veškerý zvýrazněný text po úvodní výzvě je generován strojem z prvního navrhovaného dokončení, bez dalších úprav)
Původní autoři OpenAI
První vydání 14. února 2019 ; Před 2 roky ( 14. února 2019 )
Úložiště https://github.com/openai/gpt-2
Typ Jazykový model transformátoru
webová stránka www .openai .com /blog /gpt-2-1-5b-release /

Generative Pre-Training Transformer 2 ( GPT-2 ) je umělá inteligence s otevřeným zdrojovým kódem vytvořená společností OpenAI v únoru 2019. GPT-2 překládá text, odpovídá na otázky, shrnuje pasáže a generuje textový výstup na úrovni, která je někdy k nerozeznání od že u lidí se může při generování dlouhých pasáží stát opakujícími se nebo nesmyslnými. Je to žák pro všeobecné účely ; nebyl speciálně vyškolen k provádění žádného z těchto úkolů a jeho schopnost je provádět je rozšířením jeho obecné schopnosti přesně syntetizovat další položku v libovolném pořadí. GPT-2 byl vytvořen jako „přímé zvětšení“ modelu GPT OpenAI 2018 s desetinásobným zvýšením počtu parametrů i velikosti jeho tréninkové datové sady.

Architektura GPT implementuje hlubokou neuronovou síť , konkrétně model transformátoru , který využívá pozornost namísto předchozích architektur založených na opakování a konvoluci. Mechanismy pozornosti umožňují modelu selektivně se zaměřit na segmenty vstupního textu, o kterém předpovídá, že bude nejrelevantnější. Tento model umožňuje výrazně zvýšenou paralelizaci a překonává předchozí měřítka pro modely založené na RNN/CNN/LSTM.

OpenAI vydala úplnou verzi jazykového modelu GPT-2 (s 1,5 miliardami parametrů) v listopadu 2019. Po GPT-2 měl následovat 175miliardový parametr GPT-3 , odhalený veřejnosti v roce 2020 (jehož zdrojový kód nikdy nebyl zpřístupněn). Přístup k GPT-3 je poskytován výhradně prostřednictvím API nabízeného společností Microsoft .

Pozadí

Od počátků práce na počítači je umělá inteligence předmětem studia; „ imitační hra “, kterou postuloval Alan Turing v roce 1950 (a často se jí také říká „Turingův test“), navrhla vytvořit schopnost elektronického nebo mechanického systému pro inteligentní akci schopností hodnotitele rozlišit jeho chování od chování člověka. Termín „ strojové učení “ poprvé použil k popisu možného přístupu k umělé inteligenci již v roce 1959 výzkumník IBM Arthur Samuel ; současné používání termínu zahrnuje širokou škálu statistických učení , datových věd a přístupů neuronových sítí k výpočetním problémům (často spadajícím pod záštitu umělé inteligence).

Výpočetní lingvistika

Zpracování přirozeného jazyka pomocí počítačů, úkol původně koncipovaný jako podoblast výpočetní lingvistiky , byl zkoušen, jakmile měl výpočetní hardware kapacitu; první aplikace vyhledávací tabulky slovníků byla vyvinuta na Birkbeck College v Londýně v roce 1948. Experiment Georgetown z roku 1954 byl ukázkou plně automatizovaného strojového překladu , ve kterém bylo přeloženo šedesát ruských vět do angličtiny (většinou nahrazením slov jejich Anglická synonyma). Překlady byly často hrubé; systém měl pouze 6 gramatických pravidel a 250 slovní slovník a nebyl učiněn žádný pokus analyzovat nebo překládat syntaktickou strukturu . Experiment však veřejnosti dokázal, že počítače umějí interpretovat a zpracovávat přirozený jazyk, a zajistil financování CIA pro další výzkum. Přímá náhrada zůstává standardem, proti kterému se vyhodnocují programy strojového překladu.

V polovině 20. století začaly vznikat také systémy pro používání přirozeného jazyka v interakci člověk-počítač (HCI). SHRDLU , program vyvinutý na MIT v letech 1968–1970, sestával z virtuálního prostředí několika objektů, se kterými uživatel interagoval pomocí příkazů v přirozeném jazyce (např. „Najděte blok, který je vyšší než ten, který držíte, a vložte jej do krabice"). ELIZA , chatterbot napsaná v roce 1966, analyzovala text lidského partnera pro klíčová slova a poskytla konverzačně vhodné odpovědi. Zatímco mnoho subjektů tvrdilo, že nedokáže odlišit konverzaci ELIZY od konverzace člověka, otázka, zda se jedná o inteligenci, byla sporná (nejslavnější skript parodoval psychoterapeuta do značné míry opakováním toho, co jim uživatel řekl).

Zatímco počáteční pokusy o strojový překlad byly čistě výpočetní, v 50. letech 20. století začal dominantní přístup k počítačové lingvistice zdůrazňovat koncept univerzální gramatiky Noama Chomského ; Výzkum NLP v té době tedy odpovídal převážně pokusům redukovat prohlášení v libovolných jazycích na domnělé logické struktury agnostických jazyků. V 70. letech začaly sémantické systémy NLP vyhýbat se syntaktickému kódování ve prospěch obecnějších sémantických kódování. Až do příchodu neuronových sítí se však většina systémů nadále spoléhala na velké (a stále těžkopádnější) sady ručně naprogramovaných pravidel, která se nepodařilo rozšířit, jak se původně předpokládalo.

Na konci 20. století se oblast umělé inteligence nadále rozvíjela, ale občas se objevila období stagnace známá jako „ zimy AI “. Různé zdroje předpokládají, že k zimám AI dochází v různých časech; v roce 1994 Howe popsal, že jeden začal v roce 1973 a trval deset let, zatímco Russell & Norvig v roce 2003 označil další za začínající brzy po roce 1988.

Neuronové sítě

Raný koncept umělé inteligence, konekcionismus , usiloval o vytvoření inteligentního chování prostřednictvím umělých neurálních sítí navržených tak, aby simulovaly chování neuronů v biologických mozcích. Prvním příkladem umělé neuronové sítě byl SNARC , postavený v roce 1951. Perceptron (typ binárního klasifikátoru ) představil v roce 1957 psycholog Frank Rosenblatt ; jeho stroj byl navržen pro rozpoznávání obrazu pomocí 400 fotobuněk připojených k „neuronům“, s vážením určeným potenciometry (a upraveným pomocí elektromotorů během procesu učení). Systémy Perceptron se staly předmětem velkého zájmu; New York Times článek popisuje perceptron jako „zárodku elektronického počítače, který [námořnictvo] očekává, že budou moci chodit, mluvit, vidět, psát, množit a být si vědom své existence“. Perceptronové systémy však po desítkách let upadly v nemilost po knize Marvina Minskyho a Seymoura Paperta z roku 1969 ( Perceptrons: úvod do výpočetní geometrie ), která poukázala na několik nedostatků tehdejšího stavu techniky (jednovrstvé perceptrony ), včetně neschopnosti kódovat exkluzivní nebo (XOR) funkci. Kniha byla v té době považována za diskreditaci perceptronového přístupu (stejně jako neuronových sítí obecně) jako slibné oblasti výzkumu.

Neuronové sítě se stanou schopné klasifikovat různé vstupy (tj. Třídit je do odlišných kategorií) prostřednictvím procesu známého jako „učení“. Začíná to tak, že váhy sítě (množství, o které „aktivace“ každého neuronu ovlivňuje aktivaci každého konkrétního neuronu v následující vrstvě) jsou inicializovány na náhodné veličiny; v tomto stavu je výstup sítě podobně náhodný. Je definována objektivní funkce , jako je ztráta, která je schopna kvantitativně měřit, jak blízko je výstup sítě k jejímu požadovanému výkonu (například, jak často má vstup sestávající z ručně psaného čísla za následek jedinou aktivaci výstupní neuron odpovídající tomuto číslu). Z toho az výkonu sítě lze upravit váhy, aby se zlepšil její výkon.

Backpropagation , supervizovaný algoritmus poprvé aplikovaný na systémy strojového učení v disertační práci Paula Werbose z roku 1974, efektivně vypočítává „přechody“, což jsou vektorová pole popisující optimální úpravu všech vah v celé síti pro daný příklad vstupu/výstupu. Použití těchto přechodů k trénování neuronových sítí, což je praxe známá jako gradientový sestup , umožnilo vytvoření mnohem složitějších systémů a v osmdesátých letech by došlo k rozsáhlé aplikaci neurálních sítí na zpracování přirozeného jazyka . V roce 1985 DB Parker znovu objevil Werbosovu metodu; v roce 1986 by to Rumelhart, Hinton a Williams použili ke generování interních reprezentací příchozích dat v neuronových sítích se skrytými vrstvami, označovaných jako sítě „ hlubokého učení “; tento výzkum by později tvořil základ pro rekurentní neuronové sítě .

Tradiční neuronové sítě feed-forward (FFNN) jsou pojmenovány tak, že každá vrstva přebírá výstup z předchozí vrstvy a přivádí ji do další; Struktura FFNN neobsahuje žádné „ cykly “, kde informace proudí zpět. Naproti tomu rekurentní neurální síť (RNN) má alespoň jeden cyklus aktivačního toku. RNN se často používají ke zpracování sekvencí dat (a předpovídání budoucích položek sekvence), protože síť může zpracovat každou položku pomocí položky samotné i vlastního výstupu ze zpracování předchozí položky.

Neocognitron , navržený Kunihiko Fukušimě v roce 1979 na základě modelů neuronové architektury v savčím zrakové kůry , za předpokladu, že základem pro konvoluční neuronových sítí (CNNs), často používané při tvorbě snímku. „Posunutím“ malé vrstvy přes větší vstup může CNN provádět hlubší zpracování s menším výpočtem. Například obrázek 100 × 100 má 10 000 pixelů, což by ke zpracování s plně připojenou vrstvou vyžadovalo 10 000 hmotností; konvoluční vrstva skládající se z 5 × 5 „okna“ klouzajícího po obrázku může provádět detekci hran pomocí pouze 25 naučitelných parametrů. Konvoluční vrstvy jsou kombinovány „sdružovacími vrstvami“ a zpracovávány „plně spojenými“ vrstvami (což jsou typicky vícevrstvé perceptrony ).

Strojové učení pro zpracování přirozeného jazyka

Díky své schopnosti zpracovávat sekvenční informace se rekurentní neurální sítě začaly používat v mnoha aplikacích NLP; na rozdíl od FFNN jsou schopny kódovat různé váhy (a dávat různé výstupy) pro stejné položky na základě jejich okolí v sekvenci - to znamená, že systém RNN, který analyzoval jedno slovo najednou, by stále mohl spojovat „ černého psa “ s fuzzy tlapami, „ kukuřičným psem “ s kečupem a „ slunečním psem “ s lomem. Navíc, protože uchovávání informací z předchozích položek sekvence lze provádět rekurzivně , lze navrhnout systémy RNN, které budou položky vyvolávat libovolně daleko v sekvenci: například schopnost pokračovat v sekvencích „Tom se podíval na černého psa“, „ Tom se podíval na kukuřičného psa “a„ Tom na sluneční psa “s„ laskavě “,„ hladově “a„ nepřímo “.

I když jsou mnohovrstevné FFNN a RNN schopné působivých řešení, ukázalo se, že jsou náchylné k problému mizejícího gradientu : protože přechody (kódované jako čísla s konečnou přesností ) jsou vyžadovány k zpětnému šíření napříč všemi vrstvami modelu, mohou „zmizet“ na nulu ( nebo „explodovat“ do nekonečna) na dostatečně velkém počtu vrstev. Síť dlouhodobé krátkodobé paměti (LSTM), kterou poprvé navrhli Sepp Hochreiter a Jürgen Schmidhuber v letech 1995–1997, se snažila tento problém vyřešit zavedením nové architektury skládající se z více odlišných „buněk“ se „vstupem“, „výstupem“ a brány „zapomeň“. V roce 2009 vyhrál model založený na LSTM tým Alexa Gravese v soutěži ICDAR o rozpoznávání rukopisu ; další byl nejpřesnější model v soutěži a třetí byl nejrychlejší.

Dalším problémem, s nímž se RNN a LSTM setkávají, je to, že mohou brát v úvahu pouze kontext předchozích položek sekvence. To může způsobit problémy při analýze vět typu „Tom jel na kole do obchodu, uhasil stojánek a vypnul motor“, ve kterém se nezbytný kontext „ kola “ jako motocyklu odhalí až na konci. Jednou z metod řešení takových problémů je obousměrný LSTM , který probíhá v obou směrech současně a poskytuje přístup k vstupním funkcím „minulosti“ i „budoucnosti“. Podmíněná náhodná pole používají značky pro připojení vstupů přímo k výstupům. Existují kombinace výše uvedených přístupů, jako je síť LSTM-CRF a síť BI-LSTM-CRF . Mezi další vylepšení modelu RNN patří neurální Turingovy stroje , adaptivní výpočetní čas , neurální programátoři a pozorovací mechanismy , z nichž poslední tvoří základ pro GPT-2 a související technologie.

Selektivní ostření

Počátkem roku 2010 byl nejlepší výkon v neurálním strojovém překladu dosažen modelem kodér - dekodér, ve kterém zdrojové věty kódované zdrojovými větami „kodérové ​​sítě“ RNN nebo LSTM do vektorů a „dekodérová síť“ podobné architektury zpracovávaly tyto vektory do přeložený výstup. V roce 2014 byly zavedeny výrazně složitější mechanismy „ pozornosti “, které výrazně zvýšily výkon těchto modelů. Mechanismy pozornosti dávaly těmto modelům schopnost adaptivně zaměřit „pozornost“ jejich dekodérových sítí na konkrétní aspekty zdrojového textu, místo aby je nutily analyzovat celý text jako jeden vektor.

V roce 2017 pak byly představeny „ transformátorové “ modely, které šly ještě o krok dále pomocí mechanismů pozornosti, které zcela nahradily architekturu RNN/LSTM.

Mechanismy pozornosti

Jedním z omezení modelů kodér-dekodér byla obtížnost komprimace kódování vět vět do vektorů s pevnou délkou; výkon se často zhoršoval u větších vstupů. V roce 2014 Bahdanau et al. zavedlo rozšíření modelu kodér – dekodér, které bylo možné „zarovnat a překládat společně“. U každého slova zdrojové věty, které bylo přeloženo, kodér modelu Bahdanau (obousměrná RNN s 1000 skrytými jednotkami v každém směru) hledal ve zbytku této věty polohy relevantních informací. Místo toho, aby dekodéru bylo poskytnuto vektorové kódování celé vstupní sekvence s pevnou délkou (jako u předchozích modelů), produkovalo "kontextové vektory", spojené s těmito polohami, stejně jako dříve generovaná cílová slova. Dekodér (který měl také 1 000 skrytých jednotek) poté pomocí těchto kontextových vektorů rozhodl, kam zaměří svoji „pozornost“.

Výzkum mechanismů „pozornosti“ pokračoval Luong et al. v novinách z roku 2015. Byl vyzkoušen „globální“ přístup založený na Bahdanauově papíru, stejně jako „místní“ přístup, kdy byla současně „zvažována“ pouze podmnožina zdrojových slov; místní přístup, i když byl architektonicky komplikovanější, byl méně výpočetně nákladný a snadno se trénoval. Trvalo 7–10 dní, než se plně naučil model překladu z angličtiny do němčiny, který byl speciálně navržen tak, aby dokázal přeložit 1 000 cílových slov za sekundu; jeho přesnost byla testována proti úkolu 2014 ACL Workshop on Machine Translation (WMT'14) pro dvojice vět z angličtiny do němčiny a dosáhl výsledku 23,0 BLEU- 2,1 BLEU zlepšení oproti předchozímu nejlepšímu výsledku dosaženému předchozími pokusy, fráze- založený jazykový model od Bucka a kol. 2014.

Transformátory

Zatímco mechanismy pozornosti byly účinné při zlepšování výkonu, když byly použity ke zvýšení stávajících konvolučních a rekurentních architektur neuronových sítí, brzy se zjistilo, že výkonné modely lze vytvářet pomocí mechanismů pozornosti samostatně, aniž by za nimi stálo něco jiného.

V červnu 2017 byla architektura transformátoru poprvé představena v dokumentu vydaném vědci z Google Brain , Google Research a University of Toronto . Transformátory jsou typem modelu, který je založen výhradně na mechanismech pozornosti a zcela vylučuje konvoluci a opakování . Na rozdíl od předchozích modelů založených na RNN mohou transformátory zpracovávat sekvenční vstup, aniž by bylo nutné provádět výpočet pro každou položku v pořadí; to znamená, že mohou být masivně paralelizovány . Na úkolu WMT'14 francouzština-angličtina byl speciálně vyškolený francouzsko-anglický překladový model využívající transformátorovou architekturu schopen vytvořit nový benchmark jednoho modelu 41,8 BLEU. Od svého zavedení byly transformátory použity v mnoha aplikacích NLP.

Generativní předtrénovaný transformátor

11. června 2018 vydala společnost OpenAI dokument s názvem „Zlepšení jazykového porozumění generativním předškolením“, ve kterém představili generativní předem vyškolený transformátor (GPT). V tomto okamžiku nejvýkonnější neurální modely NLP primárně využívaly supervizní učení z velkého množství ručně označených dat. Tato závislost na supervizovaném učení omezila jejich použití v datových sadách, které nebyly dobře anotovány, a navíc způsobilo neúměrně nákladné a časově náročné trénování extrémně velkých modelů; mnoho jazyků (jako svahilština nebo haitská kreolština ) je obtížné přeložit a interpretovat pomocí takových modelů kvůli nedostatku dostupného textu pro tvorbu korpusu. Na rozdíl od toho GPT je „semi-dohledem“ přístup zapojeny dvě fáze: neřízené generativní „pre-školení“ stádium, ve kterém bylo cílem jazyk modelování slouží k nastavení výchozích parametrů a dohlíží diskriminační „jemného doladění“ stádium, ve kterém tyto parametry byly přizpůsobeny cílovému úkolu.

Použití architektury transformátoru, na rozdíl od předchozích technik zahrnujících RNN s rozšířením pozornosti, poskytlo GPT strukturovanější paměť, než by bylo možné dosáhnout pomocí rekurentních mechanismů; to mělo za následek „robustní přenosový výkon napříč různými úkoly“.

Během přenosu používáme vstupní úpravy specifické pro úlohy odvozené z přístupů ve stylu přechodu, které zpracovávají strukturovaný textový vstup jako jednu souvislou sekvenci tokenů.

Korpus

Předškolení bez dozoru bylo provedeno pomocí BooksCorpus , datové sady více než 7 000 nepublikovaných beletristických knih různých žánrů; zatímco u jiných modelů byla tato datová sada vybrána částečně, protože její dlouhé pasáže souvislého textu podmínily model zpracováním informací dlouhého dosahu. Jiné dostupné soubory dat, i když byly větší, byly zamítnuty na základě toho, že postrádaly tuto strukturu s dlouhým dosahem (byly „zamíchány“ na úrovni vět). Ftfy knihovna byla použita k vyčištění textu BooksCorpus (Normován interpunkce a mezery); to bylo tokenized pomocí prostorný .

Architektura

Samotná architektura GPT byla dvanáctivrstvým transformátorem pouze s dekodérem, využívajícím dvanáct maskovaných hlav sebeobsluhy, každý se 64 dimenzionálními stavy (celkem 768). Spíše než jednoduchý stochastický gradientu sestupu se Adam optimalizační algoritmus byl použit; rychlost učení byla lineárně zvýšena z nuly během prvních 2 000 aktualizací na maximum 2,5 × 10 −4 a žíhána na 0 pomocí kosinového plánu.

Trénujeme 100 epoch na minibatchích 64 náhodně vzorkovaných, souvislých sekvencí 512 tokenů. Vzhledem k tomu, že Layernorm je v celém modelu hojně používán, postačila jednoduchá inicializace hmotnosti N (0,0,02). Pro regularizaci jsme použili slovník kódování bytepair (BPE) se 40 000 sloučením [53] a zbytkovými, vkládajícími a výpadky pozornosti s rychlostí 0,1. Použili jsme také upravenou verzi regularizace L2 navrženou v Loshchilov et al. 2017, s w = 0,01 na všech nezkreslených nebo přibývajících na váze.

[...]
Místo sinusové verze navržené v původním díle jsme použili naučené vkládání pozic.

[...]
Pokud není uvedeno jinak, znovu použijeme nastavení hyperparametru z předběžného školení bez dozoru. Přidáme výpadek do klasifikátoru s rychlostí 0,1. U většiny úkolů používáme rychlost učení 6,25 e-5 a dávkovou velikost 32. Náš model se rychle dolaďuje a ve většině případů postačily 3 epochy školení. Používáme plán rozpadu lineární rychlosti učení s rozcvičkou nad 0,2% tréninku. λ byla nastavena na 0,5.

Přestože doladění GPT bylo přizpůsobeno konkrétním úkolům, jeho předtrénink nebyl; k provedení různých úkolů byly provedeny minimální změny v jeho základní architektuře agnostického modelu. Navzdory tomu se GPT stále zlepšovala v předchozích benchmarcích v několika úlohách zpracování jazyků a překonávala diskriminačně vyškolené modely s architekturami orientovanými na úkoly v řadě různých úkolů.

Výkon

Na úlohách odvozování přirozeného jazyka (také známých jako textová entalmentace ) jsou modely hodnoceny na základě jejich schopnosti interpretovat dvojice vět z různých datových sad a klasifikovat vztah mezi nimi jako „entalment“, „rozpor“ nebo „neutrální“. Mezi příklady takových datových souborů patří QNLI ( články Wikipedie ) a MultiNLI (přepisovaná řeč, populární fikce a vládní zprávy, mimo jiné zdroje); na těchto GPT bylo dosaženo 5,8% a 1,5% zlepšení oproti předchozím nejlepším výsledkům. Podobně překonal předchozí modely ve dvou úkolech souvisejících s odpovídáním na otázky a rozumným uvažováním - o 5,7% na RACE, datové sadě dvojic písemných otázek a odpovědí ze zkoušek na střední a vysoké škole a o 8,9% na testu uzavření příběhu.

Další úkol, sémantická podobnost (nebo detekce parafráze ), posuzuje, zda model dokáže předpovědět, zda jsou dvě věty parafráze jedna na druhou; na datové sadě Quora Question Pairs (QQP) se GPT zlepšila u předchozích nejlépe fungujících modelů o 4,2%. V úkolu klasifikace textu pomocí korpusu lingvistické přijatelnosti (CoLA) dosáhl GPT skóre 45,4 oproti předchozímu nejlepšímu 35,0. Nakonec na GLUE, víceúlohovém testu, dosáhla GPT celkového skóre 72,8 (ve srovnání s předchozím rekordem 68,9).

Zvýšit

GPT-2 byl vytvořen jako přímé zvětšení GPT, přičemž počet jeho parametrů i velikost datové sady se zvýšily faktorem 10. Oba jsou modely transformátorů bez dohledu vycvičené ke generování textu předpovídáním dalšího slova v pořadí tokenů . Model GPT-2 má 1,5 miliardy parametrů a byl vyškolen na datové sadě 8 milionů webových stránek. Zatímco GPT-2 byla posílena na velmi jednoduchých kritériích (interpretace posloupnosti slov v textovém vzorku a předpovídání nejpravděpodobnějšího dalšího slova), produkuje plné věty a odstavce tím, že pokračuje v předpovědi dalších slov a vytváří plně srozumitelné (a sémanticky smysluplné) prohlášení v přirozeném jazyce . Je pozoruhodné, že GPT-2 byl hodnocen z hlediska jeho výkonu při úkolech v nastavení nulové střely .

Výcvik

Protože architektura transformátoru umožňovala masivní paralelizaci , mohly být modely řady GPT trénovány na větších korpusech než předchozí modely NLP. Zatímco počáteční model GPT ukázal, že přístup je životaschopný, GPT-2 bude dále zkoumat vznikající vlastnosti sítí vycvičených na extrémně velkých korpusech. CommonCrawl , velký korpus vytvořený procházením webu a dříve používaný při výcviku systémů NLP, byl zvažován kvůli jeho velké velikosti, ale byl odmítnut poté, co další kontrola odhalila velké množství nesrozumitelného obsahu. Místo toho OpenAI vyvinul nový korpus, známý jako WebText ; WebText byl generován vyřazením pouze stránek propojených s příspěvky Reddit , které obdržely před prosincem 2017 nejméně tři upvotes, místo aby obsah z World Wide Web bez rozdílu škrábaly . Dokumenty HTML byly analyzovány na prostý text, duplicitní stránky byly odstraněny a stránky Wikipedie byly odstraněny (protože jejich přítomnost v mnoha jiných datových sadách mohla způsobit přetížení ).

Přestože je známo, že náklady na školení GPT-2 byly 256 $ za hodinu, počet hodin potřebných k dokončení školení není znám; celkové náklady na školení proto nelze přesně odhadnout. Srovnatelné velké jazykové modely využívající transformátorové architektury však mají své náklady podrobněji zdokumentované; tréninkové procesy pro BERT respektive XLNet spotřebovaly 6 912 $ a 245 000 $ zdrojů.

Výkon

GPT-2 psaní fiktivního zpravodajského článku o akcích Edwarda Snowdena po vítězství v prezidentských volbách v USA v roce 2020 (veškerý zvýrazněný text je generován strojově). Zatímco Snowden nebyl (v době generování) nikdy zvolen do veřejné funkce, generovaný vzorek je gramaticky a stylisticky platný.

Díky šíři datové sady a širokému přístupu se GPT-2 stal schopen plnit různorodou škálu úkolů nad rámec jednoduchého generování textu: odpovídat na otázky, shrnovat a dokonce překládat mezi jazyky v různých konkrétních doménách , aniž by být poučen o čemkoli, kromě toho, jak předvídat další slovo v pořadí.

Jedním příkladem zobecněného učení je schopnost GPT-2 provádět strojový překlad mezi francouzštinou a angličtinou, u které byl výkon GPT-2 hodnocen pomocí překladových úloh WMT-14. Tréninkový korpus GPT-2 neobsahoval prakticky žádný francouzský text; neanglický text byl záměrně odstraněn při čištění datové sady před školením, a v důsledku toho bylo pro model k dispozici pouze 10 MB francouzštiny ze zbývajících 40 000 MB (většinou z citací v cizím jazyce v anglických příspěvcích a článcích) . Navzdory tomu GPT-2 dosáhl 5 BLEU na testovací sadě WMT-14 z angličtiny do francouzštiny (mírně pod skóre překladu prostřednictvím substituce slovo za slovo). Byl také schopen překonat několik současných (2017) bez dohledu nad základními strojovými překlady na testovací sadě z francouzštiny do angličtiny, kde GPT-2 dosáhl 11,5 BLEU. To zůstalo pod nejvýkonnějším současným přístupem bez dozoru (2019), který dosáhl 33,5 BLEU. Jiné modely však používaly k dosažení těchto výsledků velké množství francouzského textu; Odhaduje se, že GPT-2 použil jednojazyčný francouzský korpus přibližně o 1/500 velikosti srovnatelných přístupů.

Uvolnění

GPT-2 byl poprvé představen 14. února 2019. Článek z února 2019 v The Verge od Jamese Vincenta uvedl, že zatímco „[psaní], které produkuje, je obvykle snadno identifikovatelné jako nelidské“, zůstalo „jedním z nejzajímavějších zatím příklady "programů pro generování jazyků:

Dejte tomu falešný nadpis a napíše to zbytek článku, doplněný falešnými citáty a statistikami. Nakrmte to první řadou povídky a ona vám řekne, co se s vaší postavou stane dál. Při správné výzvě může dokonce psát beletrii fanoušků.

The Guardian popsal tento výstup jako „věrohodnou novinovou prózu“; Kelsey Piper z Vox uvedla, že „jeden z nejlepších systémů AI, jaké jsem kdy viděl, může být také tím, který mě vyhodí z práce“. The Verge popsal flexibilitu GPT-2 jako „působivou“; konkrétněbyla zaznamenánajeho schopnost překládat text mezi jazyky, shrnovat dlouhé články a odpovídat na vědomostní otázky.

Studie Amsterdamské univerzity využívající upravený Turingův test zjistila, že alespoň v některých scénářích účastníci nebyli schopni odlišit básně generované GPT-2 od básní napsaných lidmi.

Omezení a částečné uvolnění

Zatímco „Skub“ není skutečný produkt, i model zmenšené velikosti použitý v DistilGPT2 je schopen vytvářet věrohodné argumenty pro i proti.

Zatímco předchozí modely OpenAI byly okamžitě zpřístupněny veřejnosti, OpenAI původně v únoru odmítla zveřejnit zdrojový kód GPT-2 při jeho zveřejnění v únoru s odvoláním na riziko škodlivého používání; u vybraných tiskových výstupů byl při oznámení povolen omezený přístup k modelu (tj. rozhraní, které umožňovalo vstup a poskytovalo výstup, nikoli samotný zdrojový kód). Běžně uváděné odůvodnění bylo, že jelikož generovaný text byl obvykle zcela nový, mohli ho spammeři použít k vyhýbání se automatizovaným filtrům ; OpenAI předvedl verzi GPT-2 vyladěnou tak, aby „generovala nekonečné pozitivní-nebo negativní-recenze produktů“. Dalším bylo, že GPT-2 lze použít ke generování textu, který byl obscénní nebo rasistický . Výzkumníci, jako je Jeremy Howard, varovali před „technologií, která by zcela naplnila Twitter, e-mail a web rozumně znějící a kontextově vhodnou prózou, která by přehlušila veškerou ostatní řeč a nebylo by možné ji filtrovat“. Allen Institut pro umělou inteligenci , v reakci na GPT-2, oznámil nástroj pro detekci „neuronové falešné zprávy“.

Názor byl však rozdělen. Článek z února 2019 v The Verge tvrdil, že hrozba, kterou představuje GPT-2, byla přehnaná; Anima Anandkumar , profesorka společnosti Caltech a ředitelka výzkumu strojového učení společnosti Nvidia , uvedla, že neexistují žádné důkazy o tom, že by GPT-2 měl schopnost představovat hrozby popsané OpenAI, a že to, co dělali, bylo „opakem otevřeného“, charakterizující jejich odmítnutí vydat celý model jako „škodlivý BS “. The Gradient zveřejnil otevřený dopis OpenAI s žádostí o zveřejnění modelu veřejně, srovnáním hrozby, kterou představuje AI pro generování textu, s hrozbou tiskového tisku , a jako příklad uvádí „ Photoshop “ technologii, která (naštěstí) nemá zničil moderní společnost navzdory jejímu potenciálu chaosu “:

O třicet let později se společnost objevila relativně bez úhony, přestože Photoshop byl dostatečně jednoduchý pro studenty středních škol a dostatečně všudypřítomný, aby ovládl své vlastní sloveso. Proč? Právě proto, že každý ví o Photoshopu.

Vydání 774M

Zatímco OpenAI neuvolnil plně vyškolený model nebo korpusy, na kterých byl vyškolen, popis jejich metod v předchozích publikacích (a bezplatná dostupnost základní technologie) umožnily replikaci GPT-2 ostatními jako svobodný software ; jedna taková replikace, OpenGPT-2, byla vydána v srpnu 2019 ve spojení s volně licencovanou verzí WebTextu s názvem OpenWebText. Náklady na cloudové výpočetní prostředky pro OpenGPT-2 byly uvedeny jako přibližně 50 000 USD.

20. srpna 2019 vydala společnost OpenAI částečnou verzi GPT-2 se 774 miliony parametrů (zhruba poloviční velikost oproti plnému modelu s 1,5 miliardami parametrů).

Plné vydání 1,5 B

Počáteční obavy, že by se GPT-2 hodilo k rozsáhlému zneužívání, se nenaplnily; Verge uvedl, že „existují důvody ke skepsi ohledně tvrzení, že technologie AI přinese nějaký druh„ infopocalypse “. Pro začátek již máme programy, které dokážou generovat věrohodný text ve velkém objemu za nízkou cenu: lidé. “ V listopadu 2019 OpenAI uvedlo, že „zatím neviděli žádný silný důkaz o zneužívání“ a plná verze s 1,5 miliardami parametrů byla vydána 5. listopadu 2019.

Omezení

GPT-2 může generovat tematicky vhodný text pro celou řadu scénářů, dokonce i surrealistických, jako je článek CNN o Donaldu Trumpovi, který chválí anime postavu Asuka Langley Soryu . Zde je vidět tendence generovat nesmyslný a opakující se text s rostoucí délkou výstupu (i v plném modelu 1,5B); ve druhém odstavci se gramatika začíná zhoršovat a z výstupu se nakonec stane jedna nesouvislá věta opakující se pořád dokola.

Zatímco schopnost GPT-2 generovat věrohodné pasáže textu v přirozeném jazyce byla obecně pozitivně hodnocena, byly zaznamenány i jeho nedostatky, zejména při generování textů delších než pár odstavců; Vox řekl, že „próza je dost drsná, občas se vyskytne nesekvence a články se stávají méně souvislými, čím déle jsou“. Verge podobně poznamenal, že delší vzorky psaní GPT-2 měly tendenci „odbočit od tématu“ a postrádaly celkovou soudržnost; Register usoudil, že „člověk, který si to přečte, by si měl po krátké době uvědomit, že se něco děje“, a poznamenal, že „GPT-2 neodpovídá na otázky stejně jako jiné systémy, které spoléhají na algoritmy pro extrakci a získávání informací“.

Nasazení GPT-2 je náročné na zdroje; plná verze modelu je větší než pět gigabajtů, což ztěžuje lokální vložení do aplikací a spotřebovává velké množství paměti RAM. Kromě toho provedení jedné predikce „může zabrat CPU při 100% využití na několik minut“ a dokonce se zpracováním GPU „jedna předpověď může trvat sekundy“. Aby společnost Hugging Face tyto problémy zmírnila, vytvořila DistilGPT2 pomocí destilace znalostí k vytvoření menšího modelu, který „u některých benchmarků kvality dosáhne o několik bodů níže“, ale je „o 33% menší a dvakrát rychlejší“.

Implementace a následný výzkum

Mezi možné aplikace GPT-2 popsané novináři patřila pomoc lidem při psaní textů, jako jsou zpravodajské články. Ještě před vydáním plné verze byl GPT-2 používán pro celou řadu aplikací a služeb a také pro zábavu. V červnu 2019, je subreddit pojmenovaný r / SubSimulatorGPT2 vznikl v nichž celá řada GPT-2 případech trénovaných na různých subreddits také příspěvky a jejich odpovědi si navzájem připomínky, vytváří situaci, kdy by bylo možné pozorovat „AI Personifikace r / Bitcoin argumentovat s duchem r/ShittyFoodPorn odvozeným ze strojového učení “; do července téhož roku uživatelé popsali softwarový program založený na GPT-2 k automatickému vyplňování řádků kódu v různých programovacích jazycích jako „měnič her“.

V roce 2019 byl spuštěn AI Dungeon , který pomocí GPT-2 generoval dynamická textová dobrodružství na základě zadání uživatelů. AI Dungeon nyní nabízí přístup k největší verzi GPT-3 API jako volitelný placený upgrade, bezplatná verze webu využívá 2. největší verzi GPT-3. Společnost Latitude, založená kolem AI Dungeon, získala v roce 2021 počáteční financování ve výši 3,3 milionu dolarů. Několik webových stránek pořádá interaktivní ukázky různých instancí GPT-2 a dalších transformátorových modelů.

V únoru 2021 krizové centrum pro problémové mladistvé oznámilo, že začne používat chatbota odvozeného od GPT-2, aby pomohl vyškolit poradce tím, že jim umožní konverzovat se simulovanými mladistvými (toto použití bylo čistě pro interní účely a nezahrnovalo GPT-2 komunikuje se samotnými teenagery).

Reference

  1. ^ Piper, Kelsey (15. května 2019). "Právě byla odhalena AI pro psaní poezie. Je ... docela dobrá" . Vox . Archivováno od originálu dne 7. listopadu 2020 . Citováno 19. prosince 2020 .
  2. ^ a b Johnson, Khari (20. srpna 2019). „OpenAI vydává zkrácenou verzi jazykového modelu GPT-2“ . VentureBeat . Archivováno z originálu dne 18. prosince 2020 . Citováno 19. prosince 2020 .
  3. ^ a b Vincent, James (7. listopadu 2019). „OpenAI publikovalo AI vytvářející text, o které řekl, že je příliš nebezpečná na sdílení“ . The Verge . Archivováno z originálu dne 11. června 2020 . Citováno 19. prosince 2020 .
  4. ^ a b c „Lepší jazykové modely a jejich důsledky“ . OpenAI . 14. února 2019. Archivováno od originálu dne 19. prosince 2020 . Citováno 19. prosince 2020 .
  5. ^ a b Hegde, Chaitra; Patil, Shrikumar (9. června 2020). „Generování parafráze bez dozoru pomocí předem vycvičených jazykových modelů“. arXiv : 2006.05477 [ cs.CL ].
  6. ^ a b c Kaiser, Caleb (31. ledna 2020). „Příliš velké na nasazení: Jak GPT-2 rozbíjí servery“ . Směrem k datové vědě . Archivováno od originálu dne 15. února 2020 . Citováno 27. února 2021 .
  7. ^ a b c d e f Hern, Alex (14. února 2019). „Nový generátor falešných textů AI může být příliš nebezpečný na vydání, říkají tvůrci“ . The Guardian . Archivováno od originálu dne 14. února 2019 . Citováno 19. prosince 2020 .
  8. ^ a b c d e f g h i Radford, Alec; Wu, Jeffrey; Dítě, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14. února 2019). „Jazykové modely jsou studenti bez dozoru s více úkoly“ (PDF) . 1 odst. Archivováno (PDF) z originálu dne 6. února 2021 . Citováno 19. prosince 2020 . Citační deník vyžaduje |journal=( nápověda )
  9. ^ a b c d e f g h i j k l m n o p q r s Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11. června 2018). „Zlepšení jazykového porozumění generativní přípravou“ (PDF) . OpenAI . p. 12. Archivováno (PDF) z originálu dne 26. ledna 2021 . Citováno 23. ledna 2021 .
  10. ^ a b c d e f Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N .; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017-06-12). „Pozornost je vše, co potřebujete“. arXiv : 1706.03762 [ cs.CL ].
  11. ^ a b c d e Olah, Chris; Carter, Shan (8. září 2016). „Pozor a rozšířené opakující se neurální sítě“ . Destilovat . 1 odst. doi : 10,23915/destilát.00001 . Archivováno od originálu dne 22. prosince 2020 . Citováno 22. ledna 2021 .
  12. ^ a b c d e f Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1. září 2014). „Neurální strojový překlad společným učením se zarovnávat a překládat“. arXiv : 1409.0473 [ cs.CL ].
  13. ^ a b c d e f g Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17. srpna 2015). „Efektivní přístupy k pozornosti založené na neurálním strojovém překladu“. arXiv : 1508.04025 [ cs.CL ].
  14. ^ a b „Uvolnění GPT-2: 1,5B“ . OpenAI . 2019-11-05. Archivovány od originálu na 2019-11-14 . Citováno 2019-11-14 .
  15. ^ Brown, Tom B .; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Dítě, Rewon; Ramesh, Aditya; Ziegler, Daniel M .; Wu, Jeffrey; Zima, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Šachy, Benjamine; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22. července 2020). „Jazykové modely jsou studenti s několika výstřely“. arXiv : 2005.14165 [ cs.CL ].
  16. ^ Arram (9. července 2020). „GPT-3: AI, která je neuvěřitelně dobrá na psaní téměř čehokoli“ . Arram Sabeti . Archivováno z originálu 20. července 2020 . Citováno 31. července 2020 .
  17. ^ Hao, Karen (23. září 2020). „OpenAI poskytuje společnosti Microsoft exkluzivní přístup ke svému jazykovému modelu GPT-3“ . Recenze technologie MIT . Citováno 2020-09-25 . Společnosti tvrdí, že OpenAI bude i nadále nabízet své API pro veřejnost, které umožňuje vybraným uživatelům odesílat text na GPT-3 nebo jiné modely OpenAI a přijímat jeho výstup. Pouze Microsoft však bude mít přístup k základnímu kódu GPT-3, což mu umožní vložit, znovu použít a upravit model podle libosti.
  18. ^ Turing, Alan (říjen 1950), „Computing Machinery and Intelligence“, Mind , LIX (236): 433–460, doi : 10,1093/mind/LIX.236.433 , ISSN  0026-4423
  19. ^ Samuel, Arthur (1959). „Některé studie ve strojovém učení pomocí hry dáma“. IBM Journal of Research and Development . 3 (3): 210–229. CiteSeerX  10.1.1.368.2254 . doi : 10,1147/kolo 33,0210 .
  20. ^ a b c Hancox, PJ (26. ledna 1996). „SEM1A5 - část 1 - Stručná historie NLP“ . University of Birmingham. Archivováno z originálu dne 13. ledna 2021 . Citováno 12. ledna 2021 .
  21. ^ a b Nye, Mary Jo (2016). „Mluvení v jazycích: Stáří hon za vědou o společném jazyce“ . Destilace . 2 (1): 40–43. Archivováno z originálu dne 3. srpna 2020 . Citováno 22. března 2018 .
  22. ^ Gordin, Michael D. (2015). Scientific Babel: Jak se dělala věda před a po globální angličtině . Chicago, Illinois: University of Chicago Press. ISBN 9780226000299.
  23. ^ John Hutchins. „První veřejná ukázka strojového překladu: systém Georgetown-IBM, 7. ledna 1954“. S2CID  132677 . Citační deník vyžaduje |journal=( nápověda )
  24. ^ Reifler, Erwin (2. – 5. Února 1960). „Řešení jazykových problémů MT prostřednictvím lexikografie“. Sborník příspěvků z národního sympozia o strojovém překladu .
  25. ^ Hutchins, John (1997). „Od prvního početí do první demonstrace: rodící se roky strojového překladu, 1947–1954. Chronologie“. Strojový překlad 12, 195–252 . 12 (3): 195–252. doi : 10,1023/A: 1007969630568 . S2CID  197591 .
  26. ^ Winograd, Terry (1971-01-01). „Procedury jako reprezentace dat v počítačovém programu pro porozumění přirozenému jazyku“ . hdl : 1721,1/7095 . Archivováno od originálu dne 2021-01-13 . Citováno 2021-01-12 . Citační deník vyžaduje |journal=( nápověda )
  27. ^ "SHRDLU" . Stanford Group Human-Computer Interaction (HCI) Group . Archivováno od originálu dne 2020-08-16 . Citováno 2021-01-12 .
  28. ^ Weizenbaum, Joseph (leden 1966), „ELIZA - počítačový program pro studium komunikace přirozeného jazyka mezi člověkem a strojem“, komunikace ACM , 9 (1): 36–45, doi : 10,1145/365153.365168 , S2CID  1896290
  29. ^ Bassett, Caroline (2019). „Výpočetní terapeutikum: zkoumání Weizenbaumovy ELIZY jako historie současnosti“ . AI a společnost . 34 (4): 803–812. doi : 10,1007/s00146-018-0825-9 .
  30. ^ Hancox, PJ (26. ledna 1996). „SEM1A5-část 1-Nejmodernější technologie“ . University of Birmingham. Archivováno z originálu dne 16. ledna 2021 . Citováno 12. ledna 2021 .
  31. ^ Howe, J. (listopad 1994). „Umělá inteligence na univerzitě v Edinburghu: perspektiva“ . Archivovány od originálu dne 17. srpna 2007 . Citováno 30. srpna 2007 . Lighthillova [1973] zpráva vyvolala masivní ztrátu důvěry v AI akademickým zřízením ve Velké Británii (a v menší míře v USA). Trvalo to deset let-takzvaná „zima AI“
  32. ^ a b Russell, Stuart J .; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, str. 24, ISBN 0-13-790395-2, archivováno z originálu 2011-02-28 , vyvoláno 2021-01-12 , Celkově vzrostl průmysl AI z několika milionů dolarů v roce 1980 na miliardy dolarů v roce 1988. Brzy poté přišlo období zvané „AI Winter“ '
  33. ^ Rosenblatt, Frank (1957). „Perceptron - vnímající a rozpoznávající automat“. Zpráva 85-460-1 . Letecká laboratoř Cornell.
  34. ^ Bishop, Christopher M. (2006). Rozpoznávání vzorů a strojové učení . Springer. ISBN 0-387-31073-8.
  35. ^ a b Olazaran, Mikel (1996). „Sociologická studie oficiální historie kontroverze perceptronů“. Sociální vědy . 26 (3): 611–659. doi : 10,1177/030631296026003005 . JSTOR  285702 . S2CID  16786738 .
  36. ^ Minsky, Marvin; Papert, Seymour (1969), Perceptrons: An Introduction to Computational Geometry , MIT Press, ISBN 0-262-63022-2
  37. ^ a b c d Wilson, Bill (24. června 2012). „Slovník strojového učení“ . www.cse.unsw.edu.au . Archivovány od originálu dne 26. srpna 2018 . Citováno 19. ledna 2021 .
  38. ^ a b Goodfellow, Iane ; Bengio, Yoshua ; Courville, Aaron (2016). „6.5 Algoritmy zpětné propagace a jiné diferenciace“ . Hluboké učení . Stiskněte MIT. s. 200–220. ISBN 9780262035613. Archivováno od originálu dne 2018-01-27 . Citováno 2021-03-14 .
  39. ^ Werbos, Paul J. (1994). Kořeny zpětné propagace: Od uspořádaných derivátů k neurálním sítím a politickým prognózám . New York: John Wiley & Sons. ISBN 0-471-59897-6.
  40. ^ Crevier, Daniel (1993). AI: Bouřlivé hledání umělé inteligence . New York, NY: Základní knihy. ISBN 0-465-02997-3.
  41. ^ Parker, DB (1985). „Logika učení“. Centrum pro výpočetní výzkum v ekonomii a manažerské vědě. Cambridge MA: Technologický institut v Massachusetts. Citační deník vyžaduje |journal=( nápověda )
  42. ^ Rumelhart, David E .; Hinton, Geoffrey E .; Williams, Ronald J. (1986a). „Učení reprezentace chybami zpětného šíření“. Příroda . 323 (6088): 533–536. Bibcode : 1986Natur.323..533R . doi : 10,1038/323533a0 . S2CID  205001834 .
  43. ^ Fukušima, Kunihiko (říjen 1979). „位置 ず れ に 影響 さ れ な い パ タ ー ン 認識 認識 機構 の 神 経 回路 の モ デ デ デ ル --- ネ オ コ グ ニ ト ロ ロ ン ン ---“ [Model neuronové sítě pro mechanismus rozpoznávání vzorů neovlivněný posunem polohy-Neocognitron-]. Trans. IECE (v japonštině). J62-A (10): 658–665. Archivováno od originálu dne 2021-01-28 . Citováno 2021-01-20 .
  44. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). „Hluboké učení“. Příroda . 521 (7553): 436–444. Bibcode : 2015Natur.521..436L . doi : 10,1038/příroda14539 . PMID  26017442 . S2CID  3074096 .
  45. ^ a b c d e Bajpai, Akash (23. února 2019). „Recurrent Neural Networks: Deep Learning for NLP“ . Směrem k datové vědě . Citováno 19. ledna 2021 .
  46. ^ Sepp Hochreiter ; Jürgen Schmidhuber (21.srpna 1995), Long krátkodobé paměti , wikidata  Q98967430
  47. ^ Sepp Hochreiter ; Jürgen Schmidhuber (1997). „LSTM dokáže vyřešit těžké dlouhodobé problémy se zpožděním“ (PDF) . Pokroky v systémech zpracování neurálních informací 9 . Pokroky v systémech zpracování neurálních informací. Wikidata  Q77698282 .
  48. ^ Sepp Hochreiter ; Jürgen Schmidhuber (1997). „Dlouhodobá krátkodobá paměť“ . Neurální výpočet . 9 (8): 1735–1780. doi : 10,1162/neco.1997.9.8.1735 . PMID  9377276 . S2CID  1915014 . Archivováno od originálu dne 2021-01-22 . Citováno 2021-01-20 .
  49. ^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (květen 2009). „Nový spojovací systém pro neomezené rozpoznávání rukopisu“. IEEE transakce na analýze vzorů a strojové inteligenci . 31 (5): 855–868. CiteSeerX  10.1.1.139.4502 . doi : 10.1109/tpami.2008.137 . ISSN  0162-8828 . PMID  19299860 . S2CID  14635907 .
  50. ^ Märgner, Volker; Abed, Haikal El (červenec 2009). „Soutěž ICDAR 2009 o uznání arabského rukopisu“. 2009 10. mezinárodní konference o analýze a rozpoznávání dokumentů : 1383–1387. CiteSeerX  10.1.1.212.602 . doi : 10.1109/ICDAR.2009.256 . ISBN 978-1-4244-4500-4. S2CID  52851337 .
  51. ^ Olah, Chris (27. srpna 2015). „Pochopení sítí LSTM“ . Archivovány od originálu dne 1. srpna 2017 . Citováno 22. ledna 2021 .
  52. ^ Buck, Christian; Heafield, Kenneth; van Ooyen, Bas (květen 2014). „Počty n-gramů a jazykové modely ze společného procházení“ : 3579–3584. Archivováno z originálu dne 28. ledna 2021 . Citováno 22. ledna 2021 . Citační deník vyžaduje |journal=( nápověda )
  53. ^ Vlk, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). „Transformátory: Nejmodernější zpracování přirozeného jazyka“. Sborník z konference 2020 o empirických metodách ve zpracování přirozeného jazyka: Systémové ukázky . s. 38–45. doi : 10.18653/v1/2020.emnlp-demos.6 . S2CID  208117506 .
  54. ^ a b Tsvetkov, Julia (22. června 2017). „Příležitosti a výzvy při práci s jazyky s nízkými zdroji“ (PDF) . Univerzita Carnegie Mellon. Archivováno (PDF) z originálu dne 31. března 2020 . Citováno 23. ledna 2021 .
  55. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22. června 2015). „Zarovnání knih a filmů: K vizuálním vysvětlením podobným příběhu sledováním filmů a čtením knih“. arXiv : 1506.06724 [ cs.CV ]. Počet knih: 11 038 / počet vět: 74 004 228 / počet slov: 984 846 357 / průměrný počet slov na větu: 13 / střední počet slov na větu: 11
  56. ^ Williams, Adina; Nangia, Nikita; Bowman, Samuel (1. června 2018). „Korpus širokého pokrytí pro porozumění větám pomocí odvozování“ (PDF) . Asociace pro výpočetní lingvistiku. Archivováno (PDF) z originálu dne 11. února 2020 . Citováno 23. ledna 2021 . Na 433 tis. Příkladech je tento zdroj jedním z největších dostupných korpusů pro odvozování přirozeného jazyka (aka rozpoznávání textové souvislosti), [...] nabízí data z deseti odlišných žánrů psané a mluvené angličtiny [...] a přitom poskytuje explicitní nastavení pro hodnocení adaptace domén napříč žánry.
  57. ^ Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15. dubna 2017). „RACE: Rozsáhlá přepracovaná souhrnná datová sada z vyšetření“. arXiv : 1704.04683 [ cs.CL ].
  58. ^ Mostafazadeh, Nasrin; Roth, Michael; Louis, Annie; Chambers, Nathanael; Allen, James F. (3. dubna 2017). „LSDSem 2017 Shared Task: The Story Cloze Test“ (PDF) . Asociace pro výpočetní lingvistiku. Archivováno (PDF) z originálu dne 22. listopadu 2020 . Citováno 23. ledna 2021 . Společným úkolem LSDSem'17 je test Story Cloze Test, nové hodnocení porozumění příběhu a učení se skriptu. Tento test poskytuje systém se čtyřvětým příběhem a dvěma možnými konci a systém musí zvolit správné ukončení příběhu. Úspěšné narativní porozumění (přiblížit se 100%lidské výkonnosti) vyžaduje, aby systémy propojovaly různé úrovně sémantiky se znalostí rozumu.
  59. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omar; Bowman, Samuel R. (20. dubna 2018). „GLUE: Víceúlohová srovnávací a analytická platforma pro porozumění přirozenému jazyku“. arXiv : 1804.07461 [ cs.CL ].
  60. ^ a b Trinh, Trieu H .; Le, Quoc V. (7. června 2018). „Jednoduchá metoda pro uvažování rozumu“. arXiv : 1806.02847 [ cs.CL ].
  61. ^ a b Quach, Katyanna (14. února 2019). „Růže jsou červené, to je vznešené: Nejnovější chatovací robot OpenAI jsme nakrmili klasickým regulárním titulkem“ . Registr . Archivováno z originálu dne 9. března 2021 . Citováno 27. února 2021 .
  62. ^ a b „Ohromující náklady na školení modelů SOTA AI“ . Synchronizovány . 27. června 2019. Archivováno od originálu dne 24. listopadu 2020 . Citováno 27. února 2021 .
  63. ^ Wiggers, Kyle (23. března 2020). „Rámec otevřených zdrojů Google, který snižuje náklady na školení AI až o 80%“ . VentureBeat . Archivováno od originálu dne 26. listopadu 2020 . Citováno 27. února 2021 .
  64. ^ a b c d e f Vincent, James (14. února 2019). „Nová multitalentovaná AI OpenAI píše, překládá a pomlouvá“ . The Verge . Archivováno z originálu dne 18. prosince 2020 . Citováno 19. prosince 2020 .
  65. ^ a b c Piper, Kelsey (14. února 2019). „AI nám pomohla napsat tento článek“ . Vox . Archivováno od originálu dne 8. listopadu 2020 . Citováno 19. prosince 2020 .
  66. ^ Köbis, Nils; Mossink, Luca D. (1. ledna 2021). „Umělá inteligence versus Maya Angelou: Experimentální důkaz, že lidé nemohou odlišit AI generovanou od poezie psané lidmi“ . Počítače v lidském chování . 114 : 106553. doi : 10,1016/j.chb.2020,106553 .
  67. ^ Schwartz, Oscar (4. července 2019). „Mohl by být falešný text další globální politickou hrozbou?“ . The Guardian . Archivováno z původního dne 16. července 2019 . Citováno 16. července 2019 .
  68. ^ a b Vincent, James (21. února 2019). „Výzkumníci AI diskutují o etice sdílení potenciálně škodlivých programů“ . The Verge. Archivováno z originálu dne 9. února 2021 . Citováno 27. února 2021 .
  69. ^ a b Zhang, Hugh (19. února 2019). „OpenAI: Otevřete prosím zdrojový kód svého jazykového modelu“ . Přechod. Archivováno z originálu dne 28. ledna 2021 . Citováno 28. února 2021 .
  70. ^ Gokaslan, Aaron; Cohen, Vanya; Pavlick, Ellie; Tellex, Stefanie (22. srpna 2019). „OpenGPT-2: Replikovali jsme GPT-2, protože můžete také“ . Pozoruhodné . Citováno 27. února 2021 .
  71. ^ a b Vincent, James (6. června 2019). „Existuje subreddit, který je zcela naplněn personifikací AI jiných subredditů“ . The Verge . Archivováno z originálu dne 21. února 2021 . Citováno 27. února 2021 .
  72. ^ Vincent, James (24. července 2019). „Tento software pro automatické doplňování využívající umělou inteligenci je inteligentní psaní Gmailu pro kodéry“ . The Verge . Archivováno z originálu dne 9. března 2021 . Citováno 27. února 2021 .
  73. ^ Olson, Mathew (17. prosince 2019). „AI Dungeon 2, textová adventura, kde můžete dělat téměř cokoli, je nyní na mobilu“ . Archivováno od originálu dne 20. září 2020 . Citováno 27. února 2021 .
  74. ^ Nelius, Joanna (3. srpna 2020). „Tato textová hra s výběrem pro vlastní dobrodružství s umělou inteligencí je super zábavná a nedává smysl“ . Gizmodo . Archivováno z originálu dne 28. února 2021 . Citováno 27. února 2021 .
  75. ^ Ha, Anthony (4. února 2021). „AI Dungeon-maker Latitude získává 3,3 mil. $ Na vytváření her s„ nekonečnými “možnostmi příběhu“ . TechCrunch. Archivováno z originálu dne 21. února 2021 . Citováno 27. února 2021 .
  76. ^ „Psát pomocí transformátoru“ . Citováno 4. prosince 2019 .
  77. ^ „Promluvte si s Transformerem“ . Citováno 4. prosince 2019 .
  78. ^ "CreativeEngines" . Získaný 25. června 2021 .
  79. ^ Ohlheiser, Abby; Hao, Karen (26. února 2021). „AI trénuje poradce, jak se vypořádat s mladistvými v krizi“ . Recenze technologie MIT. Archivováno z originálu dne 27. února 2021 . Citováno 27. února 2021 .