PA153 Poˇc´ıtaˇcov´e zpracov´an´ı pˇrirozen´eho jazyka 08 - Lexikografick´e n´astroje a poˇc´ıtaˇcov´a lexikografie

Karel Pala, Adam Rambousek Centrum ZPJ, FI MU, Brno

11. listopadu 2013

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

1 / 22

1

Lexikografie ´ Uvod Lexikografie Slovn´ıky a poˇc´ıtaˇce

2

Poˇc´ıtaˇcov´a lexikografie Reprezentace dat TEI Dictionary Writing Systems

3

Tvorba slovn´ıku Lexik´aln´ı datab´aze Slovn´ık

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

2 / 22

Lexikografie PLIN035 Poˇc´ıtaˇcov´a lexikografie podoblast lexikologie lexicography, lexikografie I I I

the activity or occupation of compiling dictionaries (Oxford d.) the editing or making of a dictionary (Merriam-Webster d.) the job of writing a dictionary (Macmillan d.)

praktick´a lexikografie teoretick´a lexikografie - anal´yza a popis slovn´ı z´asoby, teorie o prvc´ıch slovn´ıku, skupin´ach uˇzivatel˚ u, hodnocen´ı Slovn´ık n´arodn´ıho jazyka n´aleˇz´ı mezi prvn´ı potˇrebnosti vzdˇelan´eho ˇclovˇeka.

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

3 / 22

Historie hlinˇen´e tabulky z Ebla (S´yrie), cca 2500-2250 pˇr.n.l. I

sumerˇstina - eblaˇstina

Robert Cawdrey: A Table Alphabeticall, 1604 I I

prvn´ı v´ykladov´y slovn´ık angliˇctiny ”hard wordes, borrowed from... for the benefit & helpe of Ladies, Gentlewomen, or any other unskilfull persons”

Samuel Johnson: A Dictionary of the English Language, 1747-1755 I I

modern´ı slovn´ık, 42 773 hesel ”to preserve the purity and ascertain the meaning our English idiom”

Noah Webster: An American Dictionary of the English Language, 1828 I I

70 000 hesel, srovn´an´ı britsk´e a americk´e angliˇctiny odm´ıtal zaˇrazovat do slovn´ık˚ u nesluˇsn´a slova

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

4 / 22

Historie The Oxford English Dictionary (A New English Dictionary) I I I

1857, Philological Society, R. C. Trench, kritika slovn´ık˚ u 1879, James A. H. Murray jmenov´an hlavn´ım editorem 1882-1928, vych´az´ı 12 svazk˚ u, 15 487 stran, 240 000 hesel

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

5 / 22

Historie Bartolomˇej z Chlumce, Klaret, 14. stolet´ı I I

latinsko-ˇcesk´e slovn´ıky, Vokabul´aˇr (gramatick´y), Bohem´aˇr, Glos´aˇr Raro sequens gesta de bestiis cernis honesta. Lew leo wlkque lupusque le[e]na lwicze, nedvied ursus Ursaque nedviedicze, lupa wlczicze, dic ovis owcze, Koza capra, vulpes lyskaque canicula tysta.

Daniel Adam z Veleslav´ına, 16. stolet´ı I

Nomenclator quadrilinguis + Silva quadrilinguis, ˇceˇstina-latina-ˇreˇctina-nˇemˇcina, 958+300 stran, ˇrazeno ˇcesky

Jan Amos Komensk´y, 17. stolet´ı I

I

Thesaurus linguae Bohemicae - latinsko-ˇcesk´y, ˇcesko-latinsk´y, synchronn´ı, diachronn´ı, lexik´aln´ı, gramatick´e informace, frazeologie 20 let pˇr´ıprav... poˇz´ar Leˇsna

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

6 / 22

Historie Josef Jungmann, Slovn´ık ˇcesko-nˇemeck´y I I I

1815-1833, vyd´ano 1835-1839 5 svazk˚ u, 4694 stran popisn´y v´ykladov´y slovn´ık

Kancel´aˇr Slovn´ıku jazyka ˇcesk´eho, 1911 I I I I I

sbˇer slovn´ıkov´eho materi´alu, dobrovoln´ıci v´ypisky z pr´ ozy, b´asn´ı, odborn´e literatury, publicistick´ych ˇcl´ank˚ u Pˇr´ıruˇcn´ı slovn´ık jazyka ˇcesk´eho, 1935-1957 10 824 stran, 250 000 hesel cenzura ”neˇz´adouc´ıch spisovatel˚ u”

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

7 / 22

Slovn´ıky a poˇc´ıtaˇce 60. l´eta - pouˇz´ıvaj´ı se poˇc´ıtaˇce, lexikografov´e p´ıˇs´ı na pap´ır, specialist´e pˇrepisuj´ı do datab´aze, Brown Corpus 1978, Longman Dictionary of Contemporary English I I

prvn´ı s omezen´ym slovn´ıkem definic´ı, kontrolov´ano strojovˇe k´ odov´an´ı pro NLP v´yzkum

1980, COBUILD, University of Birmingham + Collins I I I I I

korpus souˇcasn´ych text˚ u (Bank of English) 1987, Collins COBUILD English Language Dictionary prvn´ı slovn´ık zaloˇzen´y na korpusov´ych datech nov´y styl definice - cel´e vˇety If a person, animal, or other living thing is killed, something or someone causes them to die.

90. l´eta - v´yvoj specializovan´ych syst´em˚ u pro tvorbu slovn´ık˚ u 1987, Text Encoding Initiative

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

8 / 22

XML

PB138 Modern´ı znaˇckovac´ı jazyky eXtensible Markup Language - znaˇckovac´ı (meta)jazyk pravidla, jak m´a vypadat spr´avnˇe vytvoˇren´y dokument - snadn´e strojov´e zpracov´an´ı a v´ymˇena informac´ı konkr´etn´ı n´azvy znaˇcek urˇcuje uˇzivatel (standardy, vlastn´ı) elementy obsah bez obsahu lze zkr´atit na atributy

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

9 / 22

XML spr´avn´e zanoˇren´ı znaˇcek I I

spr´avnˇe: text ˇspatnˇe: text

speci´aln´ı znaky (napˇr. ,&) se pˇrepisuj´ı na entity (napˇr.

XML Schema (XSD, XML Schema Definition) I

I I I

popis obsahu a struktury XML dokumentu, sch´ema samotn´e je XML dokument elementy, atributy, struktura moˇznost urˇcit vlastn´ı typy obsahu (napˇr. opakuj´ıc´ı se adresa) kontrola obsahu (napˇr. ˇc´ıseln´y rozsah, regul´arn´ı v´yrazy, povolen´e hodnoty)

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

11 / 22

Zobrazen´ı XSLT – eXtensible Stylesheet Language (Transformations) pˇrevod XML na jin´e form´aty I

jin´e XML znaˇckov´an´ı, text, HTML, LaTeX, PDF

ˇsablony pro ˇc´asti XML dokumentu, postupn´e proch´azen´ı dokumentu funkcion´aln´ı programovac´ı jazyk

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

12 / 22

Ukl´ad´an´ı

XML datab´aze ukl´adaj´ı se pˇr´ımo XML dokumenty vyhled´av´an´ı - XPath, XQuery napˇr. eXist, BaseX, Sedna

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

13 / 22

TEI

Text Encoding Initiative, http://www.tei-c.org/ TEI Guidelines (aktu´alnˇe verze 5 z roku 2007) XML form´at pro s´emantick´y popis textov´ych dokument˚ u velk´y rozsah znaˇcek TEI Lite – osekan´a verze, ”90 % potˇreb 90 % uˇzivatel˚ u” rom´any, poezie, divadeln´ı hry, dokumentace, slovn´ıky, korpusy, grafy, rukopisy, zarovn´an´ı, odkazy, zmˇeny textu, notov´e z´apisy... n´astroje - sada XSLT pro pˇrevod na LaTeX, docx, EPUB, HTML

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

14 / 22

Dictionary Writing Systems

aplikace pro tvorbu slovn´ık˚ u (obvykle cel´y proces tvorby) ˇcasto vlastn´ı komerˇcn´ı I I

I

IDM DPS - klient-server (Windows) iLex - j´adro a dokupovan´e moduly, samostatnˇe nebo klient-server, mobily (Windows, Linux, Mac) TLex - online, offline (Windows, Mac)

DEB (Dictionary Editor and Browser) I I I I

platforma pro slovn´ıkov´e aplikace klient-server, z´akladn´ı knihovny, speci´aln´ı moduly DEBDict, DEBVisDic, Internetov´a jazykov´a pˇr´ıruˇcka http://deb.fi.muni.cz

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

15 / 22

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

16 / 22

Lexik´aln´ı datab´aze

podrobn´a strukturovan´a jazykov´a datab´aze I I I I I

(nyn´ı obvykle) doklady z korpusu gramatick´e u ´daje valence, vzory styl, uˇzit´ı, oblast... vztahy mezi slovy

podklad pro slovn´ıky a v´yzkum PraLeD (Praˇzsk´a Lexik´aln´ı Datab´aze) DANTE (Database of ANalysed Texts of English)

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

17 / 22

Tvorba slovn´ıku

tvorba slovn´ık˚ u je drah´a, n´aroˇcn´a a trv´a dlouho, konkurence grant nebo se mus´ı vyplatit

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

18 / 22

Tvorba slovn´ıku B. T. Sue Atkins, Michael Rundell: The Oxford Guide to Practical Lexicography

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

19 / 22

Tvorba slovn´ıku co chyb´ı? → druh slovn´ıku a jeho uˇzivatel´e rozpoˇcet a ˇcasov´y pl´an uˇzivatelsk´e profily, Style guide editaˇcn´ı software (v´yroba nebo nastaven´ı) korpus (v´yvoj, prohled´av´an´ı) procesy p´ıˇseme slovn´ık vzhled a sazba (tisk, digit´aln´ı) v´yroba propagace prodej profit

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

20 / 22

Obsah slovn´ıku

makrostruktura – hesl´aˇr (+pˇredmluva, pˇr´ılohy...) heslo1 = lemma, entry term, heslov´e slovo, headword I I

obvykle nominativ sg., slovesa v infinitivu ˇc´asti slov, spojen´ı slov

heslo2 = heslov´a stat’, entry mikrostruktura – struktura jednoho z´aznamu ve slovn´ıku I I

kontrola pomoc´ı softwaru usnadnˇen´ı orientace pro ˇcten´aˇre

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

21 / 22

Elektronick´e slovn´ıky

v´ıce informac´ı (CD, DVD, web) multim´edia delˇs´ı vysvˇetluj´ıc´ı ˇcl´anky, odkazy na dalˇs´ı zdroje I I

materi´aly pro uˇcitele, pro studenty pˇribalen´y korpus

vyhled´av´an´ı navigace zobrazov´an´ı u ´daj˚ u podle profilu uˇzivatele (ˇcast´e operace)

Karel Pala, Adam Rambousek

PA153 Zpracov´ an´ı pˇrirozen´ eho jazyka

Poˇ c´ıtaˇ cov´ a lexikografie

22 / 22