The Translator and the Computer 2

Łukasz Grabowski, Tadeusz Piotrowski (editors) The Translator and the Computer 2 Proceedings of a Conference held in Wrocław, October 25–26, 2014, o...

Author: Ewa Wróbel

68 downloads 2 Views 3MB Size

Report

Download PDF

Recommend Documents

Translation Technology and the Translator

The Fortran Simulation Translator

THE ETHICS OF TRANSLATION AND TRANSLATOR

The Name and Nature of Translator Studies

The Secret Diary of the Translator

The Computer and Cartography

The Metamorphosis Kafka, Franz (Translator: Ian Johnston)

LINEAR TRANSLATOR FOR THE BASIC OPTICS SYSTEM

Chapter 2. Exploring the Human-Computer Interface

Chapter 2 Instructions: Language of the Computer

Chapter 2. Instructions: Language of the Computer

The Translator Package Manual for Version 1.00

INFORMATION ECONOMICS, THE TRANSLATION PROFESSION AND TRANSLATOR CERTIFICATION

GILBERT W. KING AND THE IBM-USAF TRANSLATOR JOHN HUTCHINS

"Process-Oriented Translator Training and the Challenge for E-Learning"

The Apostolic Bible Polyglot Translator s Note

TRANSLATOR: A TRANSlator from LAnguage TO Rules

The Computer Museum's 1996 Computer Bowl. The Computer Museum, Boston

The Value of Machine Translation for the Professional Translator

Omni-Bus Interface Translator Rev 2

The Computer and Farm Management

CALIBAN AS THE PROTOTYPE OF THE POSTCOLONIAL TRANSLATOR

E-Learning and Translator Training

Łukasz Grabowski, Tadeusz Piotrowski (editors)

The Translator and the Computer 2 Proceedings of a Conference held in Wrocław, October 25–26, 2014, organized by the Philological School of Higher Education and C&M Localization Centre

WYDAWNICTWO WYŻSZEJ SZKOŁY FILOLOGICZNEJ WE WROCŁAWIU

© Copyright by Wyższa Szkoła Filologiczna we Wrocławiu, Wrocław 2015

Reviewer: prof. dr hab. Alicja Pisarska

Cover design: Konstancja Górny Editorial reading & DTP: Dorota Bazan

ISBN 978-83-60097-49-6 (PB) ISBN 978-83-60097-50-2 (HB) ISBN 978-83-60097-51-9 (PDF)

This publication is financed by Philological School of Higher Education in Wrocław.

WYDAWNICTWO WYŻSZEJ SZKOŁY FILOLOGICZNEJ WE WROCŁAWIU 50–335 Wrocław, ul. Sienkiewicza 32, tel. (+48 71) 328 14 14 fax (+48 71) 322 10 06, http://www.wsf.edu.pl, e-mail: [email protected] Wydanie I.

Contents

Note from the Editors ......................................................................................

5

Dorota Guttfeld, Student strategies for dealing with variables in translating computer game text assets ................................................

9

Katarzyna Kacprzak, Google Translate w dydaktyce przekładu specjalistycznego ........................................................................................

19

Małgorzata Kalita, Kształcenie kompetencji instrumentalnych przyszłych tłumaczy języków słowiańskich ...........................................

31

Agnieszka Kałużna, Machine-translation tools in the students’ translation training ....................................................................................

39

Izabela Kusicielek, Słownik polsko-hiszpański w systemie tłumaczenia automatycznego opartym na regułach ....................................................

51

Małgorzata Laczek, Angielskie ekwiwalenty polskich terminów technicznych i nietechnicznych w kontekście akademickim ...............

65

Monika Linke-Ratuszny, Commercial software and free online resources in translator’s education – a case study of students’ preferences ..................................................................................................

87

Mateusz Sajna, Computer-assisted translation tools and video game rendition .........................................................................

105

Iwona Sikora, Marcin Walczyński, Incorporating CAT tools and ICT in the translation and interpreting training at the undergraduate level ........................................................................

119

Bogusław Solecki, A comparative analysis of sample translations of various text types and registers produced by Google Translate and human translators ..............................................................................

135

4

Contents

Monika Szela, Problems of terminological consistency in translation memories ............................................................................

155

Rafał Szubert, Aspekty prawne i etyczne wykorzystywania technik komputerowych i informatycznych w warsztacie tłumacza przysięgłego ...............................................................................

169

Anna Walicka, Wybrane aspekty oceny użyteczności pamięci tłumaczeniowych (na przykładzie tłumaczenia z języka francuskiego umowy spółki z ograniczoną odpowiedzialnością) .................................................................................

185

Maria Winiarek, Komputerowy tłumacz automatyczny w edukacji tłumaczy ..................................................................................

197

Notes about Authors ........................................................................................

207

Note from the Editors

The papers included in this volume constitute a written record of the presentations delivered at the conference The Translator and the Computer 2 held on 25–26 October, 2014, organized by the Philological School of Higher Education in Wrocław in collaboration with the C&M Localization Centre. The honorary patronage over the conference was taken by the Polish Society of Sworn and Specialized Translators PT TEPIS. A two-day meeting attracted a diverse group of participants who shared their experiences and insights on how to better use computer technologies in the translator’s work and education. They presented more than 30 papers, with plenary lectures delivered by Professor Marcin Miłkowski (Institute of Philosophy and Sociology of the Polish Academy of Sciences in Warsaw) and Dr. Rafał Szubert (University of Wrocław, the Polish Society of Sworn and Specialized Translators PT TEPIS). Apart from regular presentations, there were also three practical workshops and special sessions dedicated to presentation of commercial software, such as SDL Trados Studio and memoQ, conducted by Bartłomiej Dymek, Marcin Marciniszyn, Dorota Szaszko and Daria Pakura from C&M Localization Centre, as well as by Marek Pawelec, an experienced freelance translator and memoQ trainer. Needless to say, the list of participants in the conference included linguists, lexicographers, translators, academic teachers, computer scientists, product specialists and many other scholars and practitioners interested in using the whole variety of computer programs and tools in the translator’s work. Finally, a novel aspect of the conference was a roundtable session on how to teach future translators at higher education institutions. Throughout this event, academic teachers, researchers, employers, translators and students were confronting their opinions on whether graduate students are adequately prepared to pursue the translator’s career path on the Polish labour market. In short, the panel provided an excellent opportunity for a reflection on the current model of translator education at Polish universities. The present volume contains a selection of papers, written in English or Polish, originally presented at the conference and dealing primarily with various aspects, that is, practical, economic, ethical or legal, related to the use of computer technologies in the translator’s work and in teaching future translators at institutions of higher education. The papers are arranged in alphabetical order. In the first paper Dorota Guttfeld presents certain problems faced by translators of computer games, namely the difficulties with connecting static and

6

Note from the Editors

dynamic text strings caused by the rules of grammatical concord, notably in terms of number, case and gender. Having discussed various constraints in computer game localization, the author presents translation techniques used by students in order to deal with concord-related problems in English-to-Polish translation of computer games. Next, Katarzyna Kacprzak shares her experiences with using Google Translate, a free machine-translation application available online, in teaching translation to students of spanish philology at a number of higher education institutions in Warsaw. Discussing machine-assisted translations of various text types and genres completed by students, the author also shows that Google Translate may come in useful for professional translators dealing with specialist texts. Importantly, Katarzyna Kacprzak emphasizes that Google Translate output should be treated with caution, and that one should have both substantial professional experience and specialist knowledge in order to appropriately evaluate the suggestions provided by the application. In a similar vein Małgorzata Kalita describes her teaching experience with using two computer-assisted translation tools popular on the Polish market, that is, Trados Studio and memoQ, when working with students of Slavic Philology at the University of Silesia in Katowice. The author explains the reasons why the CAT tools are introduced to students during classes in information technology. Other important issues, such as when to introduce CAT tools to students and how much time to plan for this in the curriculum, are also discussed in greater detail, taking into consideration the fact that students of slavic philology learn foreign languages (e.g. Czech, Serbian or Macedonian) starting at A0-level (according to the CEFR framework). The paper by Agnieszka Kałużna presents the results of a case study conducted at the University of Zielona Góra on the usability of machine-translation tools by students of English while translating various text types in class. Izabela Kusicielek explores various possibilities offered to translators of lesser-known languages by Apertium, a free open source rule-based machinetranslation platform. The author presents the application’s workflow and describes what types of dictionaries are used by this scalable machine-translation system. Finally, the use of shallow transfer rules by Apertium in the process of translation is explained in greater detail and illustrated with selected examples of translations from Polish into Spanish. Małgorzata Laczek addresses a practical translational problem, that is, rendering of specialist terms related to organization and management of institutions of higher education in Poland. Apart from traditional dictionaries (general and specialist ones), the author makes ample use of various materials available online, including, first and foremost, authentic texts. Using a number of examples, the paper makes a strong case for detailed computer-assisted analyses of domain-specific texts, readily available online and produced “naturally”

Note from the Editors

7

in a source and target language, in order to fine-tune translation of specialist terminology from Polish into English. In her paper Monika Linke-Ratuszny makes an attempt to identify the Internet resources for translators (search engines, various types of online dictionaries, fora for translators, etc.), frequently used by students of translation at Nicolaus Copernicus University in Toruń. Using a purpose-designed questionnaire, the author also explores the strategies used by students in order to make the most effective use of the aforementioned resources when translating selected types of specialist texts. In the following paper, Mateusz Sajna outlines the position of translation in localization of video games. The author discusses the scope and limitations of using computer-assisted translation tools for video games localization. For the sake of clarity, the very specificity of video games is compared in the paper with specialist technical texts, Internet websites, books and movies, notably in the context of translation facilitated by computer-assisted translation tools. Iwona Sikora and Marcin Walczyński present a number of proposals concerning incorporation of CAT tools and computer technologies into teaching translation and interpreting to undergraduate students of Business English at the University of Applied Sciences in Nysa (PWSZ). Apart from describing the curriculum in greater detail, the authors present the whole variety of additional tools (online applications, Internet fora for translators, etc.) and offer many practical guidelines for lecturers and instructors teaching translation and interpreting at the undergraduate level. Bogusław Solecki’s paper is a continuation of his ongoing research focused on measuring the quality of English-to-Polish and Polish-to-English translation of randomly selected fragments of texts, representing the whole variety of text types and registers, completed with the help of Google Translate machine-translation tool. In the paper, an attempt is made at determining whether it is possible to identify any registers that lend themselves best to being translated by the application. The results of Solecki’s study suggest that Google Translate performance is an optimum one if, first, one uploads into Google Translate texts representing formal or neutral registers, and, second, if a source text is in Polish. The paper by Monika Szela presents an intriguing discussion on terminological consistency facilitated by translation memories, that is, collections of pre-aligned parallel texts. The author demonstrates that, in contrast to popular belief, terminological consistency should not be taken for granted even if one uses high-quality translation memories authorized by official institutions. By analyzing English-to-Polish translations of selected legal terms found in official translations of five European treaties signed in 2007 and 2012, the author identified a number of terminological inconsistencies, yet also showed that certain discrepancies were corrected in later consolidated versions of the treaties.

8

Note from the Editors

Rapid development of computer technologies and electronic translation tools, notably the ones available “in the cloud,” has recently given rise to a multitude of legal and ethical problems related to translators’ handling personal or sensitive data. Such important issues as the ones briefly mentioned above are addressed in the paper by Rafał Szubert who presents specific guidelines and suggestions, grounded in philosophy and civil law, as to how translators should dispose of personal and sensitive data in their day-to-day professional work. Anna Walicka focuses on the evaluation of translation memories compiled by translators and implemented into computer-assisted translation systems. More specifically, the author poses a question whether it is possible to rigorously measure an increase in the translator’s productivity depending on the contents of translation memories. Using Wordfast Classic to translate certain fragments of a legal text from French into Polish, the author employed two metrics, that is, a source text cover and target text cover, to measure the expected translator’s productivity increase. Finally, the author converts the obtained scores into time (in minutes) potentially saved by the translator. In the last paper, Maria Winiarek, explores the possibilities of using machinetranslation tools at classes in German-to-Polish literary translation at Adam Mickiewicz University in Poznań. Capitalizing on the typology of translational errors developed by Christiane Nord, the author compares the translations of selected fragments of a satire by Klaus Staeck completed by a professional translator and by students who used online machine-translation tools. The results of the analysis revealed the most common pragmatic, cultural and linguistic errors in the students’ translations. The author concludes that awareness of the types of errors made by machine-translation tools may come in particularly useful when proofreading machine-translated texts, among other benefits discussed in the paper. The Editors Łukasz Grabowski and Tadeusz Piotrowski

Student strategies for dealing with variables in translating computer game text assets

Dorota Guttfeld

Nicolaus Copernicus University in Toruń, Poland

Abstract. In English-Polish translation of computer games, text strings featuring variables pose grammatical problems, caused by the target language’s requirement for agreement between the fixed and the variable part of the text in terms of number, case, and gender. The paper will illustrate such issues and categorize techniques for dealing with them employed by students specializing in translation when faced with strings which required them to circumvent agreement-related problems. Keywords. Computer games, text assets, translation, variables, strings.

1. Constraints in computer game localization The process of computer game localization involves numerous constraints. Since games are typically polysemiotic texts and the textual layer is usually not the primary one, problems arise between the target text and the audiovisual context in which it is placed, for instance because of limited space or the interplay with other channels of communication. As a result, the notion of synchrony (Mayoral, Kelly & Gallardo 1988) is very much applicable, and those constraints involving spatial and content synchrony connect the field strongly to audiovisual translation; in both cases, the audiovisual content is difficult to modify, and it is usually the text that needs to be adapted to preserve synchrony. These types of problems will be outside the scope of the present paper, which will deal exclusively with translatable content stored in the form of text (i.e. text assets). However, context-related problems do not necessarily need to involve the visual or the audio channel; the problematic context can also be constituted by other pieces of text. Since games can be huge projects, game translators have to maintain consistency (e.g. with respect to terminology and style) throughout a large body of texts. This is made even more difficult as the original text is very often organized and delivered to the localizing team in a way which obscures the translator’s perspective on the product as a whole, occasionally leading to

10

Dorota Guttfeld

misunderstandings and inconsistencies. Finally, there is an even narrower category of issues: even on a small scale, without any polysemiotic complications or references to other portions of the text, with the text’s meaning and the context of the game’s plot being absolutely clear, translation problems can still be caused by neighbouring pieces (or: strings) of text with which a given string has to co-occur. This third, micro-scale category of problems, arising between various textual elements, may for instance appear in the case of concatenated strings (i.e. strings arranged together to form a whole, for instance a full sentence); in the case of strings which are recycled by the game’s engine to serve multiple purposes (e.g. as a label on a map and inside a dialogue exchange); or, most typically, at the boundary, or interface, between the static framework of a string of text and dynamic variables, which are “replaced by another word, value or string at application run-time” (Esselink 2000: 68). Even if the values of such variables are provided in a closed list known to the localizers at the time of translation, in English-Polish translation they may nevertheless pose problems in terms of grammar, caused by the target language’s requirement for agreement between the fixed and the variable part of the text in terms of number, case, and gender. It will by the last group of problems, involving variables and grammatical concord, which will be the subject of discussion in this paper. 2. Variables and grammatical concord As already noted, connecting static and dynamic text may be complicated by rules of grammatical concord. Placeholders present in text strings may stand for items representing various grammatical categories which may clash with the static frameworks that surround them, or with other dynamic elements. The values which such variables can assume are sometimes unknown to the translator, for instance if they are generated by the user (e.g. the player character’s name); if they are to be expanded by add-ons and updates which the translator cannot access yet; or if, due to the organization of the localization process, the game is still in an early stage of development when the translation needs to commence. In other cases, the list of possible values might be a closed one, but long and varied enough to effectively constitute an unknown for the translator. In the case of English to Polish translation, some of the grammatical problems involve: past tense verb forms with subjects of unknown grammatical gender (“X was…” → “X został / została / zostało…”); demonstrative pronouns and adjectives with nouns of unknown number and gender (“this X is unavailable” → “ten obiekt jest niedostępny / ta opcja jest niedostępna”); distinction between masculine personal gender and non-masculine personal gender

Student strategies for dealing with variables…

11

in the plural (“these” → “te / ci”); nouns with unknown plural numerals (“X fields” → “2 pola / 5 pól”); prepositions with nouns starting with an unknown letter (“z / ze,” “w / we”); and, generally, the complex system of noun declension (“twoja jednostka / z twoją jednostką”). Sample strings involving concord problems of this type are illustrated below: [1] [2] [3] [4]

%CHARACTER has been killed. %CITY has gained %NUMBER golden achievement point(s) You can build your %STRUCTURE_TYPE in the %TERRAIN_TYPE I can give you my favourite %OBJECT of %MATERIAL.

If Polish translators wished to render the stable elements of the above strings literally, in example [1], they would have to ascertain the character’s gender and use a matching verb form; in example [2], the city’s name can be masculine, feminine or neuter, or possibly plural, but also, if the numeral were above 4, or a compound number not ending with 2, 3 or 4, the noun case of “points” would need to become accusative. In example [3], the form of “your” would vary depending on the gender of the following noun, and neither of the nouns would come in the nominative case, which means the same variable string could not be recycled for use in labels. In example [4], again, the form of “my” is governed by the following noun, and the form of “of ” could depend on the beginning of the other noun (e.g. “zbroję z żelaza, zbroję ze stali”). Both nouns indicated by the placeholders would need to be in the genitive case. Naturally, the best solution in such cases would be for certain elements of grammar to be included in the software’s code. As Heather Maxwell Chandler and Stephanie O’Malley Deming observe, it would be helpful if “the game engine knows if words are masculine or feminine, singular or plural, in order to allow the correct generation of phrases in-game as direct responses to players’ actions” to help translators into languages with “very rich in morphological systems (with gender, numbers, declensions, etc.)” (Chandler & Deming 2011: 114). This is especially important for games which involve a large amount of text, such as strategy or role-playing games. And indeed, [s]ome game engines can dramatically reduce the amount of translation required by building in formulae and linguistic variables that follow the morphological rules of each language the game is being localized into. […] the game engine should account for the masculine, feminine and neutral adjectives used in German and parse the words correctly when translated. These built-in morphological engines can automatically make all the possible variations from a single translation (Chandler & Deming 2011: 113).

For example, MediaWiki software uses such parser functions as GRAMMAR or PLURAL to produce the word forms needed in particular messages in

12

Dorota Guttfeld

Polish, and takes into account the user’s declared gender when displaying messages. The following example shows a message that can include either the masculine (“usunął”) or the feminine (“usunęła”) form of the verb “delete” (Translatewiki.net 2014): “$1 {{GENDER:$2|usunął|usunęła}} stronę $3”

Many computer games also include some elements of grammar in their engines. The examples below, from Castleville [5] and Sid Meier’s Civilization V [6], show mechanisms for dealing with determiners, plural nouns, and adjective gender: [5] a Hat a Hat Hat Hats some Hats the Hats the Hat [6] TXT_KEY_CIV_AMERICA_ADJECTIVE American Americano:Americana:Americani:Americane Male:Female:Male:Female 0:0:1:1

However, such internal grammar is still far from common, and localizers are rarely in a position to request the implementation of a full morphology engine for their target language. Even if such a mechanism is introduced, the number of options is often insufficient for the needs of Polish, with its very extensive and irregular declension system. For instance, the very flexible and localization-friendly system offered by Civilization V may allow for the declension of nouns and adjectives and for their changing grammatical gender, but it cannot be expected to feature a distinction between animate masculine and non-animate and animate non-masculine nouns, which Polish requires in the plural. Thus, it is often more convenient if translators neutralize linguistic problems before they arise, for example by using the most universal forms available. This is what Microsoft’s Polish Style Guide (Polski Oddział Firmy Microsoft 2011) advocates when dealing with strings involving all kinds of gender, number and case-related problems (not necessarily including placeholders, as in translation gender can be an issue whenever addressing the user). As the guide illustrates, in some cases the means of defusing these problems are

Student strategies for dealing with variables…

13

already implemented in the source text; for instance, system messages say “user %s is logged on” rather than simply “%s is logged on,” which gives the translator a stable noun (“user”) to govern the verb so that in Polish the gender of the user ceases to be a problem, a strategy which could also be introduced by translators on their own when required. In other cases, it is sufficient to choose a form that is not marked for a particular feature. For instance, Polish future tense is formed by pairing “być” (‘to be’) with either a past participle or an infinitive verb form, and the latter version is naturally preferred due to its gender neutrality. Thus, “jeśli będziesz wykonywać” is favoured over “jeśli będziesz wykonywał / jeśli będziesz wykonywała”; since the strings are equivalent, no manipulation of the content or the grammatical structure is necessary, merely the selection of the more universal of the two options. However, the guide also illustrates two more solutions which represent slight departures from the original: “%s hours ago” is supposed to become “godzin temu: %s,” and “you are now connected” is to be rendered as “połączono się.” In the latter case, an impersonal form substitutes a personal one to avoid gender-related problems. (Polski Oddział Firmy Microsoft 2011). In the former one, the colon in a way replaces normal grammatical agreement, which would be complicated by the aforementioned case differences between various group of numerals. The resulting message is stylistically imperfect, yet it is apparently deemed better by specialists to draw attention to the interface between its static and the dynamic parts by means of a colon, and in a way preempt problems, than to produce a translation that would be perfect in some cases only (“7 godzin temu”) while failing in other cases (“3 godzin temu”). 3. Teaching techniques for avoiding concord-related problems As this last solution shows, the notion of what is acceptable and unacceptable in localization might be counterintuitive to those used to the translation of linear texts. For instance, while teaching a course on audiovisual translation, which also featured issues in software localization, I observed that translation around variables in particular required a very conscious effort from the students, who benefited from a structured approach to the problem: first, they needed to identify the variables; second, to state what, in a particular case, the translator would be allowed to do (e.g. whether it was acceptable to change the order of the variables or eliminate them); third, to find or generate a few grammatically diverse values these variables could take; fourth, to test a draft translation against these values, and modify it if concord problems arose; fifth, to check for other problems (such as stylistic issues, character limits, or natural line breaks). In order to more effectively train skills leading to the avoidance of agreement-related problems in the translation of text strings, it would be desirable to

14

Dorota Guttfeld

group and systematize them, to create a metalanguage for easier reference and recall. The introduction of such a framework should help introduce a structured approach to the most problematic phase of the process, namely the production of the draft translation itself, by giving students an idea about the range of options from which they may choose. For effective teaching, it may be also advisable to assess which of the techniques come more naturally to students, and what disadvantages they may entail. After a series of classes on computer game localization, including the analysis of professional renderings and standards such as those discussed briefly above, I also wished to check which of these types of solutions would materialize in student translations most readily so as to accordingly adjust the curriculum. The following examination of students’ approach to similar problems will be based on a framework which distinguishes between these various types of solutions: those involving the use of a universal label, such as user; those analogous to the solution employed in godzin temu: %s, disrupting the flow of the original phrase, for instance by means of a colon; and those similar to połaczono się, involving a substantial change in the sentence structure. 4. Students’ solutions to concord-related problems In the study described in this paper, 67 students taking a course in the translation of audiovisual texts (first year of their MA program) were given the graded assignment of dealing with two strings of text involving variables, designed to generate agreement-related problems. Each student was assigned two such tasks out of the total pool of nine. Two students failed to come up with any translations and gave up; the remaining 65 translators produced 120 renderings in total. As illustrated above, sometimes it was possible to avoid such a problem without departing from the original wording, as in the case of “jeśli będziesz wykonywać”; such faithful translations, where avoiding a problem was simply a matter of selecting one of possible literal translations, were not counted. Only solutions which showed a departure from literal translation (as understood by Vinay & Darbelnet 1958), such as the use of the colon or the impersonal form discussed above, were taken into account. Since a task could involve more than one problem, the students implemented a total of 286 such separate, non-literal solutions for dealing with problems of the type discussed in the paper. The tasks were a part of a graded test. The text to be translated was prepared specially for the task, based on actual strings from a variety of games, coded in XML with placeholders clearly distinguishable from static text. The text was quoted along with surrounding tags, and accompanied by hints about the possible values a given placeholder could stand for, as illustrated by the example below:

Student strategies for dealing with variables…

15

ENEMY_UNIT_SPOTTED %COMMANDER_NAME has spotted an enemy of %PLAYER_ COUNTRY nearby. Should the invincible forces of %PLAYER_COUNTRY squash this intruder? The commander’s name can be feminine or masculine. The name of the country can be Rome, Sparta, Phoenicia, Persia, etc.

Whenever a student departed from a literal rendering to resolve a concord problem, the solutions were sorted into three categories: expansion, reduction, and mutation. The problems which were unnoticed or unresolved by students were counted separately, and not included into the abovementioned total. In localization practice, it naturally happens that some issues are never resolved in a linguistically correct way. The use of italics, colours, etc. helps players distinguish dynamic elements from the stable framework of text, and players’ knowledge of game conventions may somehow excuse these problems in their eyes; however, in this case, only more or less successful solutions will be the focus of the following discussion. In order to stabilize the interface between static and dynamic parts of a text, the students could add a semantically universal, intermediary structure whose grammatical features take the strain off the interface (e.g. a generic label), as in the “user %s” example. This type of solution will be called expansion. The examples below illustrate the uses of expansion, with the variable being underlined and the additional element marked in bold (please note: the examples in this section are not actual student renderings). Postać Christopher została zabita. Miasto Ateny zyskało liczbę złotych punktów rozwoju równą 1000! Możesz postawić budowlę typu doki na obszarze oznaczonym jako dorzecze. Mogę ci dać mój ulubiony przedmiot, którym jest kolczuga, wykonany z materiału zwanego stal.

The second popular solution was to use minimal linguistic structures that recipients need to expand themselves, with the interface between stable and dynamic parts being marked by such elements as dashes, colons, parentheses, abbreviations, appositive structures, etc. As illustrated below, this is akin to the “godzin temu: %s” solution suggested in Microsoft’s Polish Style Guide, and will be referred to as reduction. R.I.P. Christopher! Ateny – 1000 zł. pkt. rozwoju! Możesz postawić budowlę (doki) na terenie: dorzecze. Mogę ci dać: kolczuga (stal).

16

Dorota Guttfeld

Finally, students could choose a different grammatical structure altogether, one which involves less variation (e.g. an impersonal verb form or a presenttense form), as in the case of “połączono się.” This is often necessary to avoid gender-related problems even without the complication of placeholders. For instance, “you have opened the door” could be rendered as “otwierasz drzwi,” “udało ci się otworzyć drzwi,” “drzwi dały się otworzyć!” or simply “otwarte!.” All such solutions will be labelled as mutation. The use of mutation is illustrated below. Christopher nie żyje! Dorzecze to świetny teren na coś takiego jak doki. Proszę, oto kolczuga. Spójrz, stal – piękny nabytek, prawda? Teraz należy do ciebie!

Overall, among the 286 student solutions in their 120 translations, there were 143 cases of expansion, 46 cases of reduction, and 97 cases of mutation; 38 problems remained unresolved. Since all the students had been introduced to basic issues in computer game translation, the results may be tentatively used to gauge future teaching strategies so as to sensitize students to the perils connected with specific types of solutions. Expansion, used most commonly, usually involved single-word labels (such as “gracz,” “użytkownik,” “postać,” “przedmiot,” “jednostka,” “oddział”). It apparently proved to be easy and popular; it might be viewed as a safe solution possible to implement almost automatically. The danger, however, is that the additions are not necessarily stylistically transparent; used repeatedly, they contribute to an unnatural, bureaucratic style, introducing deadwood lexis which then occupies valuable space in a menu or dialog box. Reduction, by contrast, was the least common of techniques. It usually involved the elimination of a verb or preposition, the introduction of abbreviations (such as “pkt” for “punkty”/“punktów”) or punctuation marks (usually parentheses and colons). The resulting renderings were short and universal; the relatively infrequent use of the technique might be due to the fact that students probably focused on finding a solution that would sound more elegant, and create full, stylistically acceptable sentences. Indeed, if the technique is overused, the language tends to degenerate into primitive, choppy phrases. Interestingly, there were some excessive uses of elements associated with both expansion and reduction. Some students seemed to insert labels such as “postać” or “użytkownik” even if the sentence was already phrased in such a way that the variable would appear in the nominative case and should not cause any problems. It was difficult to definitively tell such cases apart from mere wordiness. However, cases where indicators of reduction were used needlessly are easier to spot. In 12 cases students used superfluous punctuation marks to signal the interface between static and dynamic parts of the text. This

Student strategies for dealing with variables…

17

might result from the fact these two solutions are viewed as safe and possible to use automatically and pre-emptively, without even ascertaining their use is strictly necessary. The third type of solution, mutation, sometimes involved minor changes only (18 cases of tense shifts into present tense, 2 uses of impersonal verb forms). Compared to the two previous techniques, mutation has the potential to produce translations that are both brief and natural. However, it requires a degree of creativity and cannot be easily automated. Also, it might involve the loss of some of the variables (10 cases), or a reversal of the order in which they appear, which could be unacceptable to the commissioner. Finally, the semantic changes are not always innocent. For instance, “udało się” is an impersonal form followed by the infinitive, which allows the translator to avoid gendered verb forms; however, its use also suggests the action is an epic endeavour, which does not always suit the context. This might explain why some students could be afraid to use the technique. […] 5. Conclusions To recapitulate, during a course devoted to the translation of audiovisual texts students were presented with examples of text assets in the form of XML strings. The strings required the translators to spot and circumvent agreement-related problems and led to the use of several types of strategies. Student solutions for avoiding concord problems might be divided into three groups, depending on whether they stabilize the boundary between static and dynamic text by adding an intermediary structure, reduce the problematic elements to a non-verbal form, or change the phrase into a variant that does not pose concord problems. Of these, the first type were the most popular. With expansion dominating, the risk of stylistic deterioration it involves and the importance of spatial constraints might need to be especially stressed in the didactic process. Interestingly, sometimes the students seemed to over-react or perhaps act automatically and use the wordy structures typical of expansion, and the unnatural punctuation typical of reduction, without specific cause. These two solutions might be the most characteristic, that is, stylistically distinctive and perceptually salient in the games played by the students, and hence potentially stylistically contagious. Also they might be viewed as easy to copy and use automatically, and safer than mutation, which indeed sometimes could run into technical problems. The perception of these solutions by students as well as game players would need to be the subject of further study.

18

Dorota Guttfeld

References Chandler, Heather Maxwell, Stephanie O’Malley Deming 2012: The Game Localization Handbook. 2nd ed. Sudbury: Jones & Bartlett Learning. Esselink, Bert 2000: A Practical Guide to Localization. Amsterdam: John Benjamins. Firaxis Games 2010: Sid Meier’s Civilization V [MS Windows game edition]. Mayoral, Roberto, Dorothy Kelly, Natividad Gallardo 1988: Concept of constrained translation: Non-linguistic perspectives of translation. Meta 33 (3), 356–367. Venuti, Lawrence (ed.) 2000: The Translation Studies Reader. London: Routledge. Vinay, Jean-Paul, Jean Darbelnet 1958: A Methodology for Translation. In: Lawrence Venuti (ed.) 2000: The Translation Studies Reader. London: Routledge, 84–93. Zynga 2011. Castleville [web browser game]. Źródła internetowe Polski Oddział Firmy Microsoft 2011: Polish Style Guide. In: http://www.microsoft. com/language/en-us/styleguides.aspx ED 03.2014. Translatewiki.net 2014: Gender. In: https://translatewiki.net/wiki/Gender ED 03.2014. Streszczenie Artykuł wskazuje strategie radzenia sobie ze zmiennymi w przekładzie na potrzeby gier komputerowych, ilustrując je przykładami tłumaczeń dokonywanych przez studentów. W procesie lokalizacji gier tłumacz jest ograniczony kwestiami technicznymi (zwłaszcza w przypadku elementów graficznych i filmowych) oraz koniecznością ujednolicenia treści przekazywanej różnymi kanałami (dźwiękowym, graficznym, tekstowym). Ponadto same elementy tekstowe muszą także współgrać z innymi elementami tekstowymi, których zawartość może nie być znana tłumaczowi. Fragmenty tekstu mogą składać się na dłuższe wypowiedzi, mogą też zawierać zmienne o wartości generowanej w trakcie gry, wprowadzanej przez gracza albo losowanej z obszernej bazy, którą mogą dodatkowo powiększać różnorakie rozszerzenia. Związana z tym niepewność stoi w sprzeczności z potrzebami języka polskiego, który wymaga zgodności pomiędzy statycznym tekstem a jego nieznanymi lub dynamicznymi uzupełnieniami pod względem rodzaju gramatycznego, liczby i przypadku. Niniejszy artykuł ilustruje związane z tym problemy i kategoryzuje rozwiązania zastosowane przez grupę studentów anglistyki specjalności tłumaczeniowej, którym podczas zajęć przedstawiono fragmenty tego typu tekstów z poleceniem ich przetłumaczenia. Teksty, przedstawione w formacie XML, zawierały wskazówki dotyczące możliwych wartości zmiennych i wymagały od studentów zauważenia oraz obejścia potencjalnych problemów. Sześćdziesięcioro pięcioro studentów, którzy tłumaczyli po dwa losowo dobrane przykłady (z puli dziewięciu zadań), wyprodukowało łącznie 120 tłumaczeń, w których znalazło 286 tego typu problemów. Można je podzielić na trzy typy, na potrzeby niniejszego artykułu nazwane: ekspansja, redukcja, mutacja. Pierwsza z opcji oznacza dodanie do zmiennej wyrazu lub frazy, które zniwelują problem; druga – usunięcie elementu wymagającego zgodności gramatycznej; trzecia – zmianę całej konstrukcji na bardziej uniwersalną.

Google Translate w dydaktyce przekładu specjalistycznego

Katarzyna Kacprzak

Akademia Finansów i Biznesu Vistula, Warszawa, Polska

Abstrakt. Celem niniejszego artykułu jest zbadanie przydatności programu Google Translate w nauczaniu teorii i praktyki tłumaczeń specjalistycznych oraz w pracy tłumacza. W artykule omówiono przykłady ćwiczeń translatorskich wykonywanych ze studentami III roku studiów licencjackich oraz I roku studiów magisterskich filologii hiszpańskiej w trakcie zajęć praktycznych; cele ćwiczeń oraz ich rezultaty: jak studenci uczą się rozpoznawać cechy dobrego tłumaczenia oraz odróżniać tłumaczenie maszynowe od tekstu przetłumaczonego przez człowieka. Słowa kluczowe. Google Translate, dydaktyka przekładu, tłumacz automatyczny, tłumaczenie maszynowe.

1. Wprowadzenie Celem niniejszego artykułu jest zbadanie użyteczności aplikacji Google Translate (GT) w nauczaniu teorii i praktyki tłumaczeń specjalistycznych w parze językowej: język polski i hiszpański. Artykuł jest próbą zbadania sposobów i metod wykorzystania GT w dydaktyce przekładu. W badaniu wzięli udział studenci III roku studiów licencjackich oraz I roku studiów magisterskich filologii hiszpańskiej. 2. Krótki rys historyczny W 1960 r. Yehoshua Bar-Hillel w artykule zatytułowanym „A Demonstration of the Nonfeasibility of Fully Automatic High Quality Translation” (FAHQT) napisał: “Pomysł, iż możliwe jest wynalezienie metody, by FAHQT stało się faktem, to na razie marzenie, które nie spełni się w możliwej do przewidzenia przyszłości” (tłum. – K.K., Bar-Hillel 1960). Jednym z prostych przykładów, które wymieniał autor artykułu i których maszyna przez długi jeszcze czas nie miała przetłumaczyć, było zdanie „The box was in the pen”, występujące np. w następującym kontekście:

20

Katarzyna Kacprzak Little John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.

Maszyna, argumentował Bar-Hillel, nie dysponuje wystarczająco dużą ilością danych dotyczących wieloznaczności każdego z elementów ww. zdania. Inteligentny człowiek z kontekstu zdania wyciągnie natychmiast wniosek, o jakich rozmiarów przedmiocie/miejscu o nazwie „pen” jest mowa. Maszyny tłumaczące, w roku 1960, wyjaśnia Bar-Hillel, musiałyby mieć wbudowany nie tylko słownik, ale całą uniwersalną encyklopedię, aby móc poprawnie przetłumaczyć przytoczone zdanie. Trudno stwierdzić jednoznacznie, od kiedy dokładnie GT był w stanie zaproponować takie rozwiązanie, ale od co najmniej 11.10.2012 r. jako jedną z propozycji tłumaczenia ww. zdania w tym programie można wybrać polski odpowiednik: „Pudełko było w zagrodzie”. O takie mniej więcej tłumaczenie chodziło Bar-Hillelowi (jeszcze lepsze byłoby zapewne: „Pudełko było w kojcu”). Zajęło to około 50 lat, ale udało się dostarczyć automatycznemu tłumaczowi wystarczającą ilość danych, aby zaproponować akceptowalny ekwiwalent w języku docelowym. Takie rozwiązanie osiągnięto nie poprzez wbudowanie modułu encyklopedycznego w mechanizm aplikacji, lecz poprzez umieszczenie odpowiednio wielkiego korpusu tekstów w bazie danych, z których korzysta GT. Na początku XXI w. zawód tłumacza tekstów specjalistycznych przechodzi coraz to nowe transformacje: tłumacze liczą się z rosnącą konkurencją maszyn na rynku, używają o wiele częściej i bardzo wielu narzędzi CAT, tłumaczą wspólnie z maszynami i innymi osobami w zespołach zadaniowych, przy czym nadal w przypadku większości par językowych maszyny nie są w stanie zastąpić ludzi. Jednak już następne pokolenia młodych tłumaczy muszą być przygotowywane głównie do współpracy z maszynami, a nie tylko do samodzielnego wykonywania zadań tłumaczeniowych. 3. Studenckie tłumaczenia za pomocą GT lub innych tłumaczy automatycznych Przechodząc do omówienia sposobów praktycznego użycia GT w trakcie pracy ze studentami uczącymi się tłumaczyć teksty specjalistyczne, należy zacząć od tego, jak przygotować studentów do rozróżniania tłumaczeń „ludzkich” od maszynowych. W niniejszym artykule wykorzystane zostaną fragmenty prac studentów filologii hiszpańskiej z kilku warszawskich szkół wyższych. Na początek analizie poddany zostanie tekst El amante gallego de Marylin, zamieszczony w marcu 2012 r. na portalu www.abc.es, należącym do jednego z najpoczytniejszych dzienników hiszpańskich. Zadaniem studentów na poziomach B1– B2 było przetłumaczenie ww. tekstu na język polski. Omawiając ze studentami

Google Translate w dydaktyce przekładu specjalistycznego

21

wyniki ich pracy, zwróciłam uwagę na niektóre fragmenty przygotowanych tłumaczeń. Fragment brzmiący: En torno a Marilyn, aquellos días, también estuvo el fotógrafo coruñés Julio Souza Fernández, del estudio de los Hermanos Mayo, quien retrató a la actriz en la bulliciosa rueda de prensa del Hotel Continental en la que Monroe apareció sin ropa interior

został przetłumaczony jako: W otoczeniu Marilyn w tamtych daniach był fotograf z De La Coruña, Julio Souza Fernández ze studia Hermanos Mayo. Sfotografował on aktorkę na konferencji prasowej w hotelu Continental, na której Marilyn pojawiła się bez majtek.

Oprócz literówek, jak np. w słowie „daniach”, fragment zawierał wyrażenie „bez majtek”, nieco zaskakujące z powodu rejestru użytego w tłumaczeniu artykułu prasowego. Jednak najbardziej zdumiewające było przetłumaczenie przymiotnika „coruñés” jako „z De La Coruña”1. Nie jest to dowód na użycie tłumacza automatycznego, choć od razu przychodzi do głowy taka możliwość. W tym wypadku autor(ka) tłumaczenia być może przepisał(-a) zbyt szybko i niefrasobliwie definicję z jakiegoś słownika. Można wykorzystać przykład, by wskazać, że wygląda na produkt automatyczny ze względu na to, iż kompetentny tłumacz-człowiek sprawdziłby nazwę miasta i jej polską pisownię. Fragment oryginału: Este libro es, pretende ser, algo más: una crónica del exilio y de las sagas de la emigración gallega y española a la busca del llamado «sueño» americano. Y reivindica, también, la búsqueda de las raíces, algo que hoy está de moda en América. En Estados Unidos, la cadena NBC ha puesto en marcha un programa titulado «Who do you think you are?», es decir, «¿Quién crees que eres?», una frase que remite a otra de estirpe genuinamente gallega: «¿E ti quen vés sendo?»

otrzymał w jednym z tłumaczeń na język polski następujące brzmienie: Ta książka ma być coś innego: kronika wygnania i sagach galicyjskich i hiszpańskiej emigracji w poszukiwaniu tzw. „Dream” Amerykanina. I roszczenia, które, znajdując korzenie, coś, co jest modne dzisiaj w Ameryce. W Stanach Zjednoczonych, NBC uruchomiła program „Jak myślisz, kto jesteś?”, Czyli „Jak myślisz, kto jesteś?”, Wyrażenie, które odwołuje się do innego rodu autentycznie galicyjskiej: „E Sendo quen widzisz? 1

Coruñés to przymiotnik oznaczający osobę/przedmiot/zjawisko pochodzące z galicyjskiego miasta La Coruña. Po polsku wyrażenie „fotógrafo coruñés” powinno zostać przetłumaczone jako „fotograf z La (A) Coruñi”.

22

Katarzyna Kacprzak

O tym, że tłumaczenie pochodzi z narzędzia automatycznego świadczą rezultaty otrzymane po wpisaniu oryginału do GT 20 października 2014 r. Otrzymaliśmy m.in. następujące fragmenty przekładu maszynowego na język polski: Ta książka ma być coś innego: Kronika emigracji i sagi z hiszpańskiej Galicji i emigracji w poszukiwaniu tzw. „sen” amerykański. I twierdził również poszukiwanie korzeni, coś, co jest modne w Ameryce. W Stanach Zjednoczonych, NBC uruchomiła program zatytułowany „Jak myślisz, kto jesteś?”, Czyli „Jak myślisz, kto ty jesteś?”.

Nietrudno natychmiast zauważyć uderzające „podobieństwo” niektórych sformułowań z wersji studenta(-tki) i wersji GT. Dzięki takiemu przykładowi możemy omówić ze studentami nie tylko kwestie uczciwości zawodowej, lecz i wiele cech tłumaczenia automatycznego, które mogą łatwo rozpoznać profesjonaliści. Studenci czasami nie zauważają takich błędów, jak np.: • błędna deklinacja: „kronika wygnania” i „sagach galicyjskich”, • nieznajomość terminologii ogólnohumanistycznej („sueño americano” ‘amerykański sen’), • niezauważanie kompletnego chaosu logicznego oraz niepoprawnego szyku zdań (cały powyższy tekst), • powtarzanie tych samych sformułowań, zdań, nawet niepoprawnych („Jak myślisz, kto jesteś?”), • mieszanie języków, rejestrów etc. („E Sendo quen widzisz?”). W cytowanym powyżej fragmencie w domniemanym języku polskim trudno nawet mówić o „tłumaczeniu”, gdyż wynikowy tekst jest obarczony wieloma błędami. Jednak często uchybienia podobnego rodzaju, nie nagromadzone w jednym zdaniu, lecz bardziej rozproszone, umykają uwadze niektórych studentów filologii. Zatem pierwszą niewątpliwą zasługą GT jest możliwość wykazania, że tłumaczenie jest niesamodzielne, zaś drugą – ważniejszą – okazja wskazania nieuniknionych i poważnych błędów, na jakie naraża się użytkownik narzędzia opracowanego przez firmę Google. 4. Porównanie tłumaczeń maszynowych GT Następne proponowane ćwiczenie wymaga od studentów dużo większej uwagi i przenikliwości. Studentom poziomów od B2 do C1 przedstawia się trzy wersje tłumaczenia tekstu z języka polskiego na język hiszpański (wykonane przez GT) wraz z informacją, że tekst polski jest stosunkowo znany. Następnie studenci mają dokonać analizy tłumaczeń oraz skomentować ich jakość i domniemanych autorów.

Google Translate w dydaktyce przekładu specjalistycznego

23

1. Al parecer, en la primera frase de su discurso es siempre el más difícil. Así que ellos tienen ya detrás de ellos … Pero yo siento que ya la siguiente frase será difícil, tercera, sexta, décima, hasta el último, porque tengo que hablar de poesía. En este tema hablo casi nunca, casi nunca. Yo siempre acompañé a mi creencia de que no hacer esto mejor. Así que mi lectura no es demasiado largo. Todos imperfección es más fácil de tolerar si se sirve en pequeñas dosis. 2. Al parecer, en la primera frase de su discurso es siempre el más difícil. Así que ellos tienen ya fuera de sí … Pero siento que las sentencias serán difíciles, y la tercera, sexta, décima, hasta el último, porque tengo que hablar de poesía. Sobre este tema hablo pocas veces, casi nunca. Siempre me acompañó a mi creencia de que no lo hace bien. De modo que mi lectura no es demasiado largo. Todos imperfección es más fácil de tolerar si se sirve en pequeñas dosis. 3. Al parecer, en su discurso, la primera frase es siempre el más difícil. Así que he ellos ya terminado y hecho con … Pero siento que las sentencias serán difíciles, tercera, sexta, décima, hasta el último, porque tengo que hablar de poesía. Sobre este tema rara vez hablo, casi nunca. Siempre me acompañaba a mi creencia de que yo no lo hago bien. Así que mi lectura no es demasiado largo. Todos imperfección es más fácil de tolerar si se sirve en pequeñas dosis.

Po analizie tekstów zadajemy pytanie: Kto tłumaczył poszczególne wersje?. Najczęstsze odpowiedzi to „niedoświadczony tłumacz”, „student”. Drugie pytanie dotyczy błędów językowych. Studenci zgłaszają nieprawidłowe konstrukcje niektórych par podmiot–orzeczenie; niezgodność rodzajów gramatycznych, niektóre nieprawidłowe formy czasownikowe itd. Studenci rzadko zauważają brak spójności tekstu albo nie zauważają go w ogóle. Po szczegółowej analizie wszystkich wskazanych przez studentów faktycznych lub domniemanych błędów językowych, próbujemy sformułować wspólne przypuszczenia co do źródeł błędów. Ostatecznie informuję ich, że „autorem” tłumaczeń we wszystkich trzech przypadkach jest GT. Tłumaczenia przedstawiam w porządku chronologicznym. Dysponując tą wiedzą i trzema wersjami tłumaczenia maszynowego, studenci mają następnie za zadanie odtworzyć tekst polskiego oryginału. Nie zdarzyło mi się jeszcze ani na etapie wstępnym, ani na etapie „powrotnego tłumaczenia” na język polski uzyskać od studentów poprawnej odpowiedzi na to, jaki jest tekst oryginalny. Chodzi o początek tzw. mowy noblowskiej Wisławy Szymborskiej. Inne wnioski płynące z ćwiczenia są następujące:  Większość studentów dochodzi do wniosku, że całość lub większa część tekstu musiała być napisana w 1. os. l. poj. [podmiot wyrażony zaimkiem „yo” (‘ja’); zaimki osobowe czy dzierżawcze „mi”, „me” (‘moja’, ‘mnie’)]. W związku z tym niektórzy studenci (pracujący najczęściej w parach) dochodzą do wniosku, że również drugie zdanie można przetłumaczyć na język polski z podmiotem w 1 os. l. poj. Nie jest to wcale oczywiste, gdyż

24

Katarzyna Kacprzak

żadna z wersji GT nie wskazuje jasno, kto jest podmiotem tego zdania, wszystkie są niepoprawne i wszystkie używają zaimka „ellos” (‘oni’), co większość pracujących nad tekstem uważa bądź za podmiot, bądź za błąd. Uznanie, że chodzi o błąd nie prowadzi jednak do jasnej konstatacji, co byłoby podmiotem, jeśli nie „ellos”. Jedyną wskazówką, którą dostrzegł minimalny procent studentów, jest forma czasownika posiłkowego „he” (1. os. l. poj.) w trzeciej wersji GT, której pojawienie się wprowadza jeszcze większy chaos, a zdanie przy tym nie zyskuje większego sensu. Przenikliwość kilku osób, które na tej podstawie stwierdziły, że drugie zdanie może mieć podmiot i orzeczenie w 1 os. l. poj. jest godna odnotowania.  Większość studentów jest w stanie przywrócić zgodność liczby i rodzaju i połączyć w ten sposób odpowiednio rzeczowniki z czasownikami. Na przykład w pierwszym zdaniu wszystkie wersje tłumaczenia maszynowego wykonanego przez GT przypisują rzeczownikowi „frase” (‘zdanie’) w języku hiszpańskim rodzaj męski („el más difícil”, czyli ‘najtrudniejszy’), co jednak zauważyli prawie wszyscy studenci. To samo z „todos imperfección es más fácil de tolerar”: mimo że we wszystkich wersjach GT jest ta sama konstrukcja [dosłownie ‘wszystkie (r. m., l. mn.) niedoskonałość (r. ż., l. poj.) jest łatwiejszy (r. m., l. poj.) do tolerowania’], studenci „tłumaczą” to jako np. „Wszelkie niedoskonałości łatwiej jest tolerować”.  Powtórzenie w pierwszej wersji „casi nunca, casi nunca” (‘prawie nigdy, prawie nigdy’) najczęściej (zgodnie z prawdą) studenci interpretują jako pomyłkę GT i w wersji polskiej starają się, tak jak w dwóch ostatnich wersjach tłumaczenia, uzyskać dwa synonimiczne wyrażenia.  Uważna obserwacja zmian w tłumaczeniu zdania piątego powoduje, że większa część studentów poprawnie rekonstruuje też zaimek w 1 os. l. poj. jako podmiot tego zdania.  Rzadko – ale zdarzyło się – słowo „lectura” (‘lektura’, ‘czytanie’) niektórzy studenci zinterpretowali jako „wykład” czy „wystąpienie”, choć żadne tłumaczenie z języka hiszpańskiego na język polski nie mogło tego sugerować. Przy pomocy wykładowcy niektórzy studenci są w stanie wskazać pierwsze wnioski, m.in.:  Statystyka wystąpień danych odpowiedników, np. „je” – „ellos”, decyduje o propozycji GT.  GT w języku polskim nie potrafi odróżnić form żeńskich od męskich, a raczej tłumaczy rzeczowniki i przymiotniki bez związku [„odczyt” – „lectura” – „długi” – „largo” (niepoprawny rodzaj przymiotnika w języku hiszpańskim)] lub nie potrafi rozpoznać trzeciego rodzaju: „la frase” – „zdanie” [(„el más difícil” – „najtrudniejsze”, jw.)].  GT. w języku polskim nie potrafi rozpoznać podmiotu dla orzeczenia („mam je” – „he ellos”, „ellos tienen”).  GT nie rekonstruuje polskiej składni: „zdania będą trudne […] aż do ostatniego” – „la siguiente frase será difícil […] hasta el último”.

Google Translate w dydaktyce przekładu specjalistycznego

25

 GT prawdopodobnie wykonuje część tłumaczeń, zestawiając dodatkowe źródła w języku angielskim: „mi lectura no es demasiado largo” [przetłumaczenie słowa „odczyt” jako „lectura” jest bądź wynikiem skojarzenia z angielskim „lecture”, bądź jakimś dalekim, statystycznym skojarzeniem „odczytu” z „czytaniem” (po hiszpańsku „lectura”)] .  Zauważalny jest postęp w jakości tłumaczenia GT: w drugiej i trzeciej wersji czwarte zdanie cechuje się zróżnicowanym przekładem dwóch wyrażeń synonimicznych, podczas gdy w pierwszej wersji było to dokładnie takie samo tłumaczenie; w kolejnych tłumaczeniach maszynowych zdanie piąte staje się coraz bardziej zrozumiałe i bliższe znaczeniu oryginału. Postęp może być również wynikiem współpracy użytkowników GT. 5. Różne wersje tłumaczeń za pomocą GT: postęp? Kolejnym przykładem wykorzystania tłumaczeń maszynowych wykonanych przez narzędzie GT jako materiału doświadczalnego, a następnie do sprawdzenia, czy automatyczny tłumacz robi postępy, będzie praca z tekstami polskich piosenek. Początek tekstu piosenki zespołu Myslovitz został przez GT przetłumaczony na język hiszpański w sposób następujący (25.02.2012): Y aun cuando estoy solo No cambia, no es mi mundo Ante mí, la manera en que sabemos, El me escogió Sí, siempre brillante Tengo que ser perfecto Y me siento super cool y que ya Fool ahora, no soy yo

Po upływie ponad 2 lat (tj. 23.10.2014), GT zaproponował następujące tłumaczenie: E incluso cuando estoy solo No cambie, no es mi mundo Frente a mí, la manera en que yo sé, El que yo elegí yo mismo Sí, siempre brillante ¿Debo estar Y me siento fresco estupendo y ya Tonto Pero, no era yo

26

Katarzyna Kacprzak

Dla porządku przedstawiam również wersję oryginalną utworu w języku polskim: I nawet, kiedy będę sam Nie zmienię się, to nie mój świat Przede mną droga, którą znam, Którą ja wybrałem sam Tak, zawsze genialny Idealny muszę być I muszę chcieć, super luz i już Setki bzdur i już, to nie ja

Jakie wnioski można wraz ze studentami wysunąć ze zmian, jakie w okresie 30 miesięcy pojawiły się w tłumaczeniach programu GT? Oto niektóre z nich:  Czas przyszły w języku polskim albo występuje w bazach danych GT rzadko, albo program nie jest w stanie rozpoznać jego cech: „będę” zostało przetłumaczone jako „estoy” (czas teraźniejszy, poprawnie zidentyfikowano 1. osobę), „zmienię” – jako „cambie”, „cambia” (również czas teraźniejszy, choć program podaje dwie różnie propozycje, tj. w trybie oznajmującym i łączącym).  Z 1. os. l. mn. nastąpiła zmiana na poprawną 1. os. l. poj.: „sabemos” – „sé”.  GT odnalazł właściwy podmiot w zdaniu „I którą ja wybrałem sam” [tj. zamiast „él me escogió” (‘on mnie wybrał’) proponuje „yo elegí yo mismo” (‘ja wybrałem ja sam’)]. W drugiej wersji hiszpańskiej podmiot jest jednak niepotrzebnie powtórzony.  Wyrażenia idiomatyczne nadal są przez GT błędnie tłumaczone: „setki bzdur” – „fool ahora, tonto pero” (‘fool teraz, głupi ale’).  GT nie rozróżnia, czy zdanie w języku polskim jest oznajmujące, czy też pytające: Sí, siempre brillante ¿Debo estar (Tak, zawsze genialny muszę być?)

6. Teksty tłumaczone przez studentów a przekłady GT Warto również przeanalizować różnice w tłumaczeniach GT i niektórych studentów. Celem takiego ćwiczenia jest zwiększenie świadomości studentów w zakresie własnych błędów, a także rozwinięcie umiejętności rozpoznawania błędów w tłumaczeniu maszynowym.

Google Translate w dydaktyce przekładu specjalistycznego

27

Ćwiczenie polega na wskazaniu, jakiego typu struktury w tłumaczeniach wykonanych przez człowieka świadczą o tym, że student inaczej niż GT konstruuje swój dyskurs. Punktem wyjściowym jest fragment artykułu prasowego w języku hiszpańskim: La importancia de internet en la democratización de sociedades, lucha por los derechos humanos, y como respuesta ante desastres naturales ha quedado plasmada en movimientos como la acampada sol en España, el uso de redes sociales para ayudar a encontrar a los desaparecidos del pasado terremoto en Japón y en las revueltas sociales de algunos países árabes (Rodriguez 2011).

Poniżej przedstawiam fragmenty tłumaczeń trzech różnych osób wykonanych w trakcie kolokwium (studenci mogli korzystać wyłącznie ze słowników) oraz jedno tłumaczenie maszynowe wykonane przez GT. Zadaniem studentów jest wskazanie, który tekst pochodzi z GT. Szczególnie ciekawe, czyli zaskakujące rozwiązania we wszystkich wersjach zostały wyróżnione pogrubieniem: Znaczenie Internetu w demokratyzacji społeczeństwa walczą o prawa człowieka, a w odpowiedzi na klęski żywiołowe znalazło odzwierciedlenie w ruchach, takich jak kemping słońca w Hiszpanii, korzystanie z portali społecznościowych, aby pomóc znaleźć brakujące ostatniego trzęsienia ziemi Japonia i niepokojów społecznych w niektórych krajach arabskich. Znaczenie internetu w demokratyzacji społeczeństw: walczy o prawa człowieka, jako odpowiedzi na katastrofy naturalne zostały przedstawiony w poruszeniach jak „la acampada sol” („obóz słońca”) w Hiszpanii, użycie portali społecznościowych, aby pomóc w odnalezieniu zaginionych po trzęsieniu ziemi w Japonii i rozruchów społecznych w niektórych krajach arabskich. Waga internetu w demokratyzacji społeczeństwa, walka o prawa człowieka i odpowiedź na katastrofy naturalne zostały przedstawione przez taki ruch jak „La acampada sol” w Hiszpanii, użycie portali społecznościowych, aby mogli się spotkać zaginieni podczas ostatniego trzęsienia ziemi w Japonii, a także podczas rozruchów społecznościowych w niektórych krajach arabskich. Wpływ internetu na demokratyzację społeczeństw i walkę o prawa człowieka, a także jako narzędzie przeciwko klęskom naturalnym jest już tak pewny jak słońce podczas kampingu w Hiszpanii. Jako przykład można podać: pomoc sieci internetowych w znalezieniu osób zaginionych podczas minionego trzęsienia ziemi w Japonii czy w trakcie przewrotów społecznych w niektórych krajach arabskich.

Pierwszy z cytowanych tekstów to tłumaczenie GT, co kilka osób wskazało poprawnie. Część osób wskazywała też jednak na zdanie trzecie. Trudne być może dla studentów poniżej poziomu B2 (tłumaczeń dokonywali studenci teoretycznie na poziomie B2 lub wyżej) wyrażenie „ha quedado plasmada en” (‘znalazły

28

Katarzyna Kacprzak

odzwierciedlenie w’)2 dla GT okazało się czymś oczywistym. Żaden tłumacz – ani człowiek, ani maszyna – nie orientował się w hiszpańskiej polityce: „acampada sol”3 w najlepszym wypadku została pozostawiona w niezmienionej formie bądź otrzymała mniej więcej dosłowne przekłady („kemping słońca”, „obóz słońca”). Jedną z wersji studenckich charakteryzuje wręcz niezwykłe poczucie humoru: „Wpływ internetu na demokratyzację społeczeństw i walkę o prawa człowieka, a także jako narzędzie przeciwko klęskom naturalnym jest już tak pewny jak słońce podczas kampingu w Hiszpanii”. Pomimo tego, że zdanie zostało błędnie zrozumiane i zinterpretowane przez studenta, „logiczna” konstrukcja składniowa ostatniej części zdania wskazuje na intencję autora, tj. sprawienie, by zdanie udawało dobrze skonstruowaną całość, przekazującą domniemane kompletne znaczenie. Takie rozwiązania raczej się w tłumaczach automatycznych nie zdarzają. Zresztą w tym wypadku należy wskazać na nieco lepsze „zrozumienie” tej całostki znaczeniowej przez GT. Oraz wytłumaczyć studentom, że główne niedostatki GT polegają na braku umiejętności rozpoznawania par podmiot/orzeczenie w języku hiszpańskim (lub raczej na nieumiejętności skonstruowania odpowiedników tych par w języku polskim), a także na tym, że nie potrafi dobrze deklinować ani koniugować wielu polskich słów i kolokacji. Ten rodzaj błędu powtarza się także, niestety, w pracach studenckich, ale towarzyszą mu inne problemy: • brak logicznego sensu dużych całostek lub całych zdań, wynikający z niezrozumienia struktury długiego zdania złożonego w hiszpańskim i – często – z braku wiedzy merytorycznej, • niedostatki logicznego rozumowania: „użycie portali społecznościowych, aby mogli się spotkać zaginieni podczas ostatniego trzęsienia ziemi w Japonii” i kilka innych problemów, które podsumujemy w następnej części artykułu. 7. Wnioski Ćwiczenia zaprezentowane w niniejszym artykule [tj. porównywanie tłumaczeń studenckich z tłumaczeniami maszynowymi wykonanymi przez Google Translate (GT)] i wykonywane przez studentów na zajęciach z tłumaczeń specjalistycznych mają kilka zalet. Pozwalają uświadomić adeptom, jak daleka czeka ich droga, jeśli chodzi o opanowanie składni i odpowiednich rejestrów języka, 2

W żadnym tłumaczeniu wykonanym przez studentów wyrażenie to nie zostało wystarczająco dobrze przetłumaczone.

3

Okupacja Puerta del Sol (centralny plac w Madrycie) przez uczestników nazwanego tak później Ruchu 15 maja lub Ruchu Oburzonych (protest polityczny, który objął cały kraj na wiele miesięcy, i przerodził się w nowe organizacje polityczne). Należy zaznaczyć, że kolokwium było przeprowadzone najdalej pół roku po tych wydarzeniach.

Google Translate w dydaktyce przekładu specjalistycznego

29

zarówno w tekstach napisanych w języku oryginału (tj. w języku obcym), jak i w języku docelowym (tj. rodzimym). Pomagają im w zdiagnozowaniu własnych słabości i niedociągnięć, czasami porównywalnych do słabości tłumaczenia maszynowego, ale też pozwalają im nabyć pewności, że przy dużym wysiłku będą w przyszłości tłumaczyć lepiej niż maszyna albo skutecznie z nią współpracować. Tego typu ćwiczenia mają na celu zwrócenie uwagi studentów na to, że w zawodzie tłumacza czujność i koncentracja na podstawowych zasadach redagowania tekstów (nie mówiąc już o dalszych, skomplikowanych etapach pracy nad stylem i rejestrem tłumaczeń) są podstawą sukcesu. Zrozumienie mechanizmu działania systemu tłumaczenia maszynowego, opartego na modelach statystycznych, pokazuje, że tłumacz-człowiek może spojrzeć na tekst z zupełnie innej perspektywy. Na koniec należy stwierdzić, że korzystający z narzędzia GT tłumacz powinien dysponować dużym doświadczeniem, aby właściwie ocenić poprawność tłumaczenia maszynowego. Bibliografia Fisz, Marek 1969: Rachunek prawdopodobieństwa i statystyka matematyczna. Warszawa: PWN. Och, Franz, Hermann Ney 2003: A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics 29 (1), 19–51. Weroniecki, Tadeusz 1981: Słownik techniczny hiszpańsko-polski. Warszawa: Wydawnictwa Naukowo-Techniczne. Vogel, Stephan, Hermann Ney, Cristoph Tillmann 1996: HMM-based Word Alignment in Statistical Translation. W: COLING ’96: The 16th International Conference on Computational Linguistics: proceedings: August 5–9, 1996, copenhagen, Denmark. Copenhagen: Center for Sprogteknologi, 836–841. Źródła internetowe Adams, Tim 2010: Can Google break the computer language barrier? W: http://www. theguardian.com/technology/2010/dec/19/google-translate-computers-languages ED 28.12.2014. Bar-Hillel, Yehoshua 1960: A Demonstration of the Nonfeasibility of Fully Automatic High Quality Translation. W: http://www.mt-archive.info/Bar-Hillel-1960-App3. pdf ED 05.01.2015. Ellender, Claire 2012: Free Online Translators: A Comparative Assessment of www. wordlingo.com, www.freetranslation.com and www.translate.google.com. Translation Journal 16 (3). W: http://translationjournal.net/journal/61freexlation.htm ED 05.01.2015. Junczys-Dowmunt, Marcin 2008: Wprowadzenie do metod statystycznych w tłumaczeniu automatycznym. Investigationes Linguisticae 16. W: http://www.staff.amu.edu. pl/~inveling/pdf/Marcin_Junczys-Dowmunt_inve16.pdf ED 05.01.2015. Rodriguez, Melissa 2011: Activismo digital: apoya con un clic todo tipo de causas desde tu hogar. W: http://mexico.cnn.com/tecnologia/2011/07/22/activismo-digitalapoya-con-un-clic-todo-tipo-de-causas-desde-tu-hogar ED 05.01.2015.

30

Katarzyna Kacprzak

Smartling, Tim 2012: A (Brief) History of Machine Translation, http://www.smartling. com/2012/04/20/a-brief-history-of-machine-translation/ ED 05.01.2015. Abstract The author attempts to explore the usefulness of Google Translate Service (GT) in teaching translation of specialist texts. The first step in practical use of the GT by aspiring linguists is teaching how to distinguish between a machine and human translation. Then the author discusses what practical skills come from these lab exercises. Next, the author shows how to convey some deeper understanding of the erroneous structures and constructs often committed by the machine or novice or weak translators. This consists of a detailed analysis of a number of translations completed by students and by GT respectively. The author explores the analyses of translations made by the students themselves and with some help of the teacher. Then other skills’ building activities are discussed, e.g. how to assess if the Google Engine improves its translation over the assumed period. Also, the most common errors of novice translators and the GT Engine are discussed in greater detail.

Kształcenie kompetencji instrumentalnych przyszłych tłumaczy języków słowiańskich

Małgorzata Kalita

Uniwersytet Śląski w Katowicach, Polska

Abstrakt. Wśród kompetencji, jakie powinien posiadać tłumacz, są m.in. zawodowe kompetencje instrumentalne. Instytut Filologii Słowiańskiej Uniwersytetu Śląskiego w Katowicach, starając się przygotować studentów do podjęcia pracy z językiem obcym, w ramach zajęć z technologii informacyjnej wprowadził kurs obsługi programów wspomagających tłumaczenie. Studenci filologii słowiańskiej na czwartym semestrze studiów uczą się obsługi programów Trados Studio oraz memoQ. Pokazując studentom rozwiązania wspomagające pracę, takie jak narzędzia CAT, pomaga się młodym tłumaczom w rozpoczęciu przyszłej pracy. Słowa kluczowe. Kształcenie tłumaczy, narzędzia CAT, Trados, memoQ.

1. Wprowadzenie Proces kształcenia przyszłych tłumaczy zmienia się na przestrzeni lat i na każdym kroku wykładowcy zmuszani są do aktualizowania programu nauczania zgodnie z potrzebami rynku pracy. Dydaktyka przekładu „stara się określić jakimi drogami można nabyć wiedzę w tej dziedzinie i odpowiedzieć na fundamentalne pytanie: Czego należy nauczać, aby wykształcić zawodowych tłumaczy?” (Delisle, Lee-Jahnke & Cormier 2006). Wśród wielu zagadnień dotyczących kształcenia i pracy tłumaczy pojawia się dyskusja nad umiejętnościami zawodowymi tej grupy oraz ich kompetencjami. Pojawiają się głosy, że to, co nazywa się modelami kompetencji tłumaczeniowej, jest w istocie zbiorem nakazów i wymagań w odniesieniu do umiejętności zawodowych tłumaczy, stopnia ich zaawansowania w określonych umiejętnościach oraz czasu, w jakim powinni osiągnąć zadowalającą biegłość (Albin 2012: 33).

Wśród wymagań stawianych tłumaczom znajdują się np. kompetencje strategiczne, komunikacyjne i tekstowe, kulturowe, a także zawodowe kompetencje instrumentalne (por. Albin 2012: 33–34).

32

Małgorzata Kalita

2. Proces kształcenia kompetencji instrumentalnych na śląskiej slawistyce Instytut Filologii Słowiańskiej Uniwersytetu Śląskiego w Katowicach, starając się przygotować studentów do podjęcia pracy z językiem obcym, wprowadził m.in. zajęcia, których tematyka obejmuje przede wszystkim obsługę narzędzi informatycznych i wykształcenie umiejętności efektywnego wyszukiwania danych. Zajęcia z technologii informacyjnej odbywają się na II roku studiów pierwszego stopnia oraz na I roku studiów drugiego stopnia (dawniej IV rok). Program zajęć przygotowuje prowadzący i od października 2012 r. obejmuje on szkolenie m.in. w zakresie obsługi programów wspomagających tłumaczenie1. Filologia słowiańska na Uniwersytecie Śląskim oferuje naukę wszystkich języków zachodnio- i południowosłowiańskich. Poszczególne grupy językowe są tworzone raz na dwa lub trzy lata. Studenci na II roku studiów pierwszego stopnia rozpoczynają naukę drugiego języka słowiańskiego i, kończąc studia, są przygotowani do pracy w obu tych językach. Śledząc kariery zawodowe naszych absolwentów, zauważamy, że wykorzystują oni znajomość obu języków słowiańskich. Na Wydziale Filologicznym Uniwersytetu Śląskiego znajduje się kilka pracowni komputerowych. Jedna z nich przygotowana jest do prowadzenia zajęć w zakresie tłumaczenia kabinowego, inne wykorzystywane są w nauczaniu tłumaczenia pisemnego. Instytut Filologii Słowiańskiej korzysta z jednej z nich. Znajdują się tam 24 stanowiska komputerowe dla studentów i jedno stanowisko dla prowadzącego. Program memoQ zainstalowany jest na wszystkich stanowiskach, program Trados Studio na co drugim. Program zajęć dla slawistów obejmuje szkolenie z zakresu obsługi programu Trados oraz memoQ. W przypadku memoQ studenci pracowali do tej pory na wersji 6.2, dla Tradosa była to wersja 2009 lub 2011. Od października 2014 roku studenci korzystają z programu memoQ w wersji 2014. Trados Studio 2014 jest dostępny na kilku stanowiskach. Studenci filologii słowiańskiej, rozpoczynając przygodę z narzędziami CAT, tak naprawdę mają po raz pierwszy do czynienia z tłumaczeniem pisemnym. Już na pierwszych zajęciach prowadzący ma możliwość ocenić umiejętność obsługi komputera przez studentów. Zaskakujące, ilu spośród nich, pomimo deklaracji dobrej znajomości obsługi komputera, nie potrafi zmienić ustawień systemu, aby wybrać aktywny język czy zainstalować klawiaturę fonetyczną. Nierzadko okazuje się również, że studenci mają problem z obsługą klawiatury, szczególnie w językach, które posługują się cyrylicą (czyli serbski, bułgarski, macedoński). Jest to jeden z argumentów, dlaczego takie zajęcia są potrzebne, najlepiej na wczesnym etapie nauki. Język serbski można zapisywać 1

Łukasz Bogucki w publikacji Tłumaczenie wspomagane komputerowo twierdzi, że znajomość narzędzi wspomagających tłumaczenie stanowi zasadniczy element kwalifikacji tłumacza (Bogucki 2009: 9), oraz że tłumacz freelancer ma małe szanse na funkcjonowanie na rynku bez korzystania z pamięci tłumaczeń (Bogucki 2009: 92).

Kształcenie kompetencji instrumentalnych…

33

w alfabecie łacińskim lub cyrylicy. Studenci na II roku wybierają zazwyczaj zapis łaciński, mimo że większość serbskich materiałów dostępnych jest w cyrylicy. Kiedy spotykam tych samych studentów dwa lata później, wszyscy korzystają już z cyrylicy. Na pierwszych zajęciach jedno z ćwiczeń polega na przetłumaczeniu kilku terminów, np. „oświadczenie zdrowotne”, „wiertarka wolnoobrotowa” czy „pniarek obrzeżony”. Studenci sami próbują dojść do właściwego tłumaczenia. Później dzielą się z kolegami i koleżankami informacjami o sposobach, w jakie odnaleźli poszczególne hasła. Nie zawsze się to udaje. Studenci macedońskiego i serbskiego, jako że Macedonia i Serbia nie należą do Unii Europejskiej, zazwyczaj mają kłopot z terminami popularnymi w UE. Należy zaznaczyć, że słowniki i translatory w językach słowiańskich są słabo rozwinięte. Serbiści wręcz muszą posiłkować się angielskim. I znowu zaskoczeniem jest, jak niewielu studentów zna np. operatory wyszukiwania. Semestralny kurs obejmujący obsługę narzędzi CAT rozpoczyna się od obsługi programu Trados Studio. W ciągu dwuletniej praktyki tylko raz zdarzyło się, że jako pierwszy był omawiany program memoQ. Argumentów dla takiego rozwiązania jest kilka. Na zajęciach wykorzystuje się m.in. filmiki szkoleniowe. Dla Tradosa są one nagrane w języku polskim, lektor mówi wolno, a ich jakość pozwala na zaprezentowanie ich na ekranie projekcyjnym. Dla programu memoQ korzysta się z filmików udostępnionych na stronie internetowej i choć dostęp do nich jest bezpłatny, ich rozdzielczość nie pozwala uzyskać wyraźnego obrazu. Dodatkowym utrudnieniem dla studentów jest język angielski. Niektórzy, jak mówią, zniechęcają się po dziesiątym użyciu słowa „tag”, bo gubią wątek i nie rozumieją przekazu. Pomimo ogólnego przekonania, że młodzi ludzie dobrze znają angielski, nie zawsze tak jest. Według studentów trudniejszy w obsłudze jest Trados. Polecenia w języku angielskim i konieczność bezbłędnego przygotowania projektu są zazwyczaj czynnikami, które decydują o tym, że młodzi slawiści darzą memoQ większą sympatią. Przygotowanie zajęć dla slawistów wymaga starannego opracowania tekstów do tłumaczenia. Zazwyczaj grupy są łączone i na jednych zajęciach spotykają się dwie grupy językowe. Prowadzący dobiera teksty w języku polskim lub obcym, które pozwalają na zaprezentowanie poszczególnych funkcji programu. Zadaniem studentów nie jest poprawne pod względem merytorycznym tłumaczenie, ale poznanie możliwości narzędzi CAT. Na przykład na potrzeby analizy i pretranslacji w paczkach projektowych dostają oni trzy niedługie teksty (np. przepisy kulinarne), gdzie dwa pierwsze dotyczą tego samego tematu, a trzeci jest kompilacją poprzednich (studenci mają okazję zobaczyć, w jaki sposób program uzupełnia kolejne segmenty). Jeżeli w programie zajęć pojawia się tekst tłumaczony z języka polskiego na język obcy, prowadzący nie jest w stanie korygować błędów językowych studentów, ponieważ nie zna wszystkich

34

Małgorzata Kalita

siedmiu języków słowiańskich. Jednak w przypadku tekstów tłumaczonych na język polski może na bieżąco poprawiać pojawiające się błędy. Na początku często pojawiają się kalki językowe – podobieństwo języków słowiańskich sprawia trudności początkującym tłumaczom. Studenci nie mają wypracowanej czujności – popełniają błędy stylistyczne lub stosują zamiennie słowa, nie zważając na różnice znaczeniowe poszczególnych terminów. Przykładem niech będzie: „dżem”/„konfitura”/„marmolada”/„powidła” lub para wyrazów: „most”/„wiadukt”. Z innych powtarzających się kłopotów językowych można wymienić błędny szyk zdania i nieprawidłowe kolokacje. Teksty do tłumaczenia nie mogą być zbyt długie i trudne. Każde zajęcia to osobny projekt tłumaczeniowy, ponieważ osoby nieobecne mają trudności z nadrobieniem zaległości. Zdarza się, że grupa prezentuje zróżnicowany poziom umiejętności językowych. To również wpływa na szybkość pracy grupy. Niektóre osoby kończą jeden projekt w trakcie jednych zajęć, inne potrzebują dwóch (w skrajnych przypadkach trzech) jednostek lekcyjnych. W trakcie semestralnego kursu nie ma zbyt wiele czasu na to, by student opracował własne glosariusze. Dwa lub trzy kolejne projekty tłumaczeniowe nawiązują do siebie tak, żeby student mógł wykorzystać swoje pamięci tłumaczeń. Do tej pory wszystkie grupy miały kurs podstawowy. W roku akademickim 2014/2015 na studiach uzupełniających pojawili się studenci, którzy przed dwoma laty poznali podstawowe funkcje Tradosa oraz memoQ i po raz pierwszy w programie zajęć znalazło się tworzenie glosariuszy, czy praca z pamięcią tłumaczeń. Podczas rozmów między wykładowcami co jakiś czas podnosi się kwestie, czy poświęcać narzędziom CAT tyle czasu. Niektórzy nauczyciele są zdania, że każdy, kto w przyszłości będzie pracował jako tłumacz, sam będzie musiał zgłębić możliwości tych programów, szczególnie, że z każdym rokiem są one coraz bardziej nowoczesne. Sceptycy zaznaczają, że wystarczy pokazać studentom zasady funkcjonowania programów i że nie warto poświęcać narzędziom CAT całego semestru zajęć. Jestem jednak zdania, że nie można porównywać filologii słowiańskiej z filologią angielską i germańską. Studenci slawistyki zaczynają naukę języka od poziomu A0 i na II roku zajęcia w pracowni komputerowej są konieczne, a ćwiczenia imitujące pracę nad projektem tłumaczeniowym rozwijają zarówno umiejętności językowe, jak i umiejętności wyszukiwania informacji i korzystania z różnych źródeł. Program zajęć na II roku wygląda skromnie i w ogólnych zarysach prezentuje się następująco: 1. Wprowadzenie do tłumaczenia pisemnego, ogólna charakterystyka narzędzi CAT: • płatne i bezpłatne programy dostępne na rynku, • ceny,

Kształcenie kompetencji instrumentalnych…

35

•

pokaz możliwości programu (spreparowany plik na podstawie prawdziwego tłumaczenia dokumentacji techniczno-ruchowej maszyn linii produkcyjnej).  Studenci w pierwszym momencie są zachwyceni, widząc jak program ułatwia pracę z formatowaniem tekstu i fragmentami powtarzającymi się. 2. Trados Studio – utworzenie projektu, tłumaczenie z języka obcego na język polski.  Na drugich zajęciach stosunkowo dużo czasu zajmuje organizacja stanowiska pracy, instalacja klawiatury fonetycznej, wyszukanie przydatnych słowników. 3. Trados Studio – praca w edytorze, tłumaczenie z języka obcego na język polski; 4. Trados Studio – praca w edytorze, tłumaczenie z języka obcego na język polski; 5. Trados Studio – paczka projektowa, tłumaczenie z języka polskiego na język obcy; 6. Trados Studio – pretranslacja i analiza, tłumaczenie z języka polskiego na język obcy; 7. memoQ – utworzenie projektu, tłumaczenie z języka obcego na język polski; 8. memoQ – praca w edytorze, tłumaczenie z języka obcego na język polski; 9. memoQ – pretranslacja i analiza, tłumaczenie z języka polskiego na język obcy; 10. memoQ – tworzenie bazy terminologicznej, tłumaczenie z języka polskiego na język obcy. Na poznanie programu Trados Studio poświęca się stosunkowo więcej czasu, ponieważ studenci po raz pierwszy mają do czynienia z narzędziem typu CAT. Otwierając memoQ po kilku zajęciach, nie potrzebują już wielkiej pomocy przy tworzeniu projektu. Zajęcia z technologii informacyjnej na I roku studiów drugiego stopnia dają więcej możliwości jeżeli chodzi o program zajęć. Studenci prezentują już dobrą znajomość języka, orientują się, jak wygląda sytuacja na rynku pracy z ich językiem kierunkowym i niektórzy są zdecydowani, w zakresie wyboru przyszłej pracy. Na tym etapie studenci pracują w małych grupach, dzieląc między siebie zadania i odpowiedzialność na wzór projektu tłumaczeniowego. Część zajęć poświęcona jest na tworzenie glosariuszy. Studenci przeszukują zasoby Internetu i najczęściej trafiają na słowniki w wersji PDF. Mają wtedy możliwość pracy z programami OCR. Slawiści mają do dyspozycji najnowszą wersję programu ABBYY FineReader, jak również bezpłatne programy OCR. Studenci grupy bułgarskiej, serbskiej i macedońskiej najczęściej muszą tworzyć od podstaw własne słowniki. Opracowane słowniki dwujęzyczne zostają następnie przekształcone w słowniki Multiterm i wykorzystane w programie Trados.

36

Małgorzata Kalita

3. Podsumowanie Studenci po krótkim kursie obsługi dwóch narzędzi CAT są zazwyczaj przekonani co do ich przydatności i deklarują, że jeżeli w przyszłości będą pracować jako tłumacze, na pewno zdecydują się na pracę z takim programem. Nadal na kierunkach filologicznych zbyt mało zajęć tłumaczeniowych prowadzi się przy użyciu komputerów. W głównej mierze jest to spowodowane ograniczonym czasem pracy w pracowni komputerowej. Również sposób finansowania szkoleń dla nauczycieli akademickich nie pozwala, żeby przeszli oni profesjonalne szkolenie w zakresie nowych technologii. Pokazując studentom rozwiązania wspomagające pracę tłumacza takie jak narzędzia CAT czy chociażby dobry program OCR, pomaga się młodym tłumaczom w rozpoczęciu przyszłej pracy i zwiększa się ich „poczucie własnej skuteczności” (za: Albin 2012: 37). Ważne jest, aby przyszli tłumacze byli dobrze wykwalifikowani i umieli „lepiej i pełniej ocenić korzyści i niedogodności, jakie stwarza i może oferować komputer” (Pieńkos 1993: 163). Kurs obsługi narzędzi CAT pozwala na zmniejszenie dysproporcji pomiędzy sferami teorii i praktyki (por. Bogucki 2009: 9), która wciąż utrzymuje się w akademickim kształceniu tłumaczy. Bibliografia Albin, Joanna 2012: Kompetencja z punktu widzenia tłumacza. W: Maria Piotrowska, Artur Czesak, Aleksander Gomola, Sergiy Tyupa (red.) 2012: Kompetencje tłumacza. Kraków: Tertium, 31–48. Bogucki, Łukasz 2009: Tłumaczenie wspomagane komputerowo. Warszawa: Wydawnictwo Naukowe PWN. Jean Delisle, Hannelore Lee-Jahnke, Monique C. Cormier (red.) 2006: Terminologia tłumaczenia, Poznań: Wydawnictwo Naukowe UAM. Pieńkos, Jerzy 1993: Przekład i tłumacz we współczesnym świecie: aspekty lingwistyczne i pozalingwistyczne. Warszawa: Wydawnictwo Naukowe PWN. Źródła internetowe Materiały informacyjne Instytutu Filologii Słowiańskiej Uniwersytetu Śląskiego. W: http://www.slaw.us.edu.pl/ ED 01.10.2014. Abstract The process of educating future translators changes with time and there is a continuous need to update the curriculum according to the expectations of the market. Among many issues related to the education and work of translators, there is a persistent debate on what professional skills and abilities are necessary for this job. There are many requirements for translators, such as strategic, communication and text skills, cultural competence and instrumental skills. The Institute of Slavonic Philology of the University of Silesia in Katowice, in order to prepare the students for work with a foreign

Kształcenie kompetencji instrumentalnych…

37

language, as part of the Information Technology course, introduced a course in computer assisted translation. The students of slavonic philology during their fourth semester, when they begin their work with CAT software, encounter written translation for the first time. During the course, they get to adjust their work environment according to their needs. They learn how to effectively search for information, which sources are reliable and how to use the Internet to find useful dictionaries. A one-semester course includes training in the use of Trados Studio and memoQ. Each class is a separate translation project and the task is not to create a valid translation, but to get accustomed with the capabilities of CAT software. The texts to be translated are prepared by the teacher separately for different language groups. Usually the texts are related, so that the students learn how to use pre-translation and text analysis and get the chance to use translation memory files from previous projects. By learning the solutions that assist translators in their work, such as CAT software or a good OCR program, the students are aided in their future job and their feeling of self-efficacy is increased.

Machine translation tools in the students’ translation training

Agnieszka Kałużna

University of Zielona Góra, Poland

Abstract. The purpose of this paper is to present how and which machine translation tools may be used by students in their translation training. In the theoretical part, a definition of machine translation is introduced. Then, the difference between machine and computer-aided translation tools (CAT) is explained in greater detail. The practical analysis comprises an assignment prepared by students of translation at the University of Zielona Góra regarding translation tools. Finally, relevant conclusions are presented. Keywords. Machine-translation, computer-aided translation, translation, teaching.

1. Introduction Since the 1990s, translation has been developing rapidly as a commercial activity, more and more supported by modern technologies and the Internet as a consequence of globalization of trade (Hartley 2009: 106). Globalization can be defined as: … a multi-level term that is used to refer to the global nature of the world economy with all-pervasive spread of multinationals. In commercial translation it is often used in the sense of the creation of local versions of websites of internationally important companies or the translation of product and marketing material for the global market (Hatim & Munday 2004: 112).

It was, predominantly, the development of the Internet which enabled companies to market and launch their products worldwide. As a result, there has been growing demand for more product information, software, manuals, which triggered the urge for translation services internationally. Consequently, translation has become an activity which is supposed to be rendered on timely basis and often under the pressure of time. Out of necessity, translators begin to take advantage of technologies designed to support their work and language processing in general.

40

Agnieszka Kałużna

2. Machine translation vs. computer-aided translation tools In general terms, the main purpose of machine translation is “to automate the core task, i.e. the production of a string of words that will count as a translation of the source text” (Hartley 2009: 106–107). Another definition of machine translation specifies the notion as follows: Often abbreviated to MT, machine translation is translation performed automatically by a computer with different degrees of human involvement. A distinction is often made between MT systems that are purely automatic and systems that require human assistance (e.g. in Hutchins and Somers 1992), but the difference is increasingly blurred as most available systems require some form of human intervention. Typically, human assistance in MT is required at the stage of ST preparation (pre-editing) or output editing (post-editing) (Palumbo 2009: 73).

The term machine translation (MT) emerged after the Second World War, and it was when first developments in this area were introduced along with the invention of the first computers in the UK by Alan Turing’s team as a part of codebreaking operation at Bletchley Park (Hinsley & Stripp 1993 in: Hatim & Munday 2004: 115). Although, the first machine dictionaries to overcome language problems were used in the 17th century, it was the 20th century which brought breakthrough in the field of translation thanks to two individually patented inventions (1933) by George Artsrouni and Piotr Smirnov-Trojański (Hutchins 2003). Machine translation tools are frequently contrasted with the so-called computer-aided translation tools (CAT), which, on the other hand “are designed to increase productivity while leaving the core task to the human translator” (Hartley 2009: 107). Palumbo provides the following definition of computeraided translation tools: Computer-assisted translation, also called ‘computer-aided translation’, or CAT, is translation carried out, generally at a professional level, with, the help of specific computer tools aimed at improving the efficiency of the translation process. CAT was traditionally distinguished from fully automatic machine translation (MT), i.e. MT with no human intervention, and was seen to include human-aided MT and machine-aided human translation (Hutchins and Somers 1992). More recent typologies (e.g. in Quah 2006) revise this distinction and equate CAT with translation performed principally by Humans using computerized tools (or, in other words, with machine-aided human translation). It is unanimously acknowledged, however, that clear-cut distinctions between these categories are becoming impossible as numerous tools integrate technologies that were once seen as belonging to one or the other category (Palumbo 2009: 23).

Machine translation tools in the students’ translation training

41

Thus, the clear difference between machine translation and computer-aided translation tools has been sometimes vague, as some form of human intervention is needed in both cases. The examples of computer-aided translation tools can be: translation memory tools which “enable the efficient creation and searching of databases of translated documents and their originals” (see Hartley 2009: 117); software localization tools, which “protect the program code by extracting the translatable text – mostly text that appears in the user interface, often called ‘strings’ – for translation in a safe environment and eventually reinsert the translated version in the right places in the right files” (see Hartley in Munday 2009: 120); subtitling tools, the purpose of which is “to display the draft subtitles as the viewer will see them and to alert the subtitler to any violations of timing constraints. These are imposed jointly by the assumed reading speeds of different viewers (adult, child, hard-of-hearing), the medium (film, DVD, TV) and the rhythm of shot changes” (see Hartley 2009: 120). 3. Practical analysis For the purposes of this paper, only machine translation tools are to be analysed. The practical part of the present paper comprises the case study carried out among students of translation class at the University of Zielona Góra. 3.1. The case study objectives The purpose of the case study was to examine the phenomenon of machine translation tools in the translator’s work. The current analysis is an attempt to check which machine translation tools have been chosen by students and to what extent they have been useful in assisting the translation task. Based on the collected data and students’ observations, preliminary insights into the domain of machine translation might be provided. The case study objectives are the following: 1. to examine the range of machine translation tools used by students; 2. to analyse which translation tools have been chosen by students the most frequently; 3. to analyse translation capacity of the tools with regard to specific texts (e.g. literary, journalistic, legal, etc.); 4. to examine students’ ranking of translation tools (on the basis of the scale 1–10, 1 – the least useful, 10 – the most useful). 3.1.2. The structure of the case study The case study comprises the machine-translation project carried out among 37 translation class students at the University of Zielona Góra.

42

Agnieszka Kałużna

The project took place in May 2014 at the University of Zielona Góra. The objectives of the assignment were as follows: 1. to test three randomly selected machine-translation tools; 2. to compare the versions generated by the chosen machine-translation tools; 3. to specify if machine-translation may potentially replace human translation; 4. to provide a ranking of the machine-translation tools (on the basis of the scale 1–10, 1 – the least useful, 10 – the most useful). 3.2. The results of the case study The results will be presented in the following sections: 1. the range of machine-translation tools used by students; 2. occurrence frequency of selected machine-translation tools; 3. types of texts rendered via machine-translation tools; 4. translation capacity of the analysed tools with regard to specialised texts; 5. students’ ranking of machine-translation tools in terms of their usefulness in the translator’s work (based on the scale 1–10, 1 – the least useful, 10 – the most useful). 3.2.1. The range of machine translation tools Pursuant to collected data, students have tested 22 machine-translation tools including electronic dictionaries available online. In the table below machine-translation tools selected by students have been presented: Table 1. Machine translation tools selected by students in the project Student

Tool One

Tool Two

Tool Three

Student One

Translatica 7.0 Enterprise Google Translate Pl-Eng

SYSTRANet

Student Two

Google Translate

Bing Translator

Systranet.com

Student Three

Google Translate

Translatica

Bing Translator

Student Four

Bing Translator

Google Translate

Translatica

Student Five

Google Translate

Yandex.Translate

Translate.EU

Student Six

Google Translator

Bing Translator

Babylon Translator

Student Seven

Google Translate

Bing Translator

Frengly.com

Student Eight

Google Translate

Bing Translator

Translatica.pl

Student Nine

Google Translate

Translatica

www.translate.pl

Student Ten

Babylon

Translatica

Google Translate

Machine translation tools in the students’ translation training Tool Two

43

Student

Tool One

Tool Three

Student Eleven

Google Translate

Translatica

Bing Translator

Student Twelve

Translatica

Google Translate

Translate.pl

Student Thirteen

Translatica

www.translate.pl

Google translate

Student Fourteen

Ling dictionary

Bing translator

Google translator

Student Fifteen

Google Translate

Babylon Translator

Microsoft Translator

Student Sixteen

Google Translate

Translate.pl

Translatica

Student Seventeen

Translatica

WorldLingo Translator

Babylon Translator

Student Eighteen

Translatica

Google Translate

Bing Translator

Student Nineteen

Google Translate

SDL Free Translation

mTRANSLATOR ver. 0.9.4b

Student Twenty

Google Translate

Systranet

Translatica

Student Twenty One Translatica

Translate.pl

Google Translate

Student Twenty Two mTranslator.pl

www.poltran.com

Google Translate

Student Twenty Three Google Translate

Systranet

Bing Translator

Student Twenty Four Google Translate

www.poltran.com (Lingvo Bit)

PWN.pl

Student Twenty Five Google Translate

PONS.com

SYSTRANet.com

Student Twenty Six

Google Translate

www.systransoft.com

Babylon Translator

Student Twenty Seven Babylon Translate

Power Translator 15 Google Translate

Student Twenty Eight Translate.pl

mtranslator.pl

Google Translate

Student Twenty Nine Google Translate

Translate.pl

Bing Translator

Student Thirty

Google Translate

Bing Translator

Translatica

Student Thirty One

Babylon Translator

Systransoft

Google Translate

Student Thirty Two

Google Translate

Bing Translator

Translate.pl

Student Thirty Three Ace Translator 10

Google Translate

Translatica

Student Thirty Four

Getionary (online business and law dictionary)

Google Translate

Translate.pl

Student Thirty Five

Imtranslator.net Microsoft

Systransoft

INTERTRAN (www.tranexp.com)

Student Thirty Six

www.1-800-translate.com Babylon Translator

Student Thirty Seven WorldLingo

1-800 Translate

Lingvo Bit (online electronic dictionary) Microsoft Translator

The machine translation tools ranged from the most widely known such as Google Translate or Translatica to less popular such as 1-800 Translate or INTERTRAN. In total students have chosen 22 different machine translation tools to be tested for the purposes of the project.

44

Agnieszka Kałużna

3.2.2. The most frequently used machine translation tools Figure 1 shows that the most frequently used machine translation tool was Google Translate (33 students) which constitutes 89% of total number of students participating in the project. The distribution of translation tools selected by students in terms of percentage was the following: Translatica – 40% (15 students), Bing Translator – 35% (13 students), SYSTRANet – 22% (8 students), Babylon Translator – 22% (8 students), www.translate.pl – 22% (8 students), mTRANSLATOR.pl – 8% (3 students), www.poltran.com – 8% (3 students), Microsoft Translator – 5% (2 students), WorldLingo Translator – 5% (2 students), 1-800 translate.com – 5% (2 students), Yandex.Translate – 3% (1 student), Translate. EU – 3% (1 student), Frengly.com – 3% (1 student), Ling dictionary – 3% (1 student), SDL Free Translation – 3% (1 student), PWN.pl – 3% (1 student), PONS. com – 3% (1 student), Power Translator 15 – 3% (1 student), Ace Translator 10 – 3% (1 student), INTERTRAN – 3% (1 student), Getionary – 3% (1 student).

Figure 1. Occurrence frequency of machine translation tools

The data shows that majority of students had selected Google Translate and the second most popular choice was Translatica. Another most frequent machine translation tool was Bing Translator and respectively, SYSTRANet, Babylon Translate and www.translate.pl.

Machine translation tools in the students’ translation training

45

The results also show that the remaining translation tools were not as popular as the ones mentioned above and were chosen by minority of students. 3.2.3. Types of texts rendered via machine translation tools In the study students were allowed to choose a text of their own preference. Majority of students had selected journalistic texts which amounts to 43% (16 students) of all text types chosen by participants of the experiment. Thirteen students decided to test prose fragments, which constitutes 35%. Five students translated legal texts, which equals to 13%. Minority had chosen a recipe, which makes 3% (1 student), a film review – 3% (1 student), and a fragment of MA thesis – 3% (1 student). Table 2. Types of texts chosen by students

Student Type of text

Reference

Language

1.

prose

Game of Thrones by George R.R. Martin

ENG into PL

2.

article

The Economist

PL into ENG

3.

legal text

Rozporządzenie Ministra Finansów

PL into ENG

4.

article

http://news.yahoo.com/ canada-vendingmachines-marijuana-163512307.html

ENG into PL

5.

article

www.independent.co.uk California Killings

ENG into PL

6.

prose

Lalka by Bolesław Prus

PL into ENG

7.

article

The Economist – On being forgotten

ENG into PL

8.

prose

Daisy Miller by Henry James

ENG into PL

9.

legal text

Umowa najmu

PL into ENG

10.

prose

The Once and Future King by T.H. White ENG into PL from the book entitled The Sword in the Stone

11.

recipe

How to eat by Nigella Lawson Birthday cake

ENG into PL

12.

article

National Geographic – Cheetah: The Endangered Species by Małgorzata Zdziechowska

PL into ENG

13.

prose

Harry Potter and the Prisoner of Azkaban by J.K. Rowling

ENG into PL

14.

prose

fragment by Agatha Christie (exact reference has not been provided)

ENG into PL

15.

legal text

Umowa spółki cywilnej

PL into ENG

16.

legal text

Umowa Kupna-Sprzedaży

PL into ENG

17.

prose

Podróże z Herodotem by Ryszard Kapuściński PL into ENG

18.

article

The Economist – Language and morality

ENG into PL

19.

article

The Economist

ENG into PL

46

Agnieszka Kałużna

Student Type of text

Reference Bitcoin: The Currency of the Future?

Language

20.

article

ENG into PL

21.

film review www.rollingstone.com X-Men: Days of Future Past

22.

article

BBC’s Mark Lowen in Donetsk

ENG into PL

23.

article

See the World Through the Eyes of a Cat

ENG into PL

24.

article

reference has not been provided

ENG into PL

25.

prose

reference has not been provided

ENG into PL

26.

article

The New York Times – Relevant? Nurturing? Well, so’s Your Old Man

ENG into PL

27.

prose

Catch 22 by Joseph Heller

ENG into PL

28.

prose

A Clockwork Orange by Anthony Burgess

ENG into PL

29.

article

The Guardian – How new parental controls can ENG into PL bribe kids to read – in order to unlock games

30.

prose

reference has not been provided

ENG into PL

31.

prose

The Lord of Flies by William Golding

ENG into PL

32.

article

Onet.pl – Wpadka Baracka Obamy w sprawie PL into ENG Kosowa

33.

article

Putin: Ukraine must pay cash in advance for gas starting in June

ENG into PL

34.

article

The Economist

ENG into PL

35.

MA thesis

Translation of terminology used in glass manufacturing process

ENG into PL

36.

legal text

Employment contract

ENG into PL

37.

prose

reference has not been provided

ENG into PL

ENG into PL

As journalistic writing and prose constitute majority of all text types chosen by students – 78% (29 students), it may be inferred that most of them did not expect a relevant machine translation tool to assist them with specialised terminology in translation. Presumably, 5 students (13%), who chose legal texts to be rendered via machine translation tools, had expectations focused on specialised knowledge, namely connected with legal terminology. Twesty eight texts were rendered from English into Polish (76%), whereas 9 texts from Polish into English (24%). 3.2.4. Translation capacity of machine translation tools with regard to specialised texts Out of total number of texts (37) five texts were specialised ones and they were selected by five students. These were the following texts: Rozporządzenie Ministra Finansów, Umowa najmu, Umowa spółki cywilnej, Umowa Kupna-Sprzedaży and Employment Contract. In rendering the mentioned texts, the following

Machine translation tools in the students’ translation training

47

machine translation tools were selected: Getionary, Google Translate, www. translate.pl, Bing Translator, Translatica, PWN.pl, Babylon Translator, SYSTRANet, 1-800 Translate and Lingvo Bit (www.poltran.com). Figure 2 below illustrates capacity of the mentioned machine translation tools.

Figure 2. Usefulness of machine translation tools in specialised texts

The results show that, on the scale from 1 to 10 (1 – the least useful, 10 – the most useful), Google scored the highest: 9, 7, 8, 8, which amounts to 6.4; Babylon: 4,4 which equals 1.6; Translatica – 7 (1.4); Getionary – 6 (1.2) and Lingvo bit: 4, 2 (1.2); PWN.pl – 4 (0.8); Systran – 3 (0.6), 1-800 – 3 (0.6) and Bing – 3 (0.6); and finally Translate.pl – 2 (0.4). On the basis of the collected data, it may be inferred that the machine translation tool that is most capable of translating legal texts is Google Translate (6.4), whereas Translate.pl turns out to be the least capable one (0.4). The students noticed that machine translation tools may come in useful as a starting point. Also, the students observed that computer tools with translation memories (TMs), that is, with a record of previous translation projects, are also particularly helpful. Thus, one may utilize the tools to translate texts that involve recurring simple structures, where translation memory proves fully reliable. 3.2.5. Students’ ranking of machine translation tools In their project students were asked to provide ranking of machine translation tools on the scale from 1 to 10 (1 – the least useful, 10 – the most useful). The results were calculated and juxtaposed in the form of an average in reference to the most popular machine translation tools chosen by students. The results demonstrate that 33 students had selected Google Translate, with an average score of 5.5. Translatica was the choice of 15 students, with an average score of 2.1. Babylon was selected by 8 students, with an average score of 0.7; Bing was tested by 8 students, with an average score of 0.7; Translate.pl was chosen by 8 students, with an average score of 0.4; and SYSTRANet was selected by 8 students, with an average score of 0.4.

48

Agnieszka Kałużna

Pursuant to the presented data, one may come to the conclusion that, based on students’ opinions, ranking of the machine translation tools is as follows: • Google – 5.5, • Translatica – 2.1, • Babylon – 0.7, • Bing – 0.7, • Translate.pl – 0.4, • SYSTRANet – 0.4. The remaining machine translation tools, which have not been included in the above ranking, were not assessed by students. Thus, the results demonstrate that students are quite sceptical about usefulness of the tested machine translation tools in the translator’s work. The majority of students participating in the study claim that the tools are not fully reliable but they provide the translator with the main idea of the text. Students were of the opinion that machine translation tools do not produce high quality translations without the assistance of a translator. Some of the students’ personal opinions are presented below:  “Google Translate produced the most comprehensible translation. Google Translate preserves the meaning of the original allowing the reader to get a general idea behind the text” (student 2);  “The quality of this translation seems to be the worst out of all three presented in this paper; the translation is generally hard to understand due to both the low success rate of the translation system as well as the presentation of the translated text” (student 1 – critical remark on SYSTRANet);  “What will the world do without good old Google? To be honest it is very difficult to comprehend how well and instantly Google tool copes with translations. Only a few words were translated with wrong tense or person” (student 28). Thus, the conclusion drawn by students was that machine translation could not replace a human translator: “Regardless of Google’s accomplishments, there is still a long way to go for the automatic translator to replace a human translator. Maybe, in a decade or so, there would be no need for translators any more, but right now a machine cannot replace a competent professional” (student 22). 4. Conclusions The case study presented in this paper was designed to explore the use of machine translation tools chosen by 37 students of translation class at the University of Zielona Góra. The idea behind the project was to test and compare randomly selected machine translation tools in order to check whether machine translator could replace a human one. The most significant findings

Machine translation tools in the students’ translation training

49

of the case study concern range and occurrence frequency of machine translation tools, types of texts rendered via the mentioned tools, translation capacity of the tools with reference to specialised texts and students’ ranking of machine translation tools which they regard as the most useful / least useful in the translator’s work. As far as the range of machine translation tools is concerned, 22 different machine translation devices were selected by students. The most frequently used tools were Google Translate, Translatica, Bing Translator, Babylon, SYSTRANet and www.translate.pl. As the findings indicate they seem to be the most popular among students. The results also show that students were ready to experiment with less widespread tools such as Yandex.Translate or Frengly.com. As for the popularity of the mentioned tools, one may infer that students must have had previous experience with using some of the tools, which leads to the conclusion that taking advantage of electronic dictionaries available online is quite a popular practice among students. To what extent paper dictionaries have been replaced by electronic ones in the translator’s work is difficult to estimate and could be the subject of the separate study. The results show that the most frequently chosen texts for the purposes of the project were of journalistic, literary and legal character. On the basis of the findings it can be concluded that press articles (The Economist, The New York Times, The Guardian) are the most popular among students, whereas the second most popular text type constitutes literature. The final text type regards legal texts. When it comes to translation capacity of specialised texts, Google Translate was selected as the most capable, followed by Translatica, Getionary, Babylon, and PWN.pl. In the case of specialised texts, translate.pl turned out to be the least capable according to students’ opinions. The results suggest that machine translation tools such as Google Translate could be useful in translating specialised texts either as a starting point or as a reference in the case of recurring structures. However, they could only serve as an assistance in the translator’s work as they are not fully reliable. The findings of the present case study confirm that machine translation tools with the highest score were Google Translate, Translatica, Babylon and Bing, whereas the ones which scored the lowest were www.translate.pl and SYSTRANet. Although students were quite impressed by the work of the most popular machine translation tools, they were also sceptical about usefulness of the tools in the translator’s work. Based on students’ commentaries, one may sense reluctance towards machine translation tools. It is difficult to estimate whether this reluctance concerns technical imperfections of machine translation tools or an idea of relying on machine in the case of translation. The predominating conclusion is that machine translation tools can be useful only as a reference, but they can never replace a human translator.

50

Agnieszka Kałużna

To sum up, it is to be hoped that the results of the case study will produce further interest in the area of machine translation and will encourage further examination of the relation between machine and human translation. References Eckstein, Marcin, Roman Sosnowski 2004: Komputer w pracy tłumacza. Kraków: Tertium. Hartley, Tony 2009: Technology and translation. In: Jeremy Munday (ed.) 2009: The Routledge Companion to Translation Studies. London, New York: Routledge, 106–127. Hatim, Basil, Jeremy Munday 2004: Translation. An advanced resource book. London, New York: Routledge. Hinsley, Francis H., Alan Stripp (eds.) 1993: Codebreakers: The Inside Story of Bletchley Park. Oxford: Oxford University Press. Mosavi Miangah Tayebeh, 2006: Machine translation and human translation: In complementation not in competition. Translation Studies 13, 31–40. Munday, Jeremy (ed.) 2009: The Routledge Companion to Translation Studies. London, New York: Routledge. Palumbo, Giuseppe 2009: Key Terms in Translation Studies. London: Continuum. Internet sources Hutchins, John 2003: Tłumaczenie maszynowe: krótka historia. In: http://mlingua.pl/ articles,show,pol,20,24 ED 09.2014. http://www.unicode.org ED 09.2014 http://www.natcorp.ox.ac.uk ED 09.2014 http://thetis.bl.uk ED 09.2014 http://titania.cobuild.collins.co.uk ED 10.2014 http://www.tsrali.com/index.Cgi?UTLanguage=en ED 10.2014 http://www.w3.org/XML ED 10.2014 www.rae.es ED 10.2014 Streszczenie Zadaniem niniejszego artykułu jest przedstawienie narzędzi do tłumaczenia maszynowego najczęściej wykorzystywanych przez studentów. Część teoretyczna niniejszego opracowania przedstawia definicję tłumaczenia maszynowego, wyjaśnia różnicę pomiędzy tłumaczeniem maszynowym a wspomaganym komputerowo, a także przedstawia wybrane techniki ewaluacji wspomnianego tłumaczenia przez komputer. W części praktycznej przeanalizowano zadanie przygotowane przez studentów specjalności tłumaczeniowej na Uniwersytecie Zielonogórskim, które dotyczyło zakresu i częstości wykorzystania wybranych narzędzi tłumaczenia maszynowego.

Słownik polsko-hiszpański w systemie tłumaczenia automatycznego opartym na regułach

Izabela Kusicielek

Uniwersytet im. Adama Mickiewicza w Poznaniu, Polska

Abstrakt. Powszechnie dostępne systemy tłumaczenia automatycznego mogą – choć nie zawsze – ułatwić pracę tłumacza, a na pewno pomóc odbiorcom zrozumieć tekst w zupełnie nieznanym im języku. Problem może pojawić się w sytuacji, kiedy chcemy przetłumaczyć tekst specjalistyczny z języka mało popularnego lub na taki – jak np. język polski. W takiej sytuacji sprawdzają się systemy tłumaczenia automatycznego oparte na regułach gramatycznych, których działanie przedstawimy w niniejszym artykule na przykładzie platformy open source Apertium dla języków polskiego i hiszpańskiego. Słowa kluczowe. Tłumaczenie automatyczne oparte na regułach, oprogramowanie open source, Apertium, słownik.

1. Wstęp Jednym z podstawowych wyzwań informatyki jest aktualnie rozwój systemów zdolnych do skutecznego przetwarzania języka naturalnego. W tej dziedzinie zwraca się szczególną uwagę na systemy tłumaczenia automatycznego ze względu na wielojęzyczność społeczeństwa europejskiego. Automatyzacja tłumaczenia jest procesem bardzo złożonym ze względu na charakterystykę języka naturalnego, zwłaszcza wieloznaczność, której pełne i skuteczne przetworzenie algorytmiczne nie jest możliwe, dlatego już zbliżone lub częściowe przetłumaczenie uważa się za sukces (Armentano-Oller et al. 2007: 1). Programy tłumaczenia automatycznego do niedawna były oprogramowaniem zamkniętym, ale w ostatnich latach wolne oprogramowanie znalazło zastosowanie również w tej dziedzinie (Co to wolne… 2014). W niniejszym artykule omówimy działanie platformy Apertium z licencją GNU GPL (General Public Licence), która umożliwia budowę nowych systemów. Definicja wolnego oprogramowania przedstawia warunki, jakie muszą zostać spełnione, aby konkretny program uznać za wolne oprogramowanie. Mówimy o wolnym oprogramowaniu, kiedy spełnione są 4 podstawowe wolności (Stallman 2004: 19): • uruchamiania programu w dowolnym celu (wolność 0),

52

Izabela Kusicielek

•

analizowania, jak program działa i dostosowania go do swoich potrzeb (wolność 1), • rozpowszechniania niezmodyfikowanej kopii programu (wolność 2), • udoskonalania programu i publicznego rozpowszechniania własnych ulepszeń, dzięki czemu może z nich skorzystać cała społeczność (wolność 3). Program może być uznany za wolne oprogramowanie tylko wtedy, kiedy spełnia wszystkie cztery wolności jednocześnie. W przypadku niespełnienia jednej z wymienionych wolności, nie może być tak kategoryzowany (jest wówczas oprogramowaniem zamkniętym). Najbardziej popularną metodą tłumaczenia automatycznego (TA) (bądź tłumaczenia maszynowego w klasycznym rozumieniu tego słowa) jest aktualnie tłumaczenie statystyczne, zwłaszcza powszechnie dostępne Google Translate. Intensywność badań nad tłumaczeniem automatycznym ustępuje jednak w ostatnich latach pracom poświęconym głównie aplikacjom i narzędziom wspomagającym pracę tłumacza, automatyzacji przekładu ustnego (czyli wykorzystaniu syntezy mowy) oraz systemom tłumaczącym dostępnym online. Tendencje tłumaczenia automatycznego wiążą się ściśle z rozwojem technologii i zmianami na rynku tłumaczeń. Powstające współcześnie aplikacje są przeznaczone nie tylko dla tłumaczy, występują w wielu wersjach językowych i umożliwiają działanie w nowych, dotychczas niedostępnych obszarach, jak m.in. przekład ustny (Bogucki 2009: 49; Miłkowski, Rehm & Uszkoreit 2012: 6–8). Głównym celem tego artykułu jest przedstawienie konkretnego systemu tłumaczenia automatycznego opartego na regułach gramatycznych, budowy słowników oraz udzielenie odpowiedzi na pytanie, czy w erze korpusów i materiałów dostępnych w Internecie warto pracować nad udoskonaleniem systemów opartych na regułach. Nakreślona również zostanie historia tłumaczenia automatycznego, podstawowe metody, zastosowanie systemów opartych na regułach oraz zasady ich działania i budowy słowników na przykładzie platformy Apertium w odniesieniu do języków polskiego i hiszpańskiego. 2. Zarys historyczny tłumaczenia automatycznego Historia tłumaczenia automatycznego1 jest prawie tak długa jak historia komputerów, ponieważ oczekiwano, że tłumaczenie między językami naturalnymi będzie jednym z podstawowych zadań maszyn cyfrowych (Jassem 2006: 15). Użycie komputera na potrzeby tłumaczenia zaproponował po raz pierwszy w 1947 r. Warren Weaver, amerykański naukowiec i matematyk, w liście do 1

W języku polskim stosuje się wymiennie terminy tłumaczenie automatyczne lub tłumaczenie maszynowe, w języku angielskim terminem stosowanym jest machine translation (MT).

Słownik polsko-hiszpański w systemie tłumaczenia automatycznego…

53

kolegi Norberta Wienera. W 1949 r. przedstawił możliwość tłumaczenia komputerowego szerszemu gronu w memorandum „Tłumaczenie”. W kolejnych latach naukowcy z USA i wschodniej Europy rozpoczęli badania dotyczące prac leksykograficznych, metody bezpośredniej tłumaczenia, analizy składniowej (ang. parsing), interlingwy, językoznawstwa matematycznego etc., co na przestrzeni lat doprowadziło do rozwoju językoznawstwa komputerowego i sztucznej inteligencji (Mitkov (ed.) 2003: 510). Prezentacja pierwszego systemu tłumaczenia automatycznego odbyła się w 1954 r. w Georgetown (USA), gdzie zaprezentowano tłumaczenie 49 wyselekcjonowanych zdań rosyjskich na język angielski. W tym samym roku w Birkbeck College w Londynie APEXC2 przetłumaczył tekst z języka francuskiego na angielski. Mimo ograniczeń systemów pokazy zachęciły badaczy do dalszych działań, których celem było pełne tłumaczenie wysokiej jakości, zbliżone do możliwości wykwalifikowanego tłumacza, co okazało się wkrótce celem zbyt ambitnym. W 1964 r. rząd amerykański, który do tej pory inwestował w badania, powołał komitet ALPAC (Automatic Language Processing Advisory Committee) do zbadania perspektyw tłumaczenia automatycznego. W raporcie złożonym w 1966 r. stwierdzono, że nie widać realnego terminu budowy pożytecznego systemu tłumaczącego, czego konsekwencją było wstrzymanie badań w USA i innych krajach. Impulsem do wznowienia prac stał się sukces systemu METEO, który został skonstruowany w Montrealu w 1976 r. i miał służyć tłumaczeniu raportów meteorologicznych między językami angielskim i francuskim. W tym samym roku Europejska Wspólnota Gospodarcza postanowiła zaadaptować do swoich potrzeb rosyjsko-amerykański system SYSTRAN, przeznaczony początkowo do celów militarnych, co okazało się przełomowym wydarzeniem dla tłumaczenia w Europie (Jassem 2006). Badania nad tłumaczeniem automatycznym doprowadziły w kolejnych latach do stworzenia systemów opartych na transferze: Ariane (Francia), SUSY (Niemcy), Mu (Japonia), międzynarodowego systemu Komisji Europejskiej Eurotra oraz systemów interlingwy Rosetta i DLT (Holandia) (Hutchins & Somers 1995). W latach 80. XX w. systemy tłumaczenia automatycznego znalazły zastosowanie głównie w międzynarodowych korporacjach oraz instytucjach (m.in.: systemy SPANAM i ENGSPAM dla Panamerykańskiej Organizacji Zdrowia). Kolejnym przełomowym momentem w historii tłumaczenia maszynowego było zastosowanie pamięci tłumaczeniowych oraz metody oparte na korpusach. Dodatkowo dużym ułatwieniem było udostępnianie nowych narzędzi ułatwiających tłumaczenie oraz oprogramowania, które dalekie jest od perfekcyjnego tłumaczenia, ale znacznie przyspiesza cały proces. 2

All Purpose Electronic (X) Computer – komputer zaprojektowany przez Andrew Donalda Bootha w Birkbeck College w Londynie na początku lat 50. XX w.

54

Izabela Kusicielek

W Europie planowane przystąpienie państw Europy Centralnej i Wschodniej do Unii Europejskiej przyczyniło się również do prac nad rozwojem TA i narzędzi tłumaczeniowych dla takich języków, jak czeski, polski, węgierski, słowacki, estoński i bułgarski – nie tylko po to, by wspomagać tłumaczenia zawieranych paktów czy innych dokumentów prawnych, ale również, by zapewnić lepszy dostęp do źródeł informacji. Należy przy tym nadmienić, że prowadzono również prace badawcze nad systemami do tłumaczenia języków mniejszości narodowych zamieszkujących Europę, takich jak baskijski, kataloński czy galicyjski w Hiszpanii (Forcada 2006). Prace nad tłumaczeniem automatycznym uległy w ostatnich latach komercjalizacji. W Internecie można znaleźć usługi dziesiątek korporacji z zakresu tłumaczenia automatycznego, jednakże dużo trudniej uzyskać informacje o stosowanych metodach i zasadach działania tych systemów. Chociaż jakość tekstów tłumaczonych automatycznie pozostawia jeszcze wiele do życzenia, badacze – zarówno językoznawcy, jak i informatycy – cały czas pracują nad jego ulepszeniem, bazując w ostatnich latach zwłaszcza na dużych korpusach tekstów (np. w tłumaczeniu opartym na przykładach, zwanym również tłumaczeniem przez analogię i tłumaczeniu statystycznym). Warto wspomnieć, że rozwijane niezwykle dynamicznie systemy i aplikacje Google umożliwiają użytkownikom poprawienie jakości tłumaczeń dzięki idei Web 2.0, czyli globalnej sieci tworzonej przez użytkowników (Bogucki 2009: 23). 3. Metody tłumaczenia automatycznego Istnieje wiele metod tłumaczenia automatycznego tekstu z jednego języka na inny. Różni autorzy klasyfikują w różny sposób główne metody i podejścia tłumaczenia automatycznego (Alonso Martín 2003; Mitkov (ed.) 2003; Jassem 2006; Bogucki 2009). Ze względu na zastosowane strategie i sposób działania systemu, Bogucki (2009) wyróżnia systemy bezpośrednie i pośrednie. Hutchins i Somers (1995) nazywają je odpowiednio systemami pierwszej i drugiej generacji. Tłumaczenie bezpośrednie narodziło się w czasach, kiedy możliwości komputerów były dość ograniczone, a języki programowania praktycznie nie istniały. Metoda ta nie była zbyt skomplikowana, gdyż tłumaczenie polegało na analizie morfologicznej tekstu wyjściowego, określeniu części mowy, sprawdzeniu ekwiwalentów w słowniku dwujęzycznym i utworzeniu tekstu docelowego przy użyciu prostych zasad gramatycznych, ignorując praktycznie zjawisko kontekstu (Bogucki 2009: 29). Systemy bezpośrednie cechowały się minimalną analizą zdania wyjściowego, opierając się na podobieństwach syntaktycznych, semantycznych i leksykalnych między językami oraz na działaniach w obrębie jednej pary języków (tłumaczenie z wykorzystaniem innych języków wymagało

Słownik polsko-hiszpański w systemie tłumaczenia automatycznego…

55

opracowania nowego systemu), a jakość przetłumaczonego tekstu zależała w dużej mierze od jakości słownika. Tłumaczenie pośrednie (tłumaczenie oparte na regułach, rule-based machine translation) występuje w dwóch wariantach – bazującym na interlingwie lub na transferze. Tłumaczenie oparte na interlingwie, czyli sztucznym tworze językowym, ma spory potencjał głównie w tłumaczeniu multilingwalnym i uważane jest za potencjalnie najlepszy sposób tłumaczenia automatycznego (Bogucki 2009: 32), ponieważ interlingwa odgrywa rolę języka pośredniego, choć należy przy tym pamiętać, że jego utworzenie nie jest zadaniem łatwym. Z kolei transfer jest ograniczony do jednej pary języków, a tłumaczenie odbywa się na trzech etapach: analiza, transfer i synteza. Zaletami systemów pośrednich są na pewno lepsza jakość tłumaczenia dzięki zastosowaniu kompletnych teorii i koncepcji językowych, a nie prostych reguł gramatycznych, większa uniwersalność i elastyczność słowników. Systemy oparte na regułach wyposażone są w oprogramowanie i słownik dla danej pary języków i wykorzystują reguły gramatyczne do analizy i konwersji zdań tekstu wyjściowego, czego efektem są zdania w języku docelowym (Bogucki 2009: 33). Rozbiór zdania wyjściowego i przypisanie każdemu słowu jego funkcji pozwala na wyeliminowanie błędów znanych z wcześniejszych systemów. Następnie w fazie transferu językowego powstają zdania w języku docelowym, które na ostatnim etapie zostają wzbogacone o odmianę i inne wymagane dla języka docelowego elementy. Wadą systemów opartych na regułach jest czas potrzebny na opracowanie funkcjonalnego systemu i budowę słownika oraz brak uniwersalności, gdyż systemy nie radzą sobie z analizą informacji niewystępujących w bazie. 4. Systemy tłumaczenia automatycznego oparte na regułach Podstawowym elementem systemu tłumaczenia automatycznego jest słownik, od którego wymaga się szybkiego odczytu (funkcja, która umożliwia odczyt informacji o zadanej formie fleksyjnej w czasie rzeczywistym, tj. z niezauważalną zwłoką) przez komputer i możliwości zapisu. Od słowników tego typu oczekuje się również możliwości zapisu, czyli dodania nowego hasła oraz dodania lub zmiany formy fleksyjnej lub opisu hasła. Słownik w systemie tłumaczenia automatycznego powinien również zawierać dwa rodzaje wiedzy: lingwistyczną, czyli wiedzę niezbędną do przetwarzania składniowego tekstu, i pozalingwistyczną, czyli wiedzę o świecie w zależności od metody tłumaczenia oraz ograniczeń dziedzinowych systemu (Jassem 2006: 29). System Apertium, którego działanie opiszemy, zbudowany jest z trzech słowników: morfologicznego (jednojęzycznego) dla każdego z języków, dwujęzycznego dla pary języków i słownika zmian ortograficznych, którym podlegają

56

Izabela Kusicielek

słowa, kiedy występują razem (głównym zadaniem tego słownika jest wykonanie transformacji ortograficznych i poprawne użycie apostrofów). Warto zastanowić się również nad sposobem stworzenia słownika wykorzystywanego w tłumaczeniu automatycznym. Możemy wyróżnić dwa podejścia w tworzeniu tego typu słowników: wytwarzanie ręczne (hand-crafted) na bazie słowników tradycyjnych oraz wytwarzanie automatyczne w procesie trenowania na korpusach dwujęzycznych za pomocą metod statystycznych. Opinie o efektywności jednej i drugiej metody są podzielone (Jassem 2006: 30). O wyborze typu słownika decydują też często względy praktyczne – technologia automatycznej translacji determinuje zazwyczaj postać słownika. Poza tym, wybór typu słownika może być również podyktowany dostępnymi zasobami. 4.1. Działanie systemu Apertium W niniejszej pracy opiszemy budowę i działanie systemu tłumaczenia automatycznego Apertium3 (Ginestí Rosell 2010), który jest oprogramowaniem ogólnodostępnym. Apertium jest systemem opartym na regułach gramatycznych, służącym do powierzchownego tłumaczenia (shallow transfer machine translation), który używa przetworników skończonych w procesie analizy i transferu jednostek leksykalnych oraz ukrytego modelu Markowa do rozpoznawania części mowy (Armentano-Oller et al. 2007; Forcada et al. 2011). Powstanie platformy Apertium jest wynikiem współpracy kilku spółek (m.in. Eleka Ingeniaritza Linguistikoa, Imaxin Software, Elhuyar Fundazioa i Prompsit Language Engineering) oraz wielu projektów finansowanych przez rząd hiszpański i realizowanych na hiszpańskich uczelniach: Universitat d’Alacant, Universidade de Vigo, Universitat Politècnica de Catalunya, Euskal Herriko Unibertsitatea, Universitat Pompeu Fabra (Armentano-Oller et al. 2007: 8). Początkowo twórcy platformy Apertium chcieli zbudować system tłumaczenia automatycznego dla języków pokrewnych. Jednakże budowa nowych słowników i reguł gramatycznych pozwala na stworzenie systemów obsługujących większą liczbę języków niespokrewnionych. Baza języków rozwijana we współpracy z uniwersytetami w Vigo, Katalonii oraz uniwersytetem Pompeu Fabry wspiera obecnie (w wersji stabilnej) języki: asturyjski, baskijski, bretoński, bułgarski, kataloński, duński, angielski, esperanto, francuski, galicyjski, islandzki, macedoński, norweski, oksytański, portugalski, rumuński, hiszpański, szwedzki, walijski. Silnik i narzędzia Apertium nie zostały zbudowane od podstaw, ale są raczej wynikiem rozbudowy dwóch poprzednich systemów TA, a mianowicie systemu hiszpańsko-katalońskiego interNOSTRUM i tłumacza traductor.universia.net, który jest systemem hiszpańsko-portugalskim opracowanym przez grupę Transducens. Wersja aktualna pozwala na wykonywanie bardziej złożonych transformacji rozszerzonych o tłumaczenie języków niespokrewnionych. 3 https://www.apertium.org/index.spa.html?dir=spa-por#translation

Słownik polsko-hiszpański w systemie tłumaczenia automatycznego…

57

System Apertium, który jest systemem opartym na regułach, jako platforma open source umożliwia tłumaczenie wielu par języków, choć twórcy podkreślają, że tłumaczenia najlepszej jakości uzyskuje się w przypadku języków spokrewnionych. Budowa systemu oparta jest na silniku tłumaczenia, kodyfikacji danych językowych i narzędziach wspierających tłumaczenie. Poniżej przedstawiamy uproszczony schemat tłumaczenia zdania „idziemy do parku” w języku źródłowym (source text) na tekst w języku docelowym (target text):  analiza morfologiczna: analizator morfologiczny dzieli tekst na jednostki powierzchniowe (jednostki leksykalne z tekstu) i dla każdej z nich dostarcza jedną lub więcej form leksykalnych w formie leksemu, czyli np. dla rzeczownika będzie to mianownik liczby pojedynczej, dla czasownika, bezokolicznik wraz z informacją o fleksji (rodzaj, liczba, czas, osoba etc.). Podział form powierzchniowych może prezentować zawiłości z powodu istnienia form ściągniętych („del”, „al”) lub jednostek wielowyrazowych (np.: „echar de menos”, „vámonos”), które są traktowane jak formy leksykalne jednowyrazowe; iść /do /park idziemy /do/parku  dezambiguacja: w tej fazie, dzięki użyciu modelu statystycznego (ukryty model Markowa), wybiera się formę leksykalną zgodną z kontekstem;  transfer leksykalny: obsługuje słownik dwujęzyczny i wybiera dla każdej formy leksykalnej w języku wyjściowym odpowiedni ekwiwalent w języku docelowym; ir/ a/ el/ parque ir/a/el/parque  generowanie formy powierzchniowej: z formy leksykalnej w języku docelowym tworzy się forma powierzchniowa odpowiednio odmieniona; vamos a el parque  słownik ortograficzny: następują zmiany ortograficzne (np: ściągnięcia, apostrofy); vamos al parque  wygenerowanie tekstu w języku docelowym w formacie języka wyjściowego.

58

Izabela Kusicielek

Objaśnienia: vblex lexical verb pr preposition n noun sg singular vblexpri lexical verb, present tense, first person pl plural gen genitive det determiner def definite 4.2. Budowa słowników w systemie Apertium Jak już wspomniano, system zbudowany jest z trzech słowników: morfologicznego (jednojęzycznego) dla każdego z języków, dwujęzycznego dla pary języków i słownika ortograficznych zmian, którym podlegają słowa, kiedy występują razem. Słowniki morfologiczne używane są na etapie analizy w celu wyodrębnienia leksemów w tekście wyjściowym i na etapie generowania odpowiednich form w języku docelowym. Struktura blokowa słownika morfologicznego w systemie Apertium jest następująca: • zdefiniowany alfabet , który umożliwia analizę leksykalną znanych słów, • symbole gramatyczne , • paradygmaty odmian , • leksemy rozpoznawane przez system: ABCČĆDDžĐEFGHIJKLLjMNNjOPRSŠTUVZŽabcčćddžđef ghijklljmnnjoprsštuvzž … t tu

Słownik polsko-hiszpański w systemie tłumaczenia automatycznego…

59

towi t tem cie cie Podstawową jednostką słownika morfologicznego jest hasło (entry), które składa się ze wspólnego tematu odmiany (identity transduction), bez konieczności wprowadzanie jakiejkolwiek zmiany w odmianie, oraz odniesienia do paradygmatu odmiany (paradigm). W poniższym przykładzie słowo „uniwersytet” odmieniać się będzie jak „hit” w liczbie pojedynczej i „bat” w liczbie mnogiej: uniwersyte t tu towi t tem cie cie y ów