німецька мова, немецкий язык, deutsche Sprache, Deusch ; українська мова, украинский язык, Ukrainian language
Описано створення паралельного банку дерев для української та німецької мов. Було здійснено ручне тегування й лематизацію токенів для української мови, створено набір тегів для анотування українських речень на рівні синтаксичної структури; проведено вирівнювання й визначення повних або часткових відповідників на рівні як термінальних, так і нетермінальних символів. Для
анотування банку дерев українською мовою було застосовано формат TIGERXML, адаптований до потреб формального опису граматичної структури
української мови.
Описано создание параллельного банка деревьев для украинского и немецкого языков. Проведено ручное тегирование и лемматизацию токенов для украинского языка; создан набор тегов для аннотирования украинского языка на уровне синтаксической структуры; выровнены и определены полные или частичные совпадения как для терминальных, так и для нетерминальных символов. Для аннотирования банка украинских предложений использован набор тегов в формате TIGER-XML, адаптированный к потребностям формального описания грамматической структуры украинского языка.
In this paper, we describe outcomes of an experiment on building a parallel Treebank for bridging the Ukrainian language with the German language. The aim of the mentioned experiment was: manually tagging and lemmatization of tokens for Ukrainian corpora; establishing of the compatible tagset for Ukrainian and introduction of the specific syntactic phrasal categories; production of the parallel trees from the bilingual resources; alignment of the German-Ukrainian parallel trees; determining “good” and “fuzzy” matches between the non-terminal and terminal nodes across the syntactic structures of the languages involved. The Ukrainian Treebank was annotated according t o a n adapted version of the German TIGER guidelines with the necessary changes relevant to the Ukrainian grammar formal description.