====== Принципы подготовки текста к переводу ====== * Автор: **[[участник:mikhailo]]** %%%% * Лицензия: [[https://creativecommons.org/licenses/by-nc-sa/3.0/deed.ru|CC BY-NC-SA 3.0]] **Проблемы вёрстки текста, оказывающие влияние на_перевод с_использованием программ автоматизированного перевода (CAT)** После посещения [[https://translationforum.by/arhiv/pervyj-forum-perevodchikov-belarusi/|1-го Белорусского форума переводчиков]], выступления с_небольшим докладом и_развернувшейся затем небольшой дискуссии я_увидел, что многие переводчики, как_бы даже владеющие навыками работы в_CAT, приняли моё указание на_то, что выпускники лингвистического, да_и_других вузов тоже, должны владеть навыками вёрстки текста в_одном из_основных своих рабочих инструментов (Microsoft Word (MS(н)Word) или OpenOffice/LibreOffice Writer (LO(н)Writer)), то_ли с_некоторым пренебрежением, то_ли вообще в_штыки (ну не_царское это дело_--- вёрстка). Я_понимаю, что часть переводчиков, постоянно работающая с_присылаемыми готовыми пакетами в_CAT, может даже никогда и_не_задуматься об_этой проблеме. Однако понимание сути проблем, вызываемых вёрсткой в_переводе, помимо повышения производительности, позволит начинающим переводчикам избежать проблем, стоящих массы нервных клеток, когда после экспорта перевода за_5(н)минут до_сдачи вместо красивого документа открывается неприглядно выглядящая мешанина текста и_картинок... Такое понимание будет полезно и_всем работающим с_MS(н)Word/LO(н)Writer, чтобы просто уметь создавать нормальные документы, экономя при этом собственное время и_нервы. Поэтому, и_по_вежливой заинтересованности одного из_преподавателей [[wpru>Московский_государственный_лингвистический_университет|МГЛУ]], я_и_решился написать данную статью. В_общем, проблемы, вызываемые вёрсткой в_переводе, условно (из-за_их тесного переплетения) можно разбить на_три группы: - [[#Проблемы сегментации]], или разбивки текста на_единицы перевода. В_самом крайнем случае, свойственном, правда, не_MS(н)Word или LO(н)Writer, а_САПР, адекватный перевод может стать невозможен или затраты времени на_него выйдут за_разумные пределы. - Проблемы вёрстки, [[#Проблемы вёрстки, снижающие эффективность работы в CAT|затрудняющие работу]] в_CAT и_снижающие её_эффективность и_производительность труда. - Проблемы вёрстки, [[#Проблемы вёрстки, приводящие к искажению внешнего вида готового перевода|приводящие к искажению]] внешнего вида готового перевода вплоть до_состояния, в_котором ни_один заказчик его не_примет. А теперь подробнее рассмотрим каждый клубок проблем. В_качестве примера я_буду приводить картинки из_CAT DejaVuX. В_Trados, MemoQ и_других CAT они будут похожи. ===== Проблемы сегментации ===== Среди проблем сегментации, или разбивки текста на_единицы перевода, можно условно выделить следующие: - Разбивка предложений абзацами. - Неразбивка предложений из-за отсутствия пробелов после конечного знака препинания, широкого использования имён собственных, начинающихся с_маленькой буквы, в_начале предложения (например, Kilgray с_их_MemoQ). - Использование сокращений, отсутствующих в_стандартных списках сокращений. - Различная обработка табуляции в_разных CAT на_стандартных настройках (Trados и_DejaVuX не_разбивают сегменты по_табуляции, MemoQ_--- разбивает). - Перестановка сегментов (обычно в_САПР). - Разбивка предложений мелкими картинками в_тексте (обычно в_руководствах к_ПО). ==== Разбивка предложений абзацами. Неразбивка соседних предложений ==== С_этой проблемой, в_разной мере, сталкивались абсолютно все переводчики. Выглядит она так: {{ :принципы_подготовки_текста_к_переводу:pic01.png?direct }} {{ :принципы_подготовки_текста_к_переводу:pic02.png?direct }} {{ :принципы_подготовки_текста_к_переводу:pic03.png?direct }} И_вот так в_CAT: {{ :принципы_подготовки_текста_к_переводу:pic04.png?direct }} {{ :принципы_подготовки_текста_к_переводу:pic05.png?direct }} {{ :принципы_подготовки_текста_к_переводу:pic06.png?direct }} В_ситуации «полный(н)ах», с_которой в_CAT без оригинала не_справится даже самый опытный переводчик, она выглядит так: |< 99% 50% >| ^ Оригинал ^ Текст в_CAT. Обратите внимание на_нарушение логического порядка следования сегментов ^ | {{:принципы_подготовки_текста_к_переводу:pic07.png?direct}} | 1) Film coefficients and fouling resistance are related to inside | |::: | Mapped Version 0, 07/21/00 | |::: | the tubes. | |::: | tube for air side. | |::: | 2) Overall coefficients are related to the bare outer diameter of | |::: | surfaces of tube for product side and bare outside surface of | |::: | Air side | Такую серьёзность проблема чаще всего имеет при переводе текста из_САПР и_DTP, если верстальщик неопытный. Применительно к_ACAD в_моей классификации она называется «TEXT-MTEXT-проблема» (TEXT в_ACAD обозначает однострочный текст, MTEXT_--- многострочный). Когда единица перевода в_САПР набирается в_несколько отдельных строк (TEXT), которые при автоматическом импорте могут разделиться ещё несколькими строками из_других частей чертежа, адекватный перевод без оригинала будет практически НЕВОЗМОЖЕН. А_вот вытребовать оригинал у_заказчика порой чрезвычайно тяжело. Поэтому, если жизнь столкнёт вас с_возможностью повлиять на_определение технических требований к_предоставлению документации заказчиком_--- помните об_этом. Если вы_будете/станете менеджерами в_[[:БП|бюро переводов (БП)]]_--- ВСЕГДА требуйте у_заказчика полный комплект документации. В_реальной жизни_ такие вещи приходится либо исправлять предварительно (если чертежей много и_использование CAT сулит значительные преимущества), либо переводить вручную. Учитывая тот факт, что самая распространённая CAT_--- Trados_--- до_2017 версии не_могла объединять сегменты, разбитые абзацами, оптимальным (а_иногда единственным) путём решения проблемы является исправление оригинала. **Совет** Если возможность изменения оригинала не_заблокирована, объединить необъединяемые сегменты в_любой CAT можно вручную простым переносом текста из 2-3-4-й частей сегмента в 1-ю и_туда_же вбив полный перевод. Однако следует быть осторожным с_тегами. При таком переносе, если части содержат теги, на_выходе можно получить неэкспортируемый документ. Если такое случится_--- переименуйте оригинал, импортируйте его в_проект, переведите его из_копилки переводов и_экспортируйте. Некоторые могут возразить: «Ну(н)что за_проблема объединить немного разбитых единиц перевода в_Trados(н)2017, DejaVuX или MemoQ?». Ответ на_этот вопрос мы_рассмотрим в_следующем разделе. (А_вдумчивым читателям предлагается додуматься до_него самим.) ==== Сокращения ==== Касательно сокращений_--- тут есть несколько решений. - Настройка списков сокращений в_MemoQ, Trados или исключений из_правил сегментации в_DejaVuX. Поскольку, на_мой взгляд, грамотно эта функция реализована только в_MemoQ (с_автоматическим исправлением сегментации после добавления нового сокращения в_список), то_грамотный подход к_выбору CAT (не_просто Trados, чтобы было как у_всех) с_изучением всех преимуществ и_возможностей выглядит предпочтительным решением. Работа с_настройкой исключений в_DejaVuX требует знания извращённых разновидностей регулярных выражений. Также потребуется повторно импортировать документ с_новыми настройками, что приведёт к_стиранию уже сделанной части перевода. Он, конечно, будет подставлен обратно из_TM((//Англ.// translation memory, //рус.// «память переводов»_--- база данных, содержащая набор ранее переведённых сегментов текста.)), но_только для тех сегментов, которые останутся неизменными. Поэтому более предпочтительным решением (особенно для тех, кто дружит с_Views (в_DejaVuX и_MemoQ)), может быть добавление к_имени файла номера версии и_импорт его новым файлом в_проект. - Ручное исправление сегментации по_мере перевода_--- простой и_эффективный путь, когда сокращений немного. ==== Мелкие картинки ==== Что касается картинок, тут проблема опять-таки зависит от_используемой CAT: MemoQ не_разбивает сегменты на_таких картинках, DejaVuX_--- разбивает, Trados_--- не_помню. Поэтому один из_путей решения_--- использование наиболее адаптированной к_собственным потребностям CAT или перевод через неё. Вторым способом, более предпочтительным в_преподавании и_для технических писателей, является такое построение текста, при котором количество картинок в_середине предложений будет минимальным. Однако следует отметить, что если в_некоторых иностранных языках использование имён собственных без пояснительных существительных привычно, в_русском это является признаком дурного стиля. Например: «ХХХ» dichiara(н)... //(итал.)// Компания «ХХХ» заявляет(н)... Поэтому с_полями-названиями, кнопками и_прочими подстановочными элементами в_начале предложения стоит быть осторожнее. ===== Проблемы вёрстки, снижающие эффективность работы в CAT ===== Прежде чем говорить о_проблемах, мне хотелось определить значение словосочетания «повышение эффективности». Итак, под повышением эффективности работы я_подразумеваю следующее: * уменьшение объёма текста для перевода (насколько это возможно); * обеспечение последующего эффективного использования сделанных переводов_--- с_максимальным количеством полных совпадений; * уменьшение количества мусора в_тексте и_TM(н)-> уменьшение размера(н)-> повышение скорости работы. Итак, какие же дефекты оформления мешают нам достичь указанных целей? - Использование ручных оглавлений, номеров страниц, различных наименований, которые можно заменить полями, ручной нумерации и_буллетирования списков и_т.п. - Замусоривание текста_--- отбивка пробелами абзацных отступов и_выключки (выравнивания текста, например, по_центру), многочисленные пробелы, использование большого количества шрифтов, буквицы, разнотипных знаков препинания и_т.п. - Табулирование текста вместо использования таблиц. - Орфографические ошибки. ==== Оглавление ==== Как ни_печально говорить, но_большинство пользователей MS(н)Word/LO(н)Writer не_умеют делать автоматическое оглавление. А_ведь замена ручного оглавления в_документе (при его наличии) на_автоматическое перед импортом позволяет сократить объём текста в_переводе порой на_10-15%. Кроме того, ручные оглавления часто форматируются так, что даже при полном совпадении с_названиями заголовков глав они не_дают 100% совпадений по_принципам оценки CAT, а_нередко, из-за синонимичности, пропусков/добавления артиклей, пробелов и_т.д. и_т.п. они и_не_являются полными совпадениями. И_представьте, сколько времени может понадобиться на_проверку того, а_совпадают_ли они в_переводе. (А_потом ещё на_проверку непрерывности нумерации нумерованных заголовков, правильности номеров страниц и_т.п.) Вот пример того, как такие горе-оглавления с_названиями глав выглядят в_MS(н)Word. (Также обратите внимание, насколько криво выглядит текст_--- разные отступы, пропуски нумерации в_тексте, орфографические ошибки.) |< 99% 50% >| ^ Как было ^ Как должно быть((Заголовки размечены стилем //Заголовок(н)1// с_автоматической нумерацией)) ^ | {{:принципы_подготовки_текста_к_переводу:pic08.png?direct&400}} | {{:принципы_подготовки_текста_к_переводу:pic09.png?direct&400}} | | {{:принципы_подготовки_текста_к_переводу:pic10.png?direct}} | {{:принципы_подготовки_текста_к_переводу:pic11.png?direct}} | | {{:принципы_подготовки_текста_к_переводу:pic12.png?direct&400}} | {{:принципы_подготовки_текста_к_переводу:pic13.png?direct&400}} | | {{:принципы_подготовки_текста_к_переводу:pic14.png?direct}} | ::: | Вот пример автоматического оглавления и_двух наиболее часто встречаемых вариантов ручных оглавлений: {{ :принципы_подготовки_текста_к_переводу:pic15.png?direct }} И_вот как они выглядят в_CAT: {{ :принципы_подготовки_текста_к_переводу:pic16.png?direct }} Как можно видеть, **автоматическое оглавление** просто **отсутствует** в_CAT и_не_требует перевода, сегменты ручного оглавления могут не_на_100% совпадать с_заголовками в_тексте (самые внимательные отметят, вдобавок, отклонение названия 3-й главы в_оглавлении от_названия в_самом тексте документа). Ещё одним способом уменьшения количества текста в_перевод является использование полей и_скрытие (или оформление специальным стилем) частей, не_требующих перевода_--- в_первую очередь таблиц с_многочисленными цифрами и_обозначениями. Альтернативой данному решению является настройка CAT на_тегирование таких вещей, чтобы они не_отображались в_таблице перевода. ==== Замусоренность ==== Пример замусоренного текста можно легко найти в_текстовых документах на_сайтах разных вузов. Я_же(н)просто покажу самые типичные проблемы на_фрагменте текста, распознанного FineReader: {{ :принципы_подготовки_текста_к_переводу:pic17.png?direct }} Псевдонумерация, псевдобуллетирование, отбивка пробелами, разный кегль шрифта... Это то, что видно навскидку. То, что не_видно навскидку, в_CAT может оказаться таким, как показано ниже, бросая в_дрожь новичков: {{ :принципы_подготовки_текста_к_переводу:pic18.png?direct }} Остряки, конечно, могут сказать: «Ну_и_в_чём тут проблема? Отключить показ непечатных знаков в_MS(н)Word_--- ужас по_большей части скроется. Теги зачистить CodeZapper_--- и_всё будет(н)OK». Да, возможно, конкретный документ это спасёт, но_в_копилку переводов попадёт много замусоренных сегментов, которые с_нормальным текстом не_дадут даже и_75% совпадения (например, одинаковые заголовки с_разными ручными номерами). А_это_--- снижение производительности, порой очень существенное, конкурентоспособности и_заработка... Рассмотрим буллетирование. При автоматическом буллетировании в_«Ворд» текст импортируется чистым. С_ручным буллетированием, на_котором настаивает в_своих рекомендациях по_подготовке документов к_переводу БП(н)«Неотек», не_всё так однозначно. Его плюсы и_минусы на_мой взгляд я_привёл ниже: **Плюсы ручного буллетирования** * Большая понятность сути текста при отсутствии оригинала. **Минусы ручного буллетирования** * Больший размер. * Проблемы с_отбивкой: * отбивка пробелами_--- в_MS(н)Word/LO(н)Writer при выключке по_ширине невозможно получить красивый ровный текст; * отбивка табуляцией_--- разная обработка табуляции в_CAT; * отбивка неразрывным пробелом. Труднее набирать.\\ Примерно 50-70% пользователей MS(н)Word/LO(н)Writer не_знают, что это такое, и_при включении непечатаемых знаков могут начать удалять значок неразрывного пробела, похожий на_градус. * Большое количество разновидностей «буллетов» будет снижать степень совпадения. * Проблемы с_вышеописанными факторами при использовании вручную сопоставленных документов. Вот так в_CAT выглядит буквица: {{ :принципы_подготовки_текста_к_переводу:pic19.png?direct }} Совпадение между сегментами с_буквицей и_без меньше того предела, с_которого CAT начинает предлагать совпадения. Т.е., переведя любой из_вариантов, вы_не_увидите его при переходе на_другой вариант (в_примере хорошо видно, какую проблему представляет синонимичность для ручных оглавлений). Во-вторых, понимание принципов влияния форматирования и_других особенностей оформления текста на_степень его совпадения в_CAT может дать эффективные способы противодействия тем БП, которые очень любят при своих невысоких расценках дополнительно обирать переводчиков скидками за_совпадения. ==== Табуляции ==== Рассмотрение влияния табуляции на_работу в_различных CAT я_оставляю читателю для самостоятельной работы. Единственной подсказкой будет то, что Trados и_DejaVuX стандартно не_разбивают сегменты по_табуляции, а_MemoQ разбивает. ===== Проблемы вёрстки, приводящие к искажению внешнего вида готового перевода ===== Причиной этой проблемы на_самом деле является не_вёрстка, а_отличие длины перевода от_длины оригинала_--- русский перевод, как правило, на_20-30% длиннее английского оригинала. Итак, какие_же подводные камни скрываются здесь... Во-первых, чем меньше свободные поля на_странице, тем больше вероятность того, что добиться постраничного соответствия без уменьшения кегля или подбора специальных уплотнённых шрифтов не_удастся (это, как минимум, потребует исправления номеров страниц ручных оглавлений_--- одна глупость тянет за_собой другую). Во-вторых, при сдвиге текста скорее всего произойдёт его смещение относительно картинок, колонок, позиций табуляции и_т.п. |< 99% 50% >| ^ ... ^ Сдвиг заголовка при увеличении межстрочного интервала и_перекрытие его надписью, привязанной к_позиции на_странице ^ | {{:принципы_подготовки_текста_к_переводу:pic20.png?direct&400}} | {{:принципы_подготовки_текста_к_переводу:pic21.png?direct&400}} | \\ |< 99% 50% >| ^ ... ^Порча внешнего вида документа после перевода из-за сдвига текста ^ | {{:принципы_подготовки_текста_к_переводу:pic22.png?direct}} | {{:принципы_подготовки_текста_к_переводу:pic23.png?direct&400}} | Поэтому основное правило при вёрстке под перевод с_помощью CAT_--- **минимум позиционно-размерных привязок** с_отсечением_их разрывами страниц. На_практике это значит следующее: - Картинки следует вставлять предпочтительно «в_тексте», без обтекания. - Текст, связанный с_картинками, лучше делать в_таблицах. * Рассмотрим пример:{{:принципы_подготовки_текста_к_переводу:pic24.png?direct&700}} * Можно сделать так (см.(н)отступ):{{:принципы_подготовки_текста_к_переводу:pic25.png?direct&700}} * И_так (рамка таблицы показана специально):{{:принципы_подготовки_текста_к_переводу:pic26.png?direct&700}} Оформление в_таблице будет лучше тем, что даже при изменении длины текста, выставив вертикальное выравнивание в_ячейках «посередине», мы_всегда получим симметричный параграф, для чего первый вариант, возможно, придётся поправлять вручную после экспорта. - Надписи следует использовать минимально. Если избежать этого нельзя, после перевода следует внимательно проверить, чтобы текст был виден в_надписях полностью (обычно приходится увеличивать размер надписей, уменьшать стандартные поля или уменьшать/заменять шрифт перевода).\\ Вот пример этой проблемы в_документе, некачественно подготовленном для перевода:{{:принципы_подготовки_текста_к_переводу:pic27.png?direct}} - Избегать использования табуляций вместо таблиц. Позиции табуляторов привязываются к_странице. В_более длинном переводе в_некоторых строках произойдёт смещение текста к_следующей позиции табуляции, и_стройная ровненькая картинка рассыплется. Да, её_можно исправить, но_это_--- время, которого гораздо чаще не_хватает именно в_конце перевода, а_не_в_начале. Кроме того, следует учесть проблемы, связанные с_разной обработкой табуляции в_разных CAT (и_помнить об_этом при интенсивном обмене копилками переводов между разными CAT). - Не_использовать форматирование в_одну и_несколько колонок на_одной странице (характерная особенность документов, полученных из_FineReader в_режиме сохранения с_максимальным подобием при непонимании особенностей перевода с_помощью CAT). - Страницы с_отклонениями в_оформлении от_данных указаний по_возможности отсекать разрывами до_и_после. Желающие изучить вышеописанные проблемы более подробно могут взять какой-нибудь сложный документ, распознать его в_FineReader и_сохранить с_разной степенью подобия (в_случае PDF можно воспользоваться каким-нибудь конвертером_--- Acrobat, Solid и_т.п.), после чего загрузить в_CAT и, воспользовавшись функцией псевдоперевода длиной 120-130% (перевод на_20-30% длиннее оригинала, что типично для перевода с_английского на_русский), посмотреть, что получится с_внешним видом документа на_выходе... ====== ====== Вот вроде и_всё. Возможно, я_что-то пропустил и_что-то недостаточно осветил. Я_не_ставил задачу разжевать материал до_уровня манной каши. Те, кто называет себя переводчиками, должны сами уметь догрызться до_сути в_направлениях, которые я_хотел показать [[участник:mikhailo|своим]] очередным опусом. ----- \\ P.S. С_замечаниями об_ошибках, предложениями по_улучшению и_дополнению просьба обращаться по_адресу P.P.S. Поскольку разработчики(н)ПО постоянно совершенствуют свои творения, часть информации может уже быть или скоро стать не_совсем верной. Однако это не_меняет важность рассмотренного вопроса. ---- datatemplateentry articles ---- template : служебные:шаблоны:шаблон_статья_автор # имя страницы, задающей формат отображения статус : авторство # авторство, соавторство, составление уинавторовs : 1325 # ID учётной записи пользователя(-ей) на форуме; разделитель -- запятая авторыs : mikhailo # имя пользователя (имена через запятую) символ_pages : П # буква(-ы) или цифра(-ы); разделитель -- запятая категория_nspages : Инструменты перевода # категории, к которым относится статья; разделитель -- запятая ----