Купить антивирус касперского на Support.by        аренда виртуального cервера на Support.by

Аляксей Чысцякоў - выкладчык кафедры сацыяльна-гуманітарных дысцыплін, міжмоўнай і міжкультурнай камунікацыі Віцебскага філіяла Інстытута сучасных ведаў імя А.Шырокава (http://www.isz.minsk.by) (Беларусь)

КОМПЬЮТЕРНЫЙ ПЕРЕВОД КАК ИНСТРУМЕНТ МЕЖКУЛЬТУРНОЙ КОММУНИКАЦИИ
Адукацыйныя і выхаваўчыя асяроддзі і практыкі
Зборнік навуковых артыкулаў пад агульнай рэдакцыяй
кандыдата педагагічных навук У.К.Слабіна.
Віцебск, 2005. С.202-206.

Аляксей Скрэбнёў - (skrebniow.at.tut.by, skrebniow.at.softhome.net) - дацэнт кафедры сацыяльна-гуманітарных дысцыплін, міжмоўнай і міжкультурнай камунікацыі Віцебскага філіяла Інстытута сучасных ведаў імя А. Шырокава (http://www.isz.minsk.by). Выпускнік адукацыйнай праграмы абмену ЗША FSA-2001 (Беларусь)

Галоўная
Ад рэдактара
Рэдакцыйная рада Змест


УДК 80:004.3

Как известно, самым главным правилом перевода в его современном понимании является требование переводить не слова, а смысл, причём носителем смысла в его культурном понимании является текст. Чем выше квалификация переводчика, тем больший текст он может переводить одновременно, выходя за рамки не только предложения, но и абзаца. Наиболее квалифицированный переводчик при этом принимает во внимание и интертекстуальность текста, т.е. его культурно-смысловую связь с максимально большим количеством культурно значимых текстов как в культуре исходной (с которой идет перевод), так и в конечной (на которую переводят). Последнее особенно важно при переводе художественных текстов, и не случайно художественный перевод пока считается той областью, где компьютеру делать нечего. Однако это положение может измениться скорее, чем мы думаем.

Данная работа посвящена одной из новейших разработок в области машинного перевода. Эта тема сейчас чрезвычайно актуальна и затребована - процесс общения между людьми, разговаривающими на различных языках, весьма упростился, и языковой барьер является едва ли не единственным препятствием в этом. Потому во всём мире сейчас идёт интенсивное освоение новых принципов машинного перевода, создаются новые коммерческие программы на их основе.

Из истории машинного перевода нам известны два распространённых алгоритма, на которых строится работа программ. Первый из них - алгоритм прямого перевода: текст переводится слово в слово при помощи встроенного двуязычного словаря. При этом переводится только семантическое значение того или иного слова, синтаксические особенности в расчёт не принимаются. Дальнейшим развитием прямого способа перевода стал так называемый трансфер - т.е., за единицу перевода принимается не отдельное слово, а сегмент текста, при этом анализируется не только семантика выражения, но и его синтаксис. Фактически процесс перевода разбивается на два параллельных процесса, каждый из которых требует отдельного словаря - семантического и синтаксического.

На прямом переводе построена работа таких распространённых программ, как SOCRAT и STYLUS. Недостатки этих программ вполне очевидны: во-первых, их работа возможна только в пределах одной языковой пары. Во-вторых, даже новейшая программа PROMT XP Office со встроенной системой переводческой памяти выдаёт на выходе текст, часто лишённый значительной доли смысла. В третьих, программы испытывают затруднения в переводе, если речь идет о словах со множественным значением.

Одновременно с параллельным переводом, получил распространение более сложный метод машинного перевода, основанный на использовании третьего языка, промежуточного между языком перевода и оригинала. Язык-посредник (Interlingua, Pivot Language), представляет собой некий универсальный код, объединяющий грамматическую и семантическую информацию о языке, через который происходит трансформация текста на исходном языке в текст на языке перевода. В сущности, речь идёт о самостоятельном, внутреннем языке машины, где существуют только отвлечённые значения, не имеющие конкретной языковой формы. Этот язык не имеет прямой связи с реально существующими языками, и потому может быть сравнительно легко преобразован в любой из них. Использование языка-посредника значительно расширяет возможности машинного перевода, так как число языков, на который производится перевод, не ограничивается одним языком.

Созданные программы на вышеописанных алгоритмах приобрели в последнее время значительную популярность, однако их недостатки налицо: их использование требует в любом случае большой словарной базы, которая занимает значительный объём памяти, а создание пользовательских словарей являет собой весьма трудоёмкий процесс. Помимо этого, значительная часть специализированных словарей, поставляемых вместе с программой, остаётся без применения, так как слова и термины, относящиеся к какой-либо специфической отрасли, могут быть совершенно не затребованы специалистами в другой: специалисту по архитектуре вряд ли понадобится словарь, содержащий лексику специалиста-свиновода.

Между тем, существует способ, позволяющий создавать вполне грамотные переводы вообще без каких-либо заложенных правил: процесс построен на математической логике и статистическом вычислении вероятности. Активные работы в этой области ведутся около 15 лет, и в последнее время в этой отрасли достигнуты серьёзные успехи-благодаря деятельности такого выдающегося ученого, как Франц-Иосиф Ох. В настоящее время на рынке доступен лишь один коммерческий продукт этого типа - программа Language Weaver, которую создали на основе идей Оха его ученики.

Принцип, лежащий в основе статистического перевода, описан ниже с помощью простого примера. Для иллюстрации, мы возьмем два текста-на русском и на английском языке:

Все смешалось в доме Облонских.
All the things were mixed at Oblonski's house.

Любое слово и сочетание слов из первого предложения может быть переведено любым словом и сочетанием слов из другого, но с разной степенью вероятности. Теперь мы добавим выражение для нового перевода, содержащее сходные элементы.

Смешались в кучу кони, люди.
Horses and people were mixed together.

Допустим, что обе фразы уже переведены на английский язык. В этом случае мы легко найдём повторяющийся в обоих случаях элемент - выражение "were mixed". Проанализировав значения первой и второй фразы в целом, логично предположить, что ''were mixed'' вероятнее всего означает ''смешались'', ''были смешаны''. Добавим ещё один текст:

Все тона были перемешаны на этом полотне.
All the paints were mixed on this canvas.

Проанализировав оригинал и перевод с учётом уже освоенного материала, компьютер изменит степень вероятности того, что выражение ''Were mixed'' следует переводить как ''смешались'' - теперь эта величина приблизится к стопроцентной. Если теперь компьютеру поручить перевод фразы с этим выражением, то, исходя из простой логики повторяемости, он его именно так и переведёт. Таким образом, в процессе перевода составляется и постоянно пополняется необходимый для работы программ словарь. Когда словарь становится неполным, обрабатывается новый корпус параллельных текстов. Чтобы сделать процесс еще более понятным, следует сказать, что именно этот принцип был описан в известном рассказе А. Конан-Дойла "Пляшущие человечки" - Шерлок Холмс расшифровывал тексты, записанные с помощью непонятных символов, анализируя различную вероятность появления тех или иных сочетаний, правда, на уровне букв.

Программа статистического машинного перевода полностью игнорирует грамматические правила и не нуждается в словарях, содержащих уже готовые к употреблению лексические и грамматические данные, т.е. не нуждается в данных о единицах языка в его соссюровском понимании. Для успешной работы нужны только сами тексты, причём в возможно больших количествах. Таким образом, отпадает необходимость загружать в память специализированные словари - программа сама генерирует постоянно используемый словарь, ориентированный на нужды конкретного пользователя. Для перевода становится доступен любой существующий язык - в частности, программа Language Weaver в последней версии поддерживает языки хинди и суахили. Более того, с помощью той же программы был составлен словарь несуществующего клиньонского языка (клиньоны - это раса инопланетян из фантастического сериала Star Trek).

Уже сейчас программы статистического перевода обеспечивают самое высокое качество среди всех систем машинного перевода. По информации, размещённой на официальном сайте Language Weaver, производительность программы превышает 500 слов в минуту. Cистемные требования также вполне разумны: тактовая частота процессора не менее 2,4 гГц и не менее 2 ГБ оперативной памяти.

Статистический метод имеет значительные преимущества по сравнению с трансформационными программами, так как не требует установки многоязычных словарей. Однако, с учётом того, объём ОЗУ и мощность процессора непрерывно возрастают, прогноз на развитие систем статистического машинного перевода будет самым благоприятным - вся письменность, созданная за всё время существования человечества на всех языках мира, по приблизительной оценке, составляет всего лишь несколько десятков петабайт (1015 байт). Принимая во внимание темпы развития компьютерной техники (например, удвоение скорости процессоров в среднем за 5 лет, ещё большие темпы уплотнения информации в физическом объёме), можно предположить, что программы статистического перевода станут доступны широкой публике в ближайшем будущем.

Текст, подготовленный для перевода в программе Language Weaver, может быть представлен в различных форматах текстовых файлов и даже звуковых файлов. Собранные воедино, параллельные документы распознаются, и происходит их совмещение на уровне предложения для создания параллельного текстового корпуса. Этот корпус обрабатывается при помощи подпрограммы Language Learner, которая определяет вероятность того или иного перевода и составляет вероятностный словарь, шаблон или правило - параметры перевода. Созданные параметры используются статистическим переводчиком-декодером при переводе новых текстов.

На данном этапе разработки программа всё-таки не автономна, и конечный вариант оценивает профессиональный переводчик, выбирая из предложенного списка предложение, наиболее совершенное в плане коммуникативной эквивалентности. В дальнейшем выбранное предложение будет использовано как шаблон или образец.

Этот качественный переход в машинном переводе можно сравнить с переходом от того, как ребёнок срисовывает буквы и слова, не понимая их значения, к осмысленному переписыванию слов и выражений. Таким образом, можно утверждать, что представленный метод машинного перевода работает не с языковым материалом (значения отдельных слов, сочетаний слов, правила синтаксиса), а с прецедентными текстами в широком смысле этого слова, т.е. со смыслами высказываний, что уже в какой-то степени может считаться материалом культурным. При такой работе с текстами уже имеет место трансформация языковой оболочки смысла как культурного явления, а не слова как явления языкового. С увеличением технической мощности компьютеров увеличится возможность обработки параллельных текстов всем возможным инструментарием Булевой алгебры, и компьютер сможет более или менее самостоятельно устанавливать интертекстуальные связи. Возможно, что в классических текстах, которые сейчас считаются шедеврами пока что потому, что они прошли испытание временем, обнаружатся математические законы построения. Ведь уже в прошлом веке возникли разделы математики, описывающие произведения Моцарта и Бетховена формулами. Кроме того, по мере развития оцифровывания компьютер сможет работать и с паралингвистическими знаковыми системами, например, интонацией и мимикой.

Если же в будущем исследователи решат проблему автоматической проверки адекватности перевода, то компьютер станет полностью самообучающейся системой, способной не только переводить, но и в каком-то смысле порождать тексты, и, в частности, пройти знаменитый тест Алана Тьюринга. При этом реакция компьютера будет зависеть от того, какой "культурный багаж" он получит в виде заложенных в него параллельных текстов.

Галоўная
Ад рэдактара
Рэдакцыйная рада Змест

SUMMARY
Timafei Chystiakow, Aliaksei Skrebniow
COMPUTER TRANSLATION AS AN INSTRUMENT FOR INTERCULTURAL COMMUNICATION

The paper addresses the issues of adequate computerized translation from/to various languages and automatic checking this adequacy. Different types of machine translation (parallel, pivot language, statistical) are diccussed.