КАК НАКОПИТЬ 100 МЛН. СЛОВОФОРМ

В Татарстане вскоре начнут разрабатывать систему машинного перевода с русского языка на татарский, и наоборот (аналог Google Тranslate). Об этом вчера сообщил директор НИИ «Прикладная семиотика» Академии наук РТ Джавдет Сулейманов на круглом столе, посвященном современным лингвистическим технологиям.

— Правительственный документооборот должен вестись на двух языках, поэтому нам необходимо максимально оптимизировать процесс перевода, — заявил Сулейманов.

Согласно идее проекта, до 2020 года будет собираться необходимая для запуска грамотного машинного перевода словарная база из 100 млн. словоформ. Пополнять базу будут переводчики министерств и ведомств путем «общего накапливания материала». Таким образом, на протяжении пяти лет лингвисты выступят в роли разработчиков проекта.

Для внедрения машинного татарско-русского перевода была выбрана российская лингвистическая компания ABBYY Language Services, с которой, по словам Сулейманова, у Академии наук РТ очень давние связи. ABBYY обеспечила поддержку многоязычного центра на Универсиаде в 2013 году, а также участвовала в создании одного из русско-татарских словарей. В январе этого года компания стала еще и резидентом казанского IT-парка.

— Машинный перевод никогда не заменит переводчика, человеческий ресурс никогда не уступит электронному переводу. Но эта программа призвана оптимизировать работу и сделать ее более качественной, — сказала руководитель отдела продаж технологий компании ABBYY Алсу Бикбаева.

Скорость работы при обращении к программе увеличивается в 1,5 - 2 раза, на 99% происходит предотвращение терминологических ошибок, в целом же производительность работы повышается в 2 - 2,5 раза, привела подсчеты Бикбаева. Для запуска системы машинного перевода потребуется около 4 - 5 лет и около 40 профессиональных лингвистов-переводчиков из Татарстана, которые станут активными пользователями программы, накапливая базу и получая преимущества в своей работе.

Генеральный директор ABBYY Language Services Иван Смольников не стал раскрывать стоимость затрат на создание программы. Сулейманов сообщил, что предварительно планируется потратить на работу в этом году около 7 млн. рублей. Проект реализуется в рамках госпрограммы «Сохранение, изучение и развитие государственных языков РТ», которая также включает в себя внедрение татарско-английских словарей, увеличение количества поддерживающих татарский язык платформ, разработку мобильных приложений и др.

— Если язык не станет языком мобильных разработок и не будет использоваться на iPad и iPhonе или других мобильных устройствах, он, каким бы красивым ни был, обречен, — с долей юмора заявил Сулеймманов.

Бикбаева уточнила, что у каждого ведомства, участвующего в проекте, будет создана своя собственная, отдельная база накопления. Это необходимо для того, чтобы терминология, использованная тем или иным ведомством, была систематизирована и не путала остальных пользователей. Еще важный момент — программа накопления базы является сетевой, то есть в процессе работы над документом переводчик может обратиться не только к своему словарю, но и к словарю, например, своего руководителя. Кроме того, при обнаружении в тексте идентичных словосочетаний, программа переводит их автоматически, что актуально для отчетов, где меняются только цифры. Также в процессе формирования базы будут использоваться архивные документы, которые были сделаны ранее.

ЭТОТ ПРОДУКТ СПЛОТИТ НАШЕ СООБЩЕСТВО

Эксперты, опрошенные «БИЗНЕС Online», отметили, что о ценности проекта можно будет говорить после его завершения, насколько он будет качественно сделан.

Сергей Щиголев — заведующий сектором переводов управления государственного протокола президента РТ:

— Если говорить о программе, я считаю, что она будет очень полезной, хотя аналогичные проекты уже разрабатывались. Эта программа хоть и интересная, но больших особенностей я у нее не заметил. Правда, что здесь можно придумать нового? Лишь бы хорошо и качественно работало. Для меня очень важно, чтобы база была богатой, содержала все необходимые слова и словосочетания, имела ссылки на примеры, в которых данные слова могут использоваться. Но самое главное, чтобы в ней работали именно носители языка, так называемые «окончательные корректоры».

Алсу Галимова — переводчик:

— На протяжении пяти лет я занималась переводом официальных документов и новостной ленты. И могу сказать, что это очень-очень хороший продукт, он еще больше сплотит наше сообщество переводчиков, работающих как в области перевода официальных документов, так и перевода в целом. Мы, наконец-то, сможем обмениваться опытом, аккумулируя его в одном месте. Вообще, машинный перевод — это огромный шаг в автоматизации русско-татарского перевода, аналогов такой системы у нас нет. Это будет первый такой продукт. Разумеется, я буду обращаться к машинному переводу, но в первую очередь мне бы очень хотелось поучаствовать в разработке этого продукта.