Как окыргызить Google Translate?

Семинар по Википедии на кыргызском языке. Кыргызский национальный университет. 31 марта 2011 г.

Для появления кыргызского языка в Google Translate необходимо больше контента.


Несколько дней назад в социальной сети Facebook было создано сообщество «Кыргызский язык в Google Translate», целью которого является появление кыргызского языка в сервисах Google - языкового перевода Google Translate и в сервисе он-лайн редактировании документов Google Doc's.

Сообщество создано пользователем Уланом Жумашевым.

На данный момент более 340 пользователей «лайкнули» (отметили) инициативу.

В группе идет активное обсуждение необходимости, пользы и различных предложений для решения этого вопроса в положительную сторону.

Сотрудник компании Google, наш соотечественник Тилек Мамутов, на вопрос от ОФ ГИИП «что необходимо для появления кыргызского языка в этих сервисах?», ответил, что к нему было очень много обращений по этому поводу.

В связи с этим он написал в своем блоге (www.tilekus.com) статью. Тилек также отметил, что хотя работает в Google, он не является членом команды Google Translate.

В статье сказано, что добавление нового языка является очень сложной задачей. Каждый язык требует огромного количества информации для тренирования алгоритмов и значительного количества работы со стороны разработки программного обеспечения для того, чтобы сделать этот язык доступным.

Почти всегда задерживающим фактором является количество информации для «тренировки» алгоритмов.

«Нам нужно большое количество параллельных данных, то есть, большое количество документов или предложений, которые уже были переведены между новым языком и одним из языков, который уже поддерживается», - сказано в публичном ответе старшего программиста команды Google Translate Джошуа (Joshua).

Таким образом, для появления нового языка в Google Translate необходимо:

- Увеличение количества «параллельных» веб-страничек на кыргызском + русском языке (или кыргызском + английском языке). Статистический машинный перевод «учится» на большом количестве текста уже переведённом людьми;

- Загрузка данных в Google Translator Toolkit. Он помогает переводчикам делать переводы текстов с помощью подсказок Google Translate.

Напрямую очень сильно поможет:

- Переводить документы с кыргызского и на кыргызский с помощью Google Translator Toolkit;

- Увеличение количества сайтов на 2 и более языках;

- Больше контента на кыргызском языке.

Wikipedia на кыргызском языке.

Кроме этого, Тилек отметил такой пункт, как перевод статей энциклопедии Википедия на кыргызский язык.

В данный момент (2011-07-14) на кыргызском языке всего лишь 1577 статей.


Так как статей на кыргызском мало, более эффективным будет перевод с других языков (русского и может английского) на кыргызский, а не наоборот.

Увеличение информации на кыргызском языке в Интернете (например, статьи в Википедии) на самом деле даже само по себе может быть более полезным, чем появление сервиса Google Translate, отметил он.

Полный текст статьи Тилека Мамутова https://sites.google.com/site/tilekus/projects/internet-in-kyrgyz/google-translate

--

Общественный фонд «Гражданская инициатива Интернет политики»