ИИ заговорит на кыргызском?
Почему Кыргызстану важно заниматься развитием искусственного интеллекта (ИИ) на своем языке и для чего он может применяться? Какие преференции это может принести стране и что на данном этапе мешает развитию этого направления?
Эти и другие вопросы в Бишкеке 21 февраля обсудили участники круглого стола, который прошел в рамках встреч ИИ-клуба ololo (сообщество, которое проводит мероприятия, направленные на повышение осведомленности об ИИ у широкой аудитории – прим. ред.). Открывая дискуссию, основатель данного коммьюнити Игорь Чемеркин пояснил, что идея о проведении подобной встречи возникла после того, как в ответ на новости о создании ИИ, говорящем на кыргызском языке, было «много вопросов и непонимания»:
«Спрашивали: зачем все это делается, кому это надо, почему мы делаем это сами и тратим средства вместо того, чтобы дожидаться, когда компании OpenAI или DeepMind все сделают за нас? Поэтому хотелось узнать, что уже сделано в этом направлении и с какими трудностями сталкиваются разработчики ИИ на кыргызском языке, каковы их планы на будущее».
Один из спикеров мероприятия – директор компании «УЛУТ софт» Мирбек Окенов назвал знаковым тот факт, что подобная встреча проходит именно в Международный день родного языка. И говоря о необходимости развития ИИ на кыргызском языке, он отметил, что «искусственный интеллект, являясь передовой технологией, придает нашему языку определенный имидж»:
«Появляется все больше умных девайсов, с которыми мы раньше взаимодействовали через физические посредники – клавиатура, пульт – а теперь общаемся просто голосом. К примеру, SmartTV или «умный дом». И хочется, чтобы наш язык тоже был в обиходе, когда у вас, допустим, есть автомобиль и вы общаетесь с ним на кыргызском языке».
Кстати, в этот же день – в рамках празднования Международного дня родного языка – в кабинете министров КР прошла церемония награждения победителей хакатона среди студентов отечественных вузов страны, которые выполняли IТ-проекты с использованием искусственного интеллекта, в том числе на основе кыргызского языка. Как сообщила пресс-служба кабмина, среди победивших проектов были те, которые позволяют преобразовать речь на 70 языках мира в аудио на кыргызском языке или перевести текст на кыргызском языке в аудио, а также идея с приложением для слабовидящих и незрячих людей, которое может сгенерировать аудио на кыргызском языке, если навести камеру телефона на изображение.
Не только тренд
В качестве гостя на круглом столе в ИИ-клубе выступил также заведующий отделом по цифровизации администрации президента КР Азамат Буржуев, который объяснил, что государство намерено поддерживать развитие ИИ на кыргызском языке «не только потому, что это мировой тренд, но и жизненно важный аспект ближайших 20-40 лет»:
«Мы не являемся объектом экономических интересов больших компаний: нас они обслуживают по остаточному принципу. К примеру, Google Pay появился [в Кыргызстане] только в прошлом году, с Apple Pay мы до сих пор переписываемся. Тот же Microsoft, у которого мы хотели купить лицензию для государства – им нельзя написать в техподдержку, выбрав Кыргызстан, элементарно нет нашей страны. Естественно, нас это очень сильно беспокоит и мы считаем, что ни в коем случае нельзя отставать в этом направлении. Мы можем ждать, когда [ИИ на кыргызском языке] разработают другие, но тогда мы будем зависимы. Государство считает, что у нас должен быть собственный ИИ, который понимает и разговаривает на кыргызском языке, который мы можем правильно настроить и обучить».
Азамат Буржуев напомнил, что именно поэтому, годом ранее, властями страны были выделены средства на приобретение «суперкомпьютера» NVIDIA. Другой участник этой встречи, инженер машинного обучения Адиль Аденов подтвердил, что это оборудование существенно помогло им в разработке AkylAI – голосового помощника на кыргызском языке. «Сейчас мы готовим к выпуску новый релиз и этот компьютер нас сильно выручает, потому что мы до этого тратили собственные средства, чтобы обучать AkylAI на внешних серверах – у того же Google покупали, у Amazon брали. Это было слишком дорого», – рассказал IT-специалист.
Между тем, Мурат Жумашев – один из со-основателей проекта Google Translate и AI-энтузиаст, основавший в Кыргызстане школу программирования на кыргызском языке Kodjaz, представил свои доводы на тему того, почему кыргызстанцам важно самим заниматься развитием ИИ на родном языке:
«В случае с кыргызским языком многие популярные токенизаторы не поддерживают версии заглавных трех букв ө, ү, ң. Токенизатор – это специальная программа, которая делит тексты на простые кусочки, а эти кусочки потом превращаются в числовое представление и по этим числам машина учит язык. От токенизаторов зависит то, насколько искусственный интеллект качественно и хорошо понимает тот или иной язык. Но в случае с кыргызским, получается, что если пишешь слово через CapsLock, то заглавные Ө, Ү, Ң программа не обрабатывает. И это пример того, насколько важно включаться в данный процесс. То есть нашему сообществу надо связываться с теми же OpenAI, Google, Meta и так далее, предложив: ребята, есть такая проблема, давайте решать вместе».
Однако спикеры выделили и преимущества в обучении нейросетей кыргызскому языку. В частности, Мирбек Окенов напомнил о таком явлении как сингармонизм, которым обладает кыргызский. «Когда мы обучали ИИ, то заметили, что этот сингармонизм помогает нам: форма нашего языка настолько оптимальная, что используя даже 100 тысяч слов уже можно получить хорошие результаты», – отметил он и добавил, что в ближайшее время «УЛУТ софт» планирует реализовать проект по переводу в голосовой формат пресс-релизов на государственном языке, которые публикуются на веб-сайтах кабмина и Жогорку Кенеша.
Есть и проблемы
Ранее в интервью «Азаттыку» Азамат Буржуев сообщил, что власти КР рассматривают возможность обучения ИИ кыргызскому законодательству «чтобы он мог консультировать граждан и организации, а также начать применять его при разработке новых законов, чтобы он проверял, имеются ли где-то противоречия [законодательных норм] или дублирование». А на упомянутой встрече он рассказал, что помимо нормативно-правовой сферы, рассматриваются варианты внедрения нейросетей в работу здравоохранения и образовательного сектора:
«Снимок компьютерной томографии весит почти 700 Мб. Это большой файл, который в нескольких измерениях показывает внутренние органы человека. И сейчас на практике медики выбирают самый лучший, по их мнению, вариант и смотрят, есть ли там какая-то аномалия. Они даже не могут его распечатать в имеющемся разрешении, просто максимально сжимают. Поэтому мы проводим работу по тому, чтобы эти снимки обрабатывались ИИ для выявления, например, заболеваний на ранней стадии. Но когда мы получили первые результаты по анализу снимков, у нас были споры с врачами, они были не согласны. И тут возник вопрос: имеем ли право сказать доктору, что он должен считаться с описанием, которое выдает искусственный интеллект? То есть появляются этические моменты. К тому же у кыргызстанцев есть предрасположенность к каким-то заболеваниям и какие-то анатомические особенности. А нейросети, обученные на европейских снимках, показывают, что у нашего пациента имеется какое-то заболевание, хотя на самом деле человек здоров».
В связи с этим представитель администрации президента КР еще раз подчеркнул необходимость вовлечения кыргызстанских IT-специалистов в работу по машинному обучению и добавил, что Кыргызстан готовится принять Цифровой кодекс – «первый в своем роде нормативно-правой акт, который будет, в том числе, регулировать сферу ИИ».
Что же касается образования, то, по словам Азамата Буржуева, власти КР планируют приобрести ноутбуки для всех учителей в стране (примерно 80 тысяч человек, по данным кабмина – прим. ред.), чтобы у них была возможность взаимодействовать с информационными системами:
«Мы думаем, что должен появиться AI-репетитор, который поможет нашим детям получать персонализированный правильный контент для повышения уровня знаний в STEM (естественные науки, от англ. science, technology, engineering, mathematics – прим. ред.)... И в этом году должно появиться как минимум 10 таких компаний, как «УЛУТ софт», то есть мы будем стимулировать разработку ИИ на кыргызском языке. Планируется выделить 100-200 млн сомов частным структурам, которые будут выполнять госзаказы и развивать это направление».
В свою очередь, директор «УЛУТ софт» Мирбек Окенов обратил внимание на то, что для развития нейросетей Кыргызстану необходима инфраструктура, так как одного «суперкомпьютера» недостаточно:
«Да, есть возможность обучать через облачные сервисы, но это как иметь духовку... у соседа. То есть приходится все время бегать к нему, а когда духовка у тебя под рукой, ты можешь придумать блюдо и есть возможность сразу это попробовать, увидеть моментальный результат. Даст бог, государство поможет в приобретении NVIDIA DGX H100 – это последняя время GPU (графический процессор, от англ. graphics processing unit – прим. ред.). Для компаний это будет большой прыжок и возможность делать более серьезные, углубленные вещи. А пользоваться этим оборудованием бесплатно можно будет, если проекты некоммерческие и решают какую-то социальную проблему».
Однако в приобретении указанного оборудования, как выяснилось, имеются препоны, так как, даже при оплате всей суммы надо ждать в очереди почти полгода. «И второй барьер: к сожалению, мы (Кыргызстан – прим. ред.) в черном списке, куда NVIDIA не поставляет свои чипы последних моделей, так как мы – соседи Китая, или, к примеру, Россия может у нас их выкупить. Есть процесс, когда мы должны получать одобрение Конгресса США, то есть они выдают разрешение», – поделился Мирбек Окенов, пошутив, что «как будто [истребитель] F-16 покупаем».
Азамат Буржуев в связи с этим констатировал, что «западные страны искусственно, а может и не искусственно, но специально вынуждают нас к отставанию»:
«Они разрабатывают эти технологии, говорят про права человека, про равенство и так далее, но технологии, которые позволят нам сравняться с ними в ближайшие 20-30 лет, они нам не дают. И мы поднимаем этот вопрос на международных площадках, а также готовим президента [Кыргызстана], чтобы он озвучил это на Генеральной ассамблее ООН. Почему такое неравенство? Почему в начале очереди ставят транснациональные технологические корпорации, а нас ущемляют, может быть надо квотировать распределение? И это очень серьезный вопрос, который мы должны решать на самом высоком уровне. Но тут важную роль также играет сообщество наших IT-специалистов, потому что те вопросы, которые мы не могли решить по дипломатическим каналам, нам удалось разрешить через нетворкинг. То есть в какой-то компании может работать наш соотечественник, с которым мы связываемся и проблема решается. Поэтому нам надо действовать вместе, так как это общенациональная задача».
В заключение представитель администрации президента КР, который по совместительству является председателем Наблюдательного совета Парка высоких технологий (ПВТ) КР привел аргументы в пользу того, что стране необходимо делать упор на развитии нейросетей:
«Все это генерирует большие средства. Вот, на прошлой неделе мы подводили итоги работы ПВТ за 2023 год. Там на экспорт работает около 200 компаний, в которых примерно 2500 сотрудников за год оказали услуги на 90 млн долларов. И если разделить, то получится, что каждый из них привлек в КР примерно 36 тысяч долларов извне. Мы сравнили эти цифры с другими показателями. К примеру, швейная отрасль экспортировала продукцию на 150 млн долларов, а работает там 200 тысяч человек. Если поделить, то получится каждый из них привлек 600 долларов в страну. Есть ведь разница: 600 долларов или 36 тысяч долларов? Или, допустим, сельское хозяйство, куда мы инвестируем миллиарды [сомов]. Было экспортировано аграрной продукции примерно на 300 млн долларов, но этой деятельностью занимается примерно половина населения страны. Это говорит о том, что технологии – очень высокоэффективны и полезны для экономики».
Форум Facebook