понедельник, 2 ноября 2020 г.

"Цифровая смерть" башкирского языка

 «Башкирский язык находится на пути к вымиранию», — утверждает заместитель директора Института истории, языка и литературы УФИЦ РАН Тимур Мухтаров (к.с.н.), возглавляющий координационный совет по контролю за выполнением госпрограммы «Сохранение и развитие государственных языков Башкортостана и языков народов РБ». В колонке, написанной для «Реального времени», он с сожалением констатирует, что за последние 20 лет практически не реализовывались новые проекты в рамках языковых госпрограмм республики. Описывая современные тренды, ученый обращает внимание на то, что до сих пор нет автоматической орфографической проверки текстов на башкирском языке в MS Word и Open Office. Колумнист указывает еще на одну проблему — до сих пор нет хороших онлайн-переводчиков башкирского.

На пути к вымиранию

Башкирский язык, один из крупнейших тюркских языков России по числу носителей, находится на пути к вымиранию. Отсутствует должная поддержка со стороны государства и общества. К такому неутешительному выводу приводят мысли, которые появляются после ознакомления со статьей «Цифровая смерть языков» восточноевропейского исследователя Андраша Корнаи (András Kornai). В своей работе этот автор исследует феномен «цифрового перехода», где языки реализуются в пространстве цифровой коммуникации, и доказывает, что сегодня недооценивается так называемая цифровая смерть языков. По его мнению, лишь 5% из общего числа языков способны пережить тотальную «цифровизацию». По моему мнению, при сохранении нынешнего положения, у башкирского языка очень мало шансов попасть в это заветное число.

В 2003 году ЮНЕСКО разработала критерии определения жизнеспособности уязвимых языков (к которым с 2009 года отнесен и башкирский) для того, чтобы помочь правительствам и другим организациям в разработке политики, определении потребностей и соответствующих мер по их охране. Некоторыми из них являются следующие:

реакция языка на новые сферы и медиа (употребление языка в новых средах и СМИ);

типы и качество языковой документации (грамматик, словарей, текстов, литератур, аудио- и видеозаписей);

доступность материалов для изучения языка и повышения грамотности.

Башкирский язык, один из крупнейших тюркских языков России по числу носителей, находится на пути к вымиранию. 

Все эти критерии тесным образом связаны и, чтобы отвечать им, язык должен иметь способность к эволюционному цифровому развитию. Ранее, в публикации в «Реальном времени» «Когда заговорят по-башкирски Siri, Alexa и Алиса?», были поставлены вопросы, например: способны ли разработки башкирских властей, ученых и волонтеров, которые сейчас делают усилия по «цифровизации» башкирского языка, технологически обеспечить башкирское национальное образование в будущем? Как антимонопольная политика может оказать влияние на цифровое развитие башкирского языка? Какие ошибки допускаются в языковой политике, какие общие проблемы стоят в Башкортостане перед башкирским и татарским языками, есть ли будущее у национального образования?

Реакция языка на новые сферы и медиа

Комментируя критерий «реакция языка на новые сферы и медиа (употребление языка в новых средах и СМИ), специальная экспертная группа ЮНЕСКО утверждает следующее: «Если сообщества не отвечают на вызовы современности в отношении своего языка, он становится все более неуместным и подвергается стигматизации».

Чтобы язык был конкурентоспособен в условиях открытого глобального информационного пространства, для его функционирования требуется определенная технологическая инфраструктура (клавиатуры, шрифты) и цифровые ресурсы (библиотеки, медийные каналы и пр.). Любые новые адаптированные языком технологии кратно повышают сферу его применения и устойчивость. Рассмотрим это на примере сравнения башкирского языка с другими языками Европы. Оценка языков произведена на основе балльной системы руководителем волонтерского сообщества «Башкирские проекты» Ильдаром Киньябулатовым.

Кроме того, молодое поколение носителей языка вносит коррективы, делая более технологичные продукты более востребованными. Ильдар Киньябулатов показал для примера, что поиск башкирского онлайн-переводчика явно коррелирует с началом и окончанием учебного года. При этом переводчик является более продвинутым продуктом, чем словарь, который запрашивает более взрослое поколение.

Присутствие в информационном пространстве и освоение новых технологий — один из основных вызовов для башкирского языка. В этом вопросе имеются огромные недоработки. По сути, в рамках языковых госпрограмм Башкортостана за почти 20 лет никаких новых проектов в этом отношении реализовано не было, поэтому самые базовые потребности, которые нужно было закрыть еще в 2000-х годах, до сих пор не закрыты.

Например, в Государственной программе сохранения, изучения и развития языков народов Республики Башкортостан на 2006—2010 годы впервые было намечено важнейшее мероприятие 6.4.5. «Разработка электронной системы синтеза и распознавания башкирской речи». Такая система необходима для обучения башкирскому языку современных систем искусственного интеллекта, которые затем начнут автоматически генерировать башкироязычный контент в интернете. Однако из-за отсутствия финансирования по данному пункту госпрограммы работы в этом направлении так и не были проведены. В последующей языковой госпрограмме на 2012—2016 годы такое мероприятие вообще не было запланировано. Между тем системы искусственного интеллекта должны знать и башкирский язык, для этого уже сейчас должны быть приложены научные усилия и предусмотрены определенные денежные средства.

Давно стоит вопрос автоматической орфографической проверки текстов, набранных на башкирском языке, он также поставлен еще в прежних языковых госпрограммах, но запланированные мероприятия не были профинансированы. Проверки башкирской орфографии до сих пор нет в пакете Microsoft Word или Open Office. Отсутствие проверки орфографии на башкирском языке в популярных текстовых редакторах не только приносит серьезные неудобства при изучении башкирского языка в школах, написании материалов в редакциях СМИ, ведении блогов в интернете, но и наносит серьезный урон имиджу башкирского языка, который из-за этого в глазах детей и молодежи выглядит все более архаичным.

Давно стоит вопрос автоматической орфографической проверки текстов, набранных на башкирском языке. 

Далее, сегодня по вопросу развития систем машинного перевода со стороны государственных структур Башкортостана нет сотрудничества ни с Google по включению башкирского языка в автоматическую систему перевода Google-Translate, ни с компанией «Яндекс» для совершенствования имеющегося башкирского перевода в «Яндекс-переводчике». Хотя эти научно-исследовательские работы также были запланированы в прежних госпрограммах, но они оказались невыполненными, так как были оставлены без финансирования. В нынешней республиканской языковой госпрограмме Башкортостана 2019—2024 годов эти важнейшие мероприятия чиновниками не были упомянуты совсем, а значит, снова не получили специального финансирования. В результате имеющиеся русско-башкирский и башкирско-русский переводы в «Яндекс-переводчике» работают плохо.

Пытаясь исправить эту ошибку, учрежденная властями РБ некоммерческая организация «Фонд по сохранению и развитию башкирского языка» подала заявку и выиграла в 2020 году республиканский языковой грант на создание своего собственного «Веб-портала башкирско-русского и русско-башкирского переводчика» на сумму 2,5 млн рублей. Идея такого веб-портала была заимствована из проекта по созданию русско-татарского переводчика «Tatsoft» Института прикладной семиотики АН РТ. Поэтому последний, по договору Фондом по сохранению и развитию башкирского языка, стал субподрядчиком по реализации проекта башкирского онлайн-переводчика, хотя сумма 2,5 млн рублей. является недостаточной. Такое сотрудничество было вызвано тем, что профильные научные и образовательные организации Башкортостана не имеют собственного кадрового потенциала, финансирования и компетенций для создания подобного рода цифровых продуктов. Однако в Уфе имеются волонтеры, которые собирают и генерируют в большом количестве русско-башкирские параллельные тексты, необходимые для создания современных систем машинного перевода.

Поэтому для выполнения башкирского заказа Институт прикладной семиотики АН РТ сейчас сотрудничает с одним из таких волонтеров Искандером Шакировым. Этим же волонтером по собственной инициативе совместно с польскими цифровыми лингвистами создан экспериментальный русско-башкирский онлайн-переводчик на международной лингвистической платформе Glosbe. Этот переводчик также нуждается в доработке, как и башкирский «Яндекс-переводчик». Ожидается, что они оба будут доработаны после окончания работы над «Веб-порталом башкирско-русского и русско-башкирского переводчика». Такие новости вселяют определенные надежды, хотя все эти работы следовало организовать и профинансировать еще несколько лет назад. И все же на сегодняшний день, по факту, башкирский язык не имеет ни одного удовлетворительно работающего онлайн-переводчика, даже на русский язык.

Во всех странах и для всех языков именно наличие большого количества интернет-ресурсов помогает сильно расширить сферу применения языков. Фото bashinform.ru

СМИ Башкирии в интернете

Республиканские государственные и муниципальные СМИ на башкирском языке крайне слабо представлены в интернете. Хотя на первый взгляд это и представляется похожим на общемировой процесс, в Башкортостане имеются все признаки неэффективного управления процессом трансформации СМИ на протяжении последних 20 лет. Один из признаков того, что республиканские СМИ гораздо слабее, чем могли бы быть, — это бурное развитие сообществ в социальных сетях. Большинство жителей республики узнают в интернете новости не из сетевых новостных ресурсов, а из социальных сетей.

В то же время тиражи башкирских газет и журналов сократились настолько, что можно уже говорить о скором закрытии редакций. Дело в том, что над башкироязычными СМИ довлеет государственная цензура, которая сильно снижает их актуальность. При таком пристальном к ним «внимании» государства за два десятка лет не было создано ни одного полноценно интернет-издания на башкирском языке. Все имеющиеся сайты таких СМИ представляют из себя запоздалую и урезанную копию бумажной версии.

Во всех странах и для всех языков именно наличие большого количества интернет-ресурсов помогает сильно расширить сферу применения языков, они учат людей читать на родном языке. Несмотря на наличие в республиканских госпрограммах большого количества мероприятий по данному направлению, ни одно из них не достигло нужных для языка результатов.

Типы и качество языковой документации

До сих пор российскими учеными не была осуществлена подробная оценка типов и качества существующих материалов документирования башкирского языка. Наиболее важным направлением документирования языков является обработка письменных текстов, включающих транскрибированные, переведенные на другие языки и аннотированные аудио- и видеозаписи образцов спонтанной речи. В Башкортостане на сегодняшний день в этом направлении некоторые организованные действия предпринимаются башкирскими фольклористами, например, башкирский традиционный фольклор относительно хорошо документирован, но лишь на русском языке и, как правило, фольклорные традиционные нарративы недоступны англоязычным исследователям.

В 2019 году заработал сайт «Национальный корпус башкирского языка», который функционирует благодаря специальной компьютерной программе

Определенную работу ведут и лингвисты. Так, на основе краткосрочного гранта в рамках Программы фундаментальных исследований НИУ «Высшая школа экономики» были выполнены проекты по созданию небольших устных аннотированных корпусов (тексты были записаны в 2011—2017 годах):

устного корпуса башкирского языка д. Рахметово и с. Баимово Абзелиловского района Республики Башкортостан (тексты + аудио);

корпуса традиционных нарративов (тексты + видео).

Задачей данных проектов было изучение лингвистических стратегий, свойственных традиционным нарративам из башкирского языка, в частности конструкций передачи чужой речи.

Далее, в 2019 году заработал сайт «Национальный корпус башкирского языка», который функционирует благодаря специальной компьютерной программе, способной делать морфологический анализ башкирской словоформы. Программа создана доцентом Школы лингвистики НИУ ВШЭ (Москва) Борисом Ореховым, уроженцем города Уфы. В его корпус включены художественные произведения, законы, газетные и журнальные статьи, некоторые статьи башкирского раздела Википедии. Данный корпус в кругах российских лингвистов считается также небольшим.

Некоторыми лингвистами упомянутый корпус Б. Орехова вообще не признается в качестве «национального корпуса языка», так как он не содержит аудиообразцов спонтанной речи. Например по мнению башкирского компьютерного лингвиста Зиннура Сиразитдинова, Национальный корпус башкирского языка в действительности еще предстоит создать, и он должен представлять в том числе синтаксическую информацию на основе синтаксической разметки текстов. Что касается звуковой составляющей национального корпуса, то она должна содержать корпусы диалектов, разговорной литературной речи, наддиалектной непринужденной разговорной речи общим объемом звучания не менее 1000 часов. В качестве основы для будущего национального корпуса башкирского языка, скорее всего, следует рассматривать существующий с начала 2000-х годов крупнейший Машинный фонд башкирского языка, который был разработан под руководством З. Сиразитдинова в Институте истории, языка и литературы Уфимского исследовательского центра РАН.

В целом языковедами Института истории, языка и литературы УФИЦ РАН практически полностью выполнена кодификация башкирского литературного языка. Фото bashinform.ru

Информационная система «Машинный фонд башкирского языка» разработана в лаборатории лингвистики и информационных технологий ИИЯЛ УФИЦ РАН и представляет систему поиска лингвистической информации по башкирскому языку и включает на сегодняшний день 10 разделов. Словарный раздел, который представляет информацию о слове на основе толкования его в словарях башкирского языка, включает 382 701 словарное слово из 58 изданных в разные годы учеными ИИЯЛ УФИЦ РАН и вузов словарей (двуязычные общефилологические словари, терминологические словари, словари-справочники, толковый, синонимический, фразеологический словари и др.). Корпусные разделы Машинного фонда на сегодня включают:

корпус прозаических текстов (15 млн словоупотреблений);

корпус публицистических текстов (8 млн словоупотреблений);

корпус башкирского фольклора (900 000 словоупотреблений).

Таким образом, как становится понятным, и эти корпусы содержат только тексты. К сожалению, масштабные и полноценные сбор и обработка на постоянной основе аудио- и видеоматериалов, их аннотирования для создания полного устного корпуса башкирского языка в рамках Национального корпуса, башкирскими лингвистами сегодня не ведутся.

Кроме корпусов, полноправными и традиционными типами языковой документации являются словари и грамматики.

В целом языковедами Института истории, языка и литературы УФИЦ РАН практически полностью выполнена кодификация башкирского литературного языка. Проделана большая лексикографическая работа: подготовлены и изданы многочисленные переводные, тематические, терминологические и другие словари.

Словарь имеет даже перевод словника на английский и турецкий языки, однако, к сожалению, существует только в бумажном виде. Фото bashinform.ru

Кроме этого обновлена терминология, совершенствована орфография. Опираясь на обширную лексикографическую литературу, в Институте истории, языка и литературы УФИЦ РАН под руководством Ф.Г. Хисамитдиновой был выполнен проект по составлению 10-томного Академического словаря башкирского языка. Данный словарь является лексикографическим трудом нового типа, он охватывает с возможной полнотой всю башкирскую лексику, используемую как в литературном, так и разговорном языках; от языка фольклора, памятников письменности до языка современной башкирской литературы. Диалектные, разговорные, просторечные формы и варианты слов включены в данный словарь в качестве полноправных лексем, т.к. этот материал имеет широкое хождение в живой непринужденной башкирской речи, часто встречается на страницах художественной литературы. При составлении академического словаря также активно использовались материалы Машинного фонда башкирского языка, включающего генеральную картотеку, лексикографическую, экспериментально-фонетическую, грамматическую, диалектологическую базы, каталоги рукописных и старопечатных книг; материалы с сайта информационного агентства «Башинформ» и других информационных порталов. Словарь имеет даже перевод словника на английский и турецкий языки, однако, к сожалению, существует только в бумажном виде. Интернет-ресурса, который мог бы дать возможность проводить мультиязычный поиск по данному словарю, сегодня нет.

Что касается качества грамматик, необходимо отметить, что уже несколько десятилетий среди отдельных башкирских ученых-филологов нарастает обеспокоенность тем, что грамматика башкирского языка не отражает правильно народный язык. Профессор Башгоспедуниверситета Минсылу Усманова уже не первая из башкирских языковедов, кто обращает внимание филологов, что в грамматике содержатся искусственные конструкции, чуждые башкирскому языку и потому почти не используемые в спонтанной естественной речи.

Также, согласно некоторым исследованиям, существующие парадигмы в башкирской грамматике требуют пересмотра и дополнений. Например, не только прошедшее и будущее время изъявительного наклонения имеют определенные и неопределенные формы, но и настоящему времени свойственны эти формы. Определенные формы времен передаются грамматическими формами: -ды, -ған, -а (прошедшее время); -а (настоящее время); -а, -ыр, -саҡ (будущее время). А для передачи неопределенных форм всех времен в башкирском языке существуют специальные универсальные языковые средства. Такого рода пробелов сегодня в грамматике много, однако среди научного сообщества в Башкортостане до сих пор не созрели масштабные коллективные проекты по доработке башкирской грамматики.


Тимур Мухтаров

Фото: vk.com

https://realnoevremya.ru/

Комментариев нет:

Отправить комментарий