Бұл жоба жасалуының соңғы кезеңінде (9 жылда) терең аннотацияланған (әр сөзіне белгіленім қойылып, тілтанымдық және энциклопедиялық ақпараттар берілген) қазақ тілінің электрондық мәтіндерінің 300 миллион сөзқолданыстағы көлемін қамтитын Қазақ тілінің ұлттық корпусы деп аталатын кеңауқымды инновациялық-ақапарттық ашық жүйе ретіндегі мегажобаның қарапайым бастапқы нұсқасы болып табылады. Жалпы, идеалды түрдегі Қазақ тілінің ұлттық корпусында ұсынылып отырған қарапайым бастапқы нұсқаға қарағанда бірнеше жүздеген есе кең ауқымды және әлдеқайда ұзын тереңдіктегі (ортағасырлардан бастап бүгінге дейінгі) мәтіндер корпусы тілдегі пропорциясына қарай жанр-жанрмен, стиль-стильмен қамтылады, сондай-ақ ондағы белгіленім (разметка) түрлері де алуан-алуан болмақ. Ал мына ұсынылып отырған қарапайым бастапқы нұсқада біз 10 миллиондай сөзқолданыстағы мәтін көлемін қамтып отырмыз, оның тереңдік деңгейі де үлкен емес, негізінен осы заманғы қазақ мәтіндері қамтылды. Бұл жобаның мәтіндік базасына 15 томдық «Қазақ әдеби тілі сөздігінен» иллюстрациясынан мысалдар қосылды. 15 томдық сөздік мысалдары әртүрлі дереккөздерден алынғандықтан, қазақ әдеби тілінің барлық жанрларын қамтиды деуге болады. Бұған қоса 5 млн. сөзқолданыс көркем проза, поэзия, драматургия, ғылыми-гуманитарлық, публицистикалық стильдер бойынша алынып отыр.


Лингвистикалық және экстралингвистикалық белгіленімдердің бастапқы әзірлемесі жасалды. Атап айтқанда, метабелгіленімдер корпус жадына салынған мәтіндердің дереккөздері туралы мәліметтермен жабдықталған.

Бұл жоба жасалуының соңғы кезеңінде (9 жылда) терең аннотацияланған (әр сөзіне белгіленім қойылып, тілтанымдық және энциклопедиялық ақпараттар белгіленімі берілген) қазақ тілінің электрондық мәтіндерінің 300 миллион сөзқолданыстағы көлемін қамтитын Қазақ тілінің ұлттық корпусы деп аталатын кеңауқымды инновациялық- ақапарттық ашық жүйе ретіндегі мегажобаның қарапайым бастапқы нұсқасы болып табылады. Жалпы, идеалды түрдегі Қазақ тілінің ұлттық корпусында мына ұсынылып отырған қарапайым бастапқы нұсқаға қарағанда бірнеше жүздеген есе кеңауқымды және әлдеқайда ұзын тереңдіктегі (ортағасырлардан бастап бүгінге дейінгі) мәтіндер корпусы тілдегі пропорциясына қарай жанр-жанрмен, стиль-стильмен қамтылады, сондай-ақ ондағы белгіленім (разметка) түрлері де алуан-алуан болмақ. Ал ұсынылып отырған қарапайым бастапқы нұсқада біз 10 миллиондай сөзқолданыстағы мәтін көлемі қамтылды, оның тереңдік деңгейі де үлкен емес, негізінен заманауи қазақ мәтіндері ғана енгізілді. Сонымен бірге бұл жобада осы мәтіндерге қатысты қолданылған қарапайым формадағы белгіленім түрлері де шектеулі, атап айтқанда: морфологиялық белгіленім, морфо-семантикалық белгіленім берілді, сонымен бірге лексикалық семантика мен мәдени семантика көрсетілді. Соңғысының қойылуы қолмен жүзеге асырылғандықтан (болашақта жартылай автоматты формасына қатысты бағдарлама әзірленеді), мұндай семантика тек белгілі бір тізімдегі сөздер қатарымен шектелді. Жобада олардың тізімі көрсетілді. Демек бастапқы қарайым нұсқадағы мәдени семантика тек осы тізімдегі сөздерде берілгендіктен, іздеуші оларды тізім бойынша теру арқылы ғана көре алады. Ал корпустың базасындағы мәдени семантикасы бар тізімге енбей қалған басқа сөздерге алдағы уақытта осы ақпарат бойынша репрезенттелу жолдары қарастырылып, енгізіледі. Сонымен, ұсынылып отырған Қазақ тілінің ұлттық клорпусы атты мегажобаның қарапайым бастапқы нұсқасына неғұрлым жеңіл әрі қарапайым белгіленім салынып, мейлінше аз (10 млн.) мәтін көлемі қамтылды. Алдағы уақытта бұл ақпараттар кеңдігі, тереңдігі жағынан да толықтырылып, өңделіп, белгіленім сапасы да артады, соған қарай Қазақ тілінің ұлттық корпусының барлық параметрлері мен корпусшалары (подкорпус) ресурстары түгенделіп, жасақталады.

Компьютерлік бағдарлама бойынша, қандай да бір сөзді іздегенде, экранға ең алдымен сол сөз кездесетін (метабелгіленімі берілген) мәтіндер, яғни мысалдар тізімі шығады. Сонымен қатар экранның екінші бетіне әртүрлі ұяшықта сол сөз туралы лингвистикалық ақпараттар беріледі. Мысалы, «бала» сөзін алайық:

Мәтінде «баласына» формасында кездескенде, ең алдымен программа оның түбірін табады. Мұны лемматизация деп атайды.

Баласына: лемма: «бала» (түбірі)

лексикалық мағынасы: 1. Ата-ананың перзенті, ұрпағы,
тұқым.
2. Нәресте, сәби, бөбек. 3 Жан-
жануардың күшігі, құстардың
балапаны.
семантикалық белгіленім: зат есім, дара, деректі, жалпы
морфологиялық белгіленім: бала/зт: сы/ТЖ-3+на/БС

Мұндағы ТЖ-3 – тәуелдік жалғау 3 жағы, БС – барыс септігі.

Егер іздеп отырған сөз мәдени тілдік бірлік болса, онда лексикалық мағынадан кейін, мәдени семантикасы да көрсетіледі, сонымен қатар нақтырақ түсіндіру үшін суреттері қоса шығады. Мәселен:

ЗҰЛПЫҚАРДЫҢ : лемма: «Зұлпықар» (түбірі)

Лексикалық мағынасы: Көктен түскен төрт қылыштың бірі.
Мәдени семантикасы: Көктен түскен төрт қылышты
хәмкам, сәмсам, зұлқажа, зұлпықар деп
атаған.
Семантикалық белгіленім: зат есім, күрделі, деректі, жалқы
Морфологиялық белгіленім: зұлпықар/зт+дың/ІС

Мұндағы ІС-ілік септігі.

Міне, корпус мәтіндерінен ізделген сөзге осылайша лингвистикалық сипаттамалар беріледі.

Сонымен бірге бұл жобада осы мәтіндерге қатысты қолданылған қарапайым формадағы белгіленім түрлері де шектеулі, атап айтқанда морфологиялық белгіленім, морфо-семантикалық белгіленім берілді, сонымен бірге лексикалық семантика мен мәдени семантика көрсетілді. Соңғысының қойылуы қолмен жүзеге асырылғандықтан (болашақта жартылай автоматты формасына қатысты бағдарлама әзірленеді), мұндай семантика тек белгілі бір тізімдегі сөздер қатарымен шектелді. Жобада сол жақ мәзірдегі «мәдени семантика» терезінде олардың тізімі көрсетілді.

Демек, бастапқы қарайым нұсқадағы мәдени семантика тек осы тізімдегі сөздерде берілгендіктен, іздеуші оларды теру арқылы мәдени семантикасын көре алады. Ал корпусттың базасындағы мәдени семантикасы бар басқа сөздерге алдағы уақытта осы ақпарат бойынша репрезенттелу жолдары қарастырылып, енгізіледі.

Бұл қанатқақты жоба «Қазақстан-2050» стратегиясын ғылыми сүйемелдеу бойынша ҚР Президент әкімшілігінің Тақырыптық жоспарының «Тәуелсіз Қазақстанның құндылықтары мен идеалдары» бағыты бойынша Тіл білімі институты мамандары жүзеге асырған «Қазақ тілінің ұлттық корпусын қалыптастырудың негізгі факторлары, Қазақстан Республикасындағы үштілділік идеологиясы тұрғысынан оның коммуникативтік және интеграциялық қасиеттерін күшейту» атты зерттеу аясында әзірленді.

Малбақов Мырзаберген Малбақұлы

Тіл білімі институтының директоры, филология ғылымдарының докторы, профессор

Фазылжанова Анар
Мұратқызы

Тіл білімі институты директорының ғылым жөніндегі орынбасары, филология ғылымдарының кандидаты

Асқар Құдайбергенұлы Жұбанов

Тіл білімі институтының бас ғылыми қызметкері, филология ғылымдарының докторы, профессор

Нұргелді Мақажанұлы Уәли

Тіл білімі институтының бас ғылыми қызметкері, филология ғылымдарының докторы, профессор

Жаңабекова Айман Әбділдәқызы

Тіл білімі институты Қолданбалы лингвистика бөлімінің меңгерушісі, филология ғылымдарының докторы

Рысберген Қыздархан Құрмашқызы

Тіл білімі институтының Ономастика бөлімінің меңгерушісі, филология ғылымдарының докторы, доцент