Бұл жоба «Қазақ тілінің ұлттық корпусы» деп аталатын кеңауқымды инновациялық-ақпарттық ашық жүйе ретіндегі мегажобаның қарапайым бастапқы нұсқасы болып табылады. «Қазақ тілінің ұлттық корпусы» мегажобасының мақсаты - терең аннотацияланған (әр сөзіне метамәтіндік белгіленім қойылып, тілтанымдық және энциклопедиялық ақпараттар берілген), қазақ тілінің электрондық мәтіндерінің 300 миллион сөзқолданыстағы көлемін қамтитын, компьютерлік іздеу бағдарламасымен жұмыс істейтін, тілтанушылардың алуан түрлі ғылыми-практикалық сұраныстарына жауап беретін, жалпы қалың көпшіліктің ақпарттық құрал ретінде пайдалануына арналған мәтіндер жинағын жасау.


«Қазақ тілінің ұлттық корпусында» ұсынылып отырған қарапайым бастапқы нұсқаға қарағанда бірнеше жүздеген есе кең ауқымды және әлдеқайда үлкен тереңдіктегі (ортағасырлардан бастап бүгінге дейінгі) мәтіндер корпусы тілдегі пропорциясына қарай жанр-жанрмен, стиль-стильмен қамтылады, сондай-ақ ондағы экстралингвистикалық және интралингвистикалық белгіленім (разметка) түрлері де алуан-алуан болмақ.

Ал мына ұсынылып отырған қарапайым бастапқы нұсқада біз 2 миллиондай сөзқолданыстағы мәтін көлемін қамтып отырмыз, оның тереңдік деңгейі де кең емес, негізінен осы заманғы қазақ мәтіндері алынды. Бұл жобаның мәтіндік базасына 15 томдық «Қазақ әдеби тілі сөздігінің» иллюстрациясынан мысалдар қосылды. 15 томдық сөздік мысалдары әртүрлі дереккөздерден алынғандықтан, қазақ әдеби тілінің барлық стильдері (көркем проза, поэзия, драматургия, ғылыми-гуманитарлық, публицистикалық стильдер) мен жанрларын қамтиды деуге болады.

Лингвистикалық және экстралингвистикалық белгіленімдердің бастапқы әзірлемесі жасалды. Атап айтқанда, метамәтіндік белгіленімдер корпус жадына салынған мәтіндердің дереккөздері туралы мәліметтермен жабдықталған.

Сонымен бірге бұл жобада осы мәтіндерге қатысты қолданылған қарапайым формадағы лингвистикалық белгіленім түрлері де шектеулі, атап айтқанда: морфологиялық белгіленім, морфо-семантикалық белгіленім берілді, сонымен бірге лексикалық семантика мен мәдени семантика көрсетілді. Соңғысының қойылуы қолмен жүзеге асырылғандықтан (болашақта жартылай автоматты формасына қатысты бағдарлама әзірленеді), мұндай семантика тек белгілі бір тізімдегі сөздер қатарымен шектелді. Жобада олардың тізімі көрсетілді. Демек, бастапқы қарапайым нұсқадағы мәдени семантика тек осы тізімдегі сөздерде берілгендіктен, іздеуші оларды тізім бойынша теру арқылы ғана көре алады. Ал корпустың базасындағы мәдени семантикасы бар тізімге енбей қалған басқа сөздерге алдағы уақытта осы ақпарат бойынша репрезенттелу жолдары қарастырылып, енгізіледі.

Сонымен, ұсынылып отырған «Қазақ тілінің ұлттық корпусы» атты мегажобаның қарапайым бастапқы нұсқасына неғұрлым жеңіл әрі қарапайым белгіленім енгізіліп, мейлінше аз (2 млн.) мәтін көлемі қамтылды. Алдағы уақытта бұл ақпараттар кеңдігі, тереңдігі жағынан да толықтырылып, өңделіп, белгіленім сапасы да артады, соған қарай Қазақ тілінің ұлттық корпусының барлық параметрлері мен шағын корпустары (подкорпус) ресурстары түгенделіп, жасақталады.

Компьютерлік бағдарлама бойынша, корпустың іздеу жүйесі орнатылған парақшасынан қандай да бір сөзді іздегенде, экранға ең алдымен сол сөз кездесетін (метамәтіндік белгіленімі берілген, яғни авторы, мәтін аты, т.б.) мәтіндер, мысалдар тізімі шығады. Сонымен қатар экранның екінші бетіне әртүрлі ұяшықта сол сөз туралы лингвистикалық ақпараттар беріледі. Мысалы, «бала» сөзін алайық:

Мәтінде «баласына» формасындағы сөз кездескенде, ең алдымен программа оның түбірін табады. Мұны лемматизация деп атайды.

Баласына: лемма: «бала» (түбірі)

лексикалық мағынасы: 1. Ата-ананың перзенті, ұрпағы,
тұқым.
2. Нәресте, сәби, бөбек. 3 Жан-
жануардың күшігі, құстардың
балапаны.
семантикалық белгіленім: зат есім, дара, деректі, жалпы
морфологиялық белгіленім: бала/зт: сы/ТЖ-3+на/БС

Мұндағы ТЖ-3 – тәуелдік жалғау 3 жағы, БС – барыс септігі.

Егер іздеп отырған сөз мәдени тілдік бірлік болса, онда лексикалық мағынадан кейін, мәдени семантикасы да көрсетіледі, сонымен қатар нақтырақ түсіндіру үшін суреттері қоса шығады. Мәселен:

ЗҰЛПЫҚАРДЫҢ : лемма: «Зұлпықар» (түбірі)

Лексикалық мағынасы: Көктен түскен төрт қылыштың бірі.
Мәдени семантикасы: Көктен түскен төрт қылышты
хәмкам, сәмсам, зұлқажа, зұлпықар деп
атаған.
Семантикалық белгіленім: зат есім, күрделі, деректі, жалқы
Морфологиялық белгіленім: зұлпықар/зт+дың/ІС

Мұндағы ІС-ілік септігі.

Міне, корпус мәтіндерінен ізделген сөзге осылайша лингвистикалық сипаттамалар беріледі.

Бұл қанатқақты жоба «Қазақстан-2050» стратегиясын ғылыми сүйемелдеу бойынша ҚР Президент әкімшілігінің Тақырыптық жоспарының «Тәуелсіз Қазақстанның құндылықтары мен идеалдары» бағыты бойынша Тіл білімі институты мамандары жүзеге асырған «Қазақ тілінің ұлттық корпусын қалыптастырудың негізгі факторлары, Қазақстан Республикасындағы үштілділік идеологиясы тұрғысынан оның коммуникативтік және интеграциялық қасиеттерін күшейту» атты зерттеу аясында әзірленді.

Малбақов Мырзаберген Малбақұлы

Тіл білімі институтының директоры, филология ғылымдарының докторы, профессор

Фазылжанова Анар
Мұратқызы

Тіл білімі институты директорының ғылым жөніндегі орынбасары, филология ғылымдарының кандидаты

Асқар Құдайбергенұлы Жұбанов

Тіл білімі институтының бас ғылыми қызметкері, филология ғылымдарының докторы, профессор

Нұргелді Мақажанұлы Уәли

Тіл білімі институтының бас ғылыми қызметкері, филология ғылымдарының докторы, профессор

Жаңабекова Айман Әбділдәқызы

Тіл білімі институты Қолданбалы лингвистика бөлімінің меңгерушісі, филология ғылымдарының докторы

Рысберген Қыздархан Құрмашқызы

Тіл білімі институтының Ономастика бөлімінің меңгерушісі, филология ғылымдарының докторы, доцент