47106213Людмила КРАВЧЕНКО,
доцент,
Інститут філології

Понад 30 тисяч відвідувачів за місяць – така статистика не популярного інтернет-порталу з інформацією про життя зірок, а електронного зібрання текстів, створеного викладачами і студентами Інституту філології.
Команда дослідників лабораторії комп’ютерної лінгвістики на чолі з доктором філологічних наук Наталією Дарчук створила потужний електронний інформаційно-довідковий ресурс – Корпус української мови (КУМ) –  відкритий і безкоштовний, який не поступається європейським аналогам, що діють у Польщі, Австрії, Великій Британії та Німеччині. Викладений на лінгвістичному порталі http://www.mova.info, КУМ передбачає роботу в режимі on-line і призначений для активного використання фахівцями та всіма поціновувачами українського слова як в Україні, так і за кордоном.
Це електронне зібрання текстів, упорядковане, організоване й оформлене так, щоб ним мали змогу користуватися як науковці-професіонали, так і пересічні користувачі, які намагаються вдосконалити своє знання української мови. Тексти призначені не для читання, а для з’ясування важливих питань: «яке слово краще вжити в тому чи іншому випадку?», «яке словосполучення буде більш доречним?», «як часто в текстах використовують ту чи іншу словоформу?» тощо.
Упродовж п’яти років роботи над проектом «Дослідницький корпус української мови» до електронного ресурсу введено близько 50 млн. слововживань. Кожен уведений фрагмент маркується за жанровими особливостями і типом тексту, що дозволяє найвибагливішому користувачеві знайти та обрати прийнятний варіант.
Простим натисканням кнопки можна одержати дані, на збирання яких раніше потрібні були б роки. Технологія конструювання корпусу робить його надзвичайно ефективним та раціональним інструментом для спеціалістів-лінгвістів різного профілю.
Створений філологами університету Корпус української мови можна використовувати і як готовий продукт, і як модель для конструювання аналогів українськими науковцями. Найближчими роками автори проекту планують розширити свій ресурс до 100 млн. слововживань, доповнивши його зразками української мови з різних регіонів України та діаспори, текстами XIV–XVIII ст., зробити підкорпус усних текстів.
КУМ суттєво прискорює та спрощує процедуру збирання й збереження мовних фактів спеціалістами лінгвістичних і нелінгвістичних дисциплін, дозволяє формувати масштабні дослідницькі бази «під проблему», зокрема при укладанні словника, підготовці словникової статті, упорядкуванні практичних завдань з української мови чи пошуку прикладів із слововживання в українській мові для бакалаврських і магістерських робіт, кандидатських і докторських дисертацій. Інформаційно-лінгвістичні технології Корпусу є потужною підтримкою досліджень, якої донедавна не мала українська лінгвістика в розгляді різноманітних дискусійних питань правопису, моніторингу тенденцій розвитку мови, змін у мовній системі, інновацій у різних підсистемах мови, правописних норм у сучасному мовленні.
Масштабність і значимість проекту засвідчують схвальні відгуки українських мовознавців, адже КУМ – це інформаційно-довідкова система із сучасної української мови, яка дозволяє користувачеві оперативно вирішувати несподівані мовні проблеми та відкриває нові дослідницькі перспективи перед лінгвістикою майбутнього.