fbpx

У вільному доступі з’явився великий електронний словник української мови

Культура 19:28, 16.12, 2015

Мета проекту – створення відкритого всеохопного електронного словника, що міститиме слова української мови з парадигмами відмінювання. Такий словник повинен стати справжньою знахідкою для мовознавців, комп'ютерних лінгвістів, програмістів та всіх зацікавлених, що працюють з українською мовою.

Над словником працювали багато фахівців у галузі мовознавства, а також його вже встигли успішно застосувати в декількох програмах.

Окрім граматичної інформації, словник пропонує заміни слів-покручів, подає розрізнення омонімів з відмінними парадигмами, позначки рідковживаних слів тощо. Те, що словник є відкритим, означає, що будь-хто може користуватися ним, а також вносити власні пропозиції щодо його вдосконалення.

На думку творців проекту, такий електронний словник допоможе створювати програмні засоби, що підтримують українську мову чи аналізують тексти українською мовою: автоматична перевірка орфографії, граматики та стилю, класифікація текстів, data mining тощо. 

Наразі проект словника викладено на платформі GitHub. Зараз в ньому є близько 197 тис. слів, з яких генерується близько 3,4 млн словоформ. Кожна словоформа має лему та набір тегів (частина мови, морфологічні ознаки та додаткові позначки).

Словник вже використовується в проектах перевірки орфографії (hunspell та Libreoffice.org) та перевірки граматики в програмі LanguageTool. 

Втім, творці проекту наголошують, що словник не є академічним, над ним не працюють жодні інститути та академії, тому він не претендує на істину в останній інстанції. Натомість він призначений для практичного вжитку в системах Natural Language Processing.

Більше про проект можна дізнатись тут.

 

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl + Enter
Повідомити про помилку

Текст, який буде надіслано нашим редакторам: