Вештачка интелигенција на македонски јазик – Нетцетера го воведе македонскиот јазик во библиотеката spaCy

Ова е гостински текст на Нетцетера за нивната работа за воведувањето на македонскиот јазик во библиотеката spaCy.


Вработените во одделот за иновации во Нетцетера заедно со дел од практикантите во компанијата го воведоа македонскиот јазик во библиотеката spaCy. Ова го отвора патот за развој на вештачка интелигенција на македонски јазик.

Обработката на природни јазици (en. Natural Language Processing, NLP / mk. ОПЈ) е многу популарна област на истражување на машинско учење, кое исто така може да се користи во апликации што се однесуваат на секојдневието и реалниот живот.

Иако во оваа област веќе има успеси, тие најчесто се индивидуални (и во рамките на академските институции),  јавни алатки и податочни множества за широка употреба во plug-and-play стил сепак не се достапни.

Рамките за развој што се лесно достапни и едноставни за употреба на англиски или германски јазик, не постоеја за македонските проблеми. Секој систем што е покомплексен, повлекуваше кодирање од нула на дополнителни модели и алатки за сите на кои што им се потребни, студенти или професионалци.

spaCy е најчесто употребуваната библиотека за ОПЈ. Содржи сѐ, од едноставна токенизација на реченици до векторско претставување на зборовите (Word embeddings). Така, вработените во Нетцетера заклучиле дека нивниот придонес во македонското истражување на ОПЈ ќе биде најсоодветен во рамките на spaCy библиотеката.

Нивната работа резултираше со целосно инкорпорирање на целиот македонски сет на модели во официјалната spaCy библиотека. Тој е бесплатен и лесен за употреба за секој што би сакал да го пробаhttps://spacy.io/models/mk 

За успешно обучување на овие модели, потребно е да се добијат релевантните податоци. Важно е да се напомене дека ова е прв значаен јавен обид во македонска ОПЈ. Иако имало напори да се создадат разни модели и/или збирки на податоци, повеќето “живеат” локално во машините на нивните креатори и во нивните трудови и дипломски тези.

Со цел да ги создадат податочните множества, користени се постојните збирки на податоци како основа.

Овие збирки на податоци се одлична основа, но сепак, за да се обучат моделите потребни се анотирани податоци за секој проблем одделно. Рачното обележување на податоците е најпотребно во процесот за машинското учење.

За интеграцијата и повеќе информации за целосниот процес може да прочитате во следниот детален технички блог напишан од креаторите – https://blog.netcetera.com/macedonian-spacy-f3c85484777f

Иако работата е обемна, ова е само почеток. Со сега достапните алатки за употреба, надежта на креаторите од одделот за иновации во Нетцетера е дека професионалци и студенти ќе бидат поттикнати да истражуваат во областа на македонската ОПЈ. spaCy е библиотека со „индустриска способност“, може да се користи и за академски истражувања и за комерцијални апликации. „Се надеваме дека нашиот придонес во истражувањето на ОПЈ ќе им помогне на другите да придонесат за општеството.“ – изјави Марија Тодосовска, научник за податоци од Нетцетера.

Коментирај

Вашата адреса за е-пошта нема да биде објавена.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Слични статии