На својот 12-ти роденден Time.mk ги врати сината и црвената верзија

IT.mk редакција

во Вести

Тешко е да се поверува, но поминаа 12 години откако првиот и најуспешен агрегатор на вести започна со работа. Агрегаторот оваа недела го слави својот роденден, а за роденденот се претставени и нови функционалности.

Читателите кои подолго го следат ИТ.МК можеби се сеќаваат на дека пред 9 години беше претставена една од функционалностите која сега е вратена. Станува збор за сина и црвена верзија на Time.mk, две верзии кои се наменети да го истакнат различните гледања на содржини во различните медиуми. Тогаш оваа функционалност набрзина беше отстранета, но сега тоа нема да биде случај.

„Да, направени се да останат, додека има, а секогаш има разни гледишта на едни исти настани“, вели Игор Трајковски основач на Тиме.мк.

Time денес и последниве 9 години, е најпопуларниот македонски сајт, и секој месец има 12 милиони посети, или над 400.000 посети секој ден. За „роденденот“ на Time.mk зборувавме со Игор Трајковски.

Пред 12 години започна да работи time.mk, технологијата оттогаш е многу променета како влијаеше ова на time.mk?

Не користиме некоја нова  технологија која ја немаше и пред 12 години.Програмски јазик, база на податоци, веб сервер. Не треба нешто многу повеќе од тоа. Почнавме со Python, сè уште сме во Python. Првите години не користевме бази, туку некои selfmade формати и индексирања, сега користиме MongoDB. За webserver првите години користевме Apache, од пред неколку години nginx.

Во однос на разните алгоритми кои ги користиме за text-extraction, document similarity, и моделирање на релевантноста на вестите користена во рангирањето постојано ги подобруваме. Еден поголем скок имаше во 2015 или 2016 кога почнавме да користиме word embeddings, за пресметка на сличност на документи (вести). Тоа значи дека алгоритмите сега ја разбираат сличноста на концептите иако опишани со различни зборови. Пример: лидер и претседател, победник и шампион, избор и селекција … ги разбираат како слични зборови.

Како се разделени медиумите, дали го прави алгоритам или можеби луѓето решаваат кој медиум ќе ја добие која „боја”?

На персонализацијата која ја имавме подесувања имаа направено нешто над 17.000 корисници. Поточно прелистувачи, не знаеме точно колку луѓе. Некои имаат дома и на работа, други преинсталирале компјутер, итн. Од почеток се решивме да не чуваме никакви лични податоци, ни emails, така што се што знаевме за корисниците го контролиравме преку поставените cookies во прелистувачите. Кога тие ќе се избришат го заборававме корисникот. Најчесто корисниците ја користеа персонализацијата за да филтрираат одредени медиуми, а и тоа филтрирање одеше во едни исти групи на филтрирани медиуми. Тука ни дојде идејата да направиме посебни верзии за секоја група. Па се решивме на две.

Прво ги поделивме (K-means clustering) корисниците во две групи според подесувањата кои ги имаа поставено. Потоа ги најдовме најчесто филтрираните медиуми во едната и гругата група, според која се направени двете верзии, плава и црвена. Во едната верзија на едната група и доделуваме двојно поголем авторитет (нешто како битност на медиумот кој автоматски го пресметуваме во стандардната верзија) а на медиумите од другата група им доделуваме двојно помал авторитет. Во другата верзија се прави обратното.

Што ќе се случи со персонализацијата? Останува како што е или оди на преработување?

Во моментов time.mk има 4 верзии. Стандардната, една верзија без пресметки на авторитети се сортираат вестите хронолошки,и две верзии што ги споменав погоре. Персонализацијата ќе ја вратиме кога ќе решиме да имаме кориснички сметки, инаку имплементација преку cookies не е функционална, туку само им прави забуна на корисниците зошто им ја снемува.

Кои се плановите за следните 12 години?

Да користиме GPT-10, на кој во контекст ќе му ги поставиме сите денешни вести, а како задача ќе му дадеме да ги сумира за даден конкретен корисник на јазик кој е најсоодветен за неговото ниво :)

Коментирај

Вашата адреса за е-пошта нема да биде објавена.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Слични статии