Care sint informatiile relevante despre candidatii la alegerile prezidentiale din 22 noiembrie? Care sint legaturile intre numele fiecaruia si restul actorilor de pe scena politica? Cit de des apare numele lor in presa online si care e tendinta? HotNews.ro si NewsMix vor prezenta aceste informatii zilnic, in cadrul unui proiect special care-i are in centru pe cei patru candidati cotati cu sanse reale pentru al doilea tur: Crin Antonescu, Traian Basescu, Mircea Geoana si Sorin Oprescu. Dan Selaru, membru in echipa NewsMix, vorbeste despre modul in care cercetarea matematica se poate aplica in domeniul politic.
Ce informatii noi aduce acest proiect comun NewsMix - HotNews.ro?
Pentru fiecare candidat exista o suma de articole care-l mentioneaza. Din toate articolele respective se detaseaza - printr-un proces care tehnic se cheama clusterizare, si care mai putin tehnic este gasirea subiectelor care atrag cele mai multe opinii din presa online - articolul care este cumva media acestora, cel care este centrul grupului. Noi nu alegem nimic, e un proces matematic, un algoritm care calculeaza distantele intre documente, acestea se auto-organizeaza si noi doar scoatem subiectele zilei care-l privesc pe candidat si articolele reprezentative pentru fiecare subiect. Plus articolele asociate acestui articol de referinta.
Mai e un lucru important care poate trece nebagat in seama. Lista "personajelor" care-l insotesc pe fiecare candidat. In articolele despre Traian Basescu este mult mai des intalnit PSD-ul decat PDL-ul. Ciudat? Partidul Social Democrat este sinonimizat cu PSD sau Partidului Social Democrat si sunt adunate toate formele.
Mai este un proces in spate, familiile de cuvinte sunt grupate automat. Cuvintele comune "criza, crizei, crizelor" si asa mai departe sunt considerate un singur cuvant, reprezentantul este forma care apare cel m