research

Implementation of a learning to rank system

Abstract

Značný nárůst množství dat v posledních letech ukázal limity klasického vyhledávání informací. Už nestačí relevantní informace pouze najít, je potřeba seřadit je tak, aby uživatel mohl získat nejdůležitější data co nejrychleji. Stále více společností se potýká s větším objemem dat a řeší tuto nesnadnou úlohu řazení informací pro své uživatele. Pro naši práci jsme se spojili s obchodním partnerem a vyvinuli modul pro hledání a řazení výsledků pro server GoOut.cz. Pracovali jsme s reálnými daty od uživatelů našeho partnera. Při řešení problému jsme použili knihovnu poskytující současné moderní algoritmy a soustředili se hlavně na vytváření příznaků pro dokumenty. V naší práci jsme se pokusili obohatit standardně používané příznaky o relační data. Na závěr se nám podařilo vybrat algoritmy, které byly schopné využít těchto obohacených příznaků. Také jsme ověřili, že i přes větší množství příznaků zvládnou nejlepší algoritmy odpovídat na dotazy v rozumném čase a jsou tedy použitelné v praxi.The growth of information in recent years rendered the classical information retrieval unsatisfactory. It is no longer sufficient to retrieve relevant data. The retrieved data must be sorted to enable users to find the most relevant information as quickly as possible. More and more companies are dealing with large amount of data, and they are struggling with ordering it for the user queries. We partnered with a business partner and in our work we implemented a searching and learning to rank module for the GoOut.cz server. We were working with real world data based on the user inputs. For solving this task, the library providing the state of the art algorithms was used and we were mainly focusing on the features. In our work, we tried to enhance the commonly used features with relational data. Eventually, we identified algorithms that were able to benefit from the enhanced features. We also verified that even with the enhanced features, the most successful algorithms respond within a reasonable time, and therefore, the whole system is usable in practice

    Similar works