Image Captioning with Convolutional and Recurrent Neural Networks

Abstract

Automātiskā attēlu aprakstīšana ir fundamentāla mākslīgās inteliģences problēma, ku- ra apvieno kompjūter-redzes un naturālās valodas apstrādes algoritmus. Šajā darbā tiks apskatīta šī nozare, pielietots apbalvojumus izcīnījis modelis un pētītas šī modeļa variāci- jas. Attēlus aprakstošais modelis ir mākslīgais neironu tīkls, kurš sevī apvieno konvolūciju un rekurento neironu tīklu arhitektūras. Darbā vispirms abas arhitektūras ir apskatītas atsevišķi, kā arī teorija, uz kuru balstās modelis. Apskatītais modelis un tā variācijas tiek salīdzinātas, izmantojot klasiskos mašīnmācīšanās rādītājus un mašīntulkošanā izman- totas metrikas. Pēc dažiem rādītājiem oriģinālā modeļa uzlabojumi izrādījās lietderīgi. Modeļu apmācībā tika izmantots populārs mašīnmācīšanās rīks Tensorflow un program- mēšanas valoda Python.Automatic image captioning is fundamental artificial inteligence problem which is a fusion of computer vision and natural language processing. In this work image captinio- ning field will be explored. Award winning image captioning model revisited and explo- red its variations. Image captioning model is an artifical neural network which consists of conolutional neural network and a recurrent neural network. In this work both the- se branches of architecture are studied theoretically and practically. Variations of the award winning image captioning model was compared with classical machine learning and machine translation metrics. According to some metrics the variations of the original model turned out usefull. Training of the models was done in popular machine learning tool Tensorflow and Python programming language

    Similar works