26 research outputs found

    Understanding visual scenes

    Get PDF

    Creativity and the Brain

    Get PDF
    Neurocognitive approach to higher cognitive functions that bridges the gap between psychological and neural level of description is introduced. Relevant facts about the brain, working memory and representation of symbols in the brain are summarized. Putative brain processes responsible for problem solving, intuition, skill learning and automatization are described. The role of non-dominant brain hemisphere in solving problems requiring insight is conjectured. Two factors seem to be essential for creativity: imagination constrained by experience, and filtering that selects most interesting solutions. Experiments with paired words association are analyzed in details and evidence for stochastic resonance effects is found. Brain activity in the process of invention of novel words is proposed as the simplest way to understand creativity using experimental and computational means. Perspectives on computational models of creativity are discussed

    Richer object representations for object class detection in challenging real world images

    Get PDF
    Object class detection in real world images has been a synonym for object localization for the longest time. State-of-the-art detection methods, inspired by renowned detection benchmarks, typically target 2D bounding box localization of objects. At the same time, due to the rapid technological and scientific advances, high-level vision applications, aiming at understanding the visual world as a whole, are coming into the focus. The diversity of the visual world challenges these applications in terms of representational complexity, robust inference and training data. As objects play a central role in any vision system, it has been argued that richer object representations, providing higher level of detail than modern detection methods, are a promising direction towards understanding visual scenes. Besides bridging the gap between object class detection and high-level tasks, richer object representations also lead to more natural object descriptions, bringing computer vision closer to human perception. Inspired by these prospects, this thesis explores four different directions towards richer object representations, namely, 3D object representations, fine-grained representations, occlusion representations, as well as understanding convnet representations. Moreover, this thesis illustrates that richer object representations can facilitate high-level applications, providing detailed and natural object descriptions. In addition, the presented representations attain high performance rates, at least on par or often superior to state-of-the-art methods.Detektion von Objektklassen in natürlichen Bildern war lange Zeit gleichbedeutend mit Lokalisierung von Objekten. Von anerkannten Detektions-Benchmarks inspirierte Detektionsmethoden, die auf dem neuesten Stand der Forschung sind, zielen üblicherweise auf die Lokalisierung von Objekten im Bild. Gleichzeitig werden durch den schnellen technologischen und wissenschaftlichen Fortschritt abstraktere Bildverarbeitungsanwendungen, die ein Verständnis der visuellen Welt als Ganzes anstreben, immer interessanter. Die Diversität der visuellen Welt ist eine Herausforderung für diese Anwendungen hinsichtlich der Komplexität der Darstellung, robuster Inferenz und Trainingsdaten. Da Objekte eine zentrale Rolle in jedem Visionssystem spielen, wurde argumentiert, dass reichhaltige Objektrepräsentationen, die höhere Detailgenauigkeit als gegenwärtige Detektionsmethoden bieten, ein vielversprechender Schritt zum Verständnis visueller Szenen sind. Reichhaltige Objektrepräsentationen schlagen eine Brücke zwischen der Detektion von Objektklassen und abstrakteren Aufgabenstellungen, und sie führen auch zu natürlicheren Objektbeschreibungen, wodurch sie die Bildverarbeitung der menschlichen Wahrnehmung weiter annähern. Aufgrund dieser Perspektiven erforscht die vorliegende Arbeit vier verschiedene Herangehensweisen zu reichhaltigeren Objektrepräsentationen

    Richer object representations for object class detection in challenging real world images

    Get PDF
    Object class detection in real world images has been a synonym for object localization for the longest time. State-of-the-art detection methods, inspired by renowned detection benchmarks, typically target 2D bounding box localization of objects. At the same time, due to the rapid technological and scientific advances, high-level vision applications, aiming at understanding the visual world as a whole, are coming into the focus. The diversity of the visual world challenges these applications in terms of representational complexity, robust inference and training data. As objects play a central role in any vision system, it has been argued that richer object representations, providing higher level of detail than modern detection methods, are a promising direction towards understanding visual scenes. Besides bridging the gap between object class detection and high-level tasks, richer object representations also lead to more natural object descriptions, bringing computer vision closer to human perception. Inspired by these prospects, this thesis explores four different directions towards richer object representations, namely, 3D object representations, fine-grained representations, occlusion representations, as well as understanding convnet representations. Moreover, this thesis illustrates that richer object representations can facilitate high-level applications, providing detailed and natural object descriptions. In addition, the presented representations attain high performance rates, at least on par or often superior to state-of-the-art methods.Detektion von Objektklassen in natürlichen Bildern war lange Zeit gleichbedeutend mit Lokalisierung von Objekten. Von anerkannten Detektions-Benchmarks inspirierte Detektionsmethoden, die auf dem neuesten Stand der Forschung sind, zielen üblicherweise auf die Lokalisierung von Objekten im Bild. Gleichzeitig werden durch den schnellen technologischen und wissenschaftlichen Fortschritt abstraktere Bildverarbeitungsanwendungen, die ein Verständnis der visuellen Welt als Ganzes anstreben, immer interessanter. Die Diversität der visuellen Welt ist eine Herausforderung für diese Anwendungen hinsichtlich der Komplexität der Darstellung, robuster Inferenz und Trainingsdaten. Da Objekte eine zentrale Rolle in jedem Visionssystem spielen, wurde argumentiert, dass reichhaltige Objektrepräsentationen, die höhere Detailgenauigkeit als gegenwärtige Detektionsmethoden bieten, ein vielversprechender Schritt zum Verständnis visueller Szenen sind. Reichhaltige Objektrepräsentationen schlagen eine Brücke zwischen der Detektion von Objektklassen und abstrakteren Aufgabenstellungen, und sie führen auch zu natürlicheren Objektbeschreibungen, wodurch sie die Bildverarbeitung der menschlichen Wahrnehmung weiter annähern. Aufgrund dieser Perspektiven erforscht die vorliegende Arbeit vier verschiedene Herangehensweisen zu reichhaltigeren Objektrepräsentationen

    Inferring spatial relations from textual descriptions of images

    Get PDF
    [EU]Gizaki-makina elkar-ulertzea eskatzen duten hainbat atazetarako ezinbestekoa da objektuen arteko erlazio espazialak ulertzea, eta hauen distribuzio espazialen jakintza izatea. Irudiek, bertan agertzen diren objektuen arteko erlazio espazialak gordetzen dituzte, baina baita irudien testuzko deskribapenek ere. Irudien testuzko deskribapenek erlazio espazialei buruzko informazio esplizitua erakutsi arren; kasu askotan, informazio inplizitua gordetzen dute. Inplizituki agertzen den informazio hau ulertzeko, ezinbestekoa da objektuen eta testuinguruaren oinarrizko jakintza izatea. Aurrez garatutako proiektuek, subjektu, erlazio eta objektuen arteko interakzioa baliatuz, objektuaren kaxa inguratzailea (Bounding Box) iragartzea izan dute helburu. Hirukotea osatzen duten hitzak ontologia bateko kontzeptuak izanik. Proiektu honetan testuzko deskribapenek objektua irudian kokatzeko baliagarria den informazio gordetzen dutela erakutsiko da; lehenengo aldiz, eskuz etiketatutako kontzeptu hirukoetan emaitzak hobetuz. Relations in Captions (REC-COCO) datu multzoa sortu da frogapen hau egiteko. Datu multzo hau MS-COCO eta V-COCO datu multzoen uztarketaren emaitza da. Hau sortzeko irudietan agertzen diren objektuen, eta testuzko deskribapenetan agertzen direnen arteko lotura egin da. Proiektu honetan ondorengoa frogatu da: (1) testuzko deskribapenetatik lortutako hirukoteei testuzko deskribapenaren informazioa gehitzean, ontologiako kontzeptu hirukoetan errendimendua hobetzen da; (2) hobekuntza mantendu egiten da subjektu eta objektua soilik erabiltzean, esplizituki adierazi gabe zein den bi hauen arteko erlazioa. Beste modu batera esanda, testuzko deskribapena eta objektu-subjektu erreferentzia izanik, eredua gai da objektuaren posizioa eta tamaina zehazteko.[EN]Understanding spatial relations between objects and their distribution in space is essential for human-machine collaboration in general and for specific tasks such as composing sketched scenes, or image generation from textual descriptions (captions). Textual descriptions include explicit spatial relations, but often spatial information is implicit and relies on a common understanding of objects and their context. Previous work on extracting spatial relations from text has predicted bounding boxes using (subject, relation, object) triplets of ontology concepts as input. We show for the first time that the captions encode background information which is useful to place objects in an image, yielding better results than manually defined concept triplets. To prove this we have built Relations in Captions (REC-COCO), a dataset derived from MS-COCO which contains associations between words in a caption and the corresponding bounding boxes in the image. We have adapted a well-known model to the task, with the results showing that: (1) the use of the full text of the caption in addition to the textual triplet allows to improve over manual concept triplets; (2) the improvement also holds when only using the subject and object, without explicitly detecting which is the textual relation. From another perspective, our work shows that given a caption, a reference subject and the object in the caption, the system can assign a location and a size to the object using the information in the caption alone.This project was partially supported by the project DeepReading (RTI2018-096846-BC21) supported by the Spanish Government, the Basque Government excellence research group (IT1343-19) and Etorkizuna Eraikiz 201
    corecore