438 research outputs found

    Object recognition applied to mobile robotics

    Get PDF
    Investigació de les possibilitats dels mètodes actuals de detecció i reconeixement d'objectes. Adaptació del millor mètode seleccionat (MOPED) per tal de solucionar els problemes de la competició de robots domèstics "Robocup @Home" amb el robot "REEM" de l'empresa "PAL Robotics"

    Digital Image Access & Retrieval

    Get PDF
    The 33th Annual Clinic on Library Applications of Data Processing, held at the University of Illinois at Urbana-Champaign in March of 1996, addressed the theme of "Digital Image Access & Retrieval." The papers from this conference cover a wide range of topics concerning digital imaging technology for visual resource collections. Papers covered three general areas: (1) systems, planning, and implementation; (2) automatic and semi-automatic indexing; and (3) preservation with the bulk of the conference focusing on indexing and retrieval.published or submitted for publicatio

    Video tolling integrated solution

    Get PDF
    Trabalho de projeto de mestrado, Engenharia Informática (Engenharia de Software) Universidade de Lisboa, Faculdade de Ciências, 2020A indústria de cobrança de portagens foi instituída no século VII com o intuito de financiar e auxiliar na manutenção de vias públicas através do pagamento de taxas correspondentes ao seu uso. Contudo, o advento do uso massificado de veículos automóveis, e consequente aumento do tráfego, obrigou à adaptação desta indústria aos tempos modernos, tendo sido introduzida uma filosofia de livre trânsito complementar à tradicional paragem para pagamento. A adoção deste tipo de medida foi possível graças ao desenvolvimento de tecnologias de reconhecimento ótico de caracteres, que permitem a identificação da matrícula, aliados ao uso de identificadores registados para cada veículo. Porém, a ausência de paragem implica também a existência de infrações de condutores que circulem com matrículas obscurecidas ou de difícil leitura. Deste modo, é desejável o uso de métodos complementares de auxílio à identificação dos veículos, caso do reconhecimento da marca e modelo dos mesmos (MMR). Os sistemas de reconhecimento ótico de caracteres com o objetivo de identificar matrículas são já implementados nas soluções concebidas pela Accenture para os seus diversos clientes na área, tornando estes novos métodos complementares numa adição interessante à robustez dos mesmos, de modo a reduzir custos adicionais relacionados com a identificação manual de matrículas através das imagens captadas. O presente trabalho visou então, em primeira instância, o estabelecimento de uma prova de conceito com um modelo arquitetural que permitisse a integração de um sistema de reconhecimento de marca e modelo de veículos com os sistemas informáticos previamente desenvolvidos e que se encontram atualmente em uso por parte dos clientes. Para este modelo foi também estabelecido um conjunto de requisitos, tanto funcionais como não funcionais, com o intuito de minorar, tanto quanto possível, perdas no desempenho e fiabilidade dos atuais sistemas por consequência da introdução deste novo componente de MMR. Os requisitos foram definidos fazendo uso de uma versão modificada do modelo de qualidade FURPS, segundo as boas práticas definidas pela equipa de desenvolvimento do Centro de Excelência de Tolling (TCoE) da Accenture Portugal. Adicionalmente, os requisitos definidos foram sujeitos ao estabelecimento de prioridades segundo as regras MoSCoW. A captura de imagens de veículos em movimento e consequente classificação oferece desafios inerentes à sua complexidade, pelo que foram também efetuadas considerações sobre os fatores de variabilidade que devem ser tidos em conta aquando da conceção de um sistema MMR. Estes fatores foram classificados segundo três áreas principais: propriedades inerentes ao sistema de captura de imagens (RSE), propriedades do evento de captura da imagem, e propriedades do veículo. A arquitetura proposta para um eventual sistema que possa ser passível de integração com os existentes faz uso da arquitetura dos mesmos, organizando-se em quatro camadas, a saber: acesso a dados (camada inferior), gestão e regras de negócio, avaliação de resultados e aumento da base de conhecimento disponível, e correspondência (camada superior). Para a elaboração da presente prova de conceito, foram deste modo escolhidas tecnologias que permitem a integração com os sistemas Java previamente existentes sem despender demasiado esforço adicional nessa integração. Deste modo, foram utilizadas bibliotecas Python para o uso de OpenCV, que permite o processamento de imagens, e Tensorflow para as atividades relacionadas com machine learning. O desenvolvimento da prova de conceito para estes sistemas envolveu também o teste de hipóteses quanto ao modo mais vantajoso de reconhecimento da marca e modelo dos veículos propriamente dita. Para este efeito, foram equacionadas três hipóteses, que se basearam no uso de dois datasets distintos. O primeiro conceito abordado consistiu em fingerprinting de imagens associadas a um dataset desenvolvido na Universidade de Stanford, contendo 16185 imagens de veículos automóveis ligeiros em variadas poses, que podem ser divididas segundo 49 marcas e 196 modelos distintos, se for considerada a distinção dos anos de comercialização dos mesmos. Para o efeito, foi usado o modelo de características AKAZE e testados três métodos distintos para efetuar as correspondências: força bruta com teste de rácio descrito na literatura (para dois rácios distintos, 0,4 e 0,7), força bruta com recurso a função de cross-check nativa das bibliotecas usadas, e FLANN. A pertença de uma imagem a determinada categoria foi então ditada pelo estabelecimento de correspondências entre os seus pontos-chave e os pontos-chave das imagens do dataset, testando vários algoritmos de ordenação para aumentar as probabilidades de correspondência com uma imagem pertencente à mesma classe. Os resultados obtidos demonstraram, no geral, precisões relativamente baixas, sendo que nenhuma ultrapassou os 20% para o reconhecimento da marca ou modelo dos veículos. Contudo, dos ensaios efetuados, dois destacaram-se ao conseguir atingir 16,8% de precisão para a marca e 11,2% para o modelo. Estes ensaios tiveram, de resto, características em comum, sendo que, em ambos os casos, foi utilizado o método de força bruta com rácio de 0,4. Os métodos de ordenação de resultados foram, todavia, diferentes, sendo que num dos casos foi usado o valor máximo de pontos-chave em comum (MV) e no segundo um rácio entre este número de pontos em comum e o número de pontos-chave existentes (MR). De entre ambos, o ensaio que recorreu ao método MR foi considerado estatisticamente mais significativo, dado possuir um valor do coeficiente de correlação k de Cohen mais elevado em relação a MV. Os parcos resultados obtidos através deste método levaram à tentativa de adoção de uma abordagem diferente, nomeadamente no que tocava à seleção das imagens que deviam ser comparadas, uma vez que os fatores de variabilidade identificados na análise se encontravam demasiado presentes nas imagens do dataset de Stanford. Deste modo, a grelha do veículo foi identificada como região de interesse (ROI), dados os padrões distintivos inerentes à mesma e a presença do logotipo identificador da marca à qual pertence o veículo. O objetivo desta nova abordagem residia na identificação desta ROI de modo a proceder à sua extração a partir da imagem original, aplicando-sedepois os algoritmos de fingerprinting anteriormente abordados. A deteção da ROI foi efetuada com recurso a classificadores em cascata, os quais foram testados com dois tipos de características diferentes: LBP, mais rápidas, mas menos precisas, e Haar, mais complexas, mas também mais fiáveis. As imagens obtidas através da identificação e subsequente recorte foram depois analisadas segundo a presença de grelha, deteção da mesma ou de outros objetos, bem como o grau de perfeição da deteção efetuada. A determinação da ROI a recortar foi também avaliada segundo dois algoritmos: número total de interseções entre ROIs candidatas, e estabelecimento de um limiar de candidatos para uma ROI candidata ser considerada ou rejeitada (apelidado de min-neighbours). As cascatas foram treinadas com recurso a imagens não pertencentes ao dataset de Stanford, de modo a evitar classificações tendenciosas face a imagens previamente apresentadas ao modelo, e para cada tipo de característica foram apresentados dois conjuntos de imagens não correspondentes a grelhas (amostras negativas), que diferiam na sua dimensão e foram consequentemente apelidadas de Nsmall e Nbig. Os melhores resultados foram obtidos com o dataset Nsmall, estabelecimento de limiar, e com recurso a características Haar, sendo a grelha detetada em 81,1% dos casos em que se encontrava efetivamente presente na imagem. Contudo, esta deteção não era completamente a que seria desejável, uma vez que, considerando deteção perfeita e sem elementos externos, a precisão baixava para 32,3%. Deste modo, apesar das variadas vertentes em que esta deteção e extração de ROI foi estudada, foi decidido não avançar para o uso de fingerprinting, devido a constrangimentos de tempo e à baixa precisão que o sistema como um todo conseguiria alcançar. A última técnica a ser testada neste trabalho foi o uso de redes neuronais de convolução (CNN). Para o efeito, e de modo a obter resultados mais fiáveis para o tipo de imagem comumente capturado pelos RSE em contexto de open road tolling, foi usado um novo dataset, consistindo de imagens captadas em contexto real e cedidas por um dos clientes do TCoE. Dentro deste novo conjunto de imagens, foi feita a opção de testar apenas a marca do veículo, com essa classificação a ser feita de forma binária (pertence ou não pertence a determinada marca), ao invés de classificação multi-classe. Para o efeito, foram consideradas as marcas mais prevalentes no conjunto fornecido, Opel e Peugeot. Os primeiros resultados para o uso de CNN revelaram-se promissores, com precisão de 88,9% para a marca Opel e 95,3% para a Peugeot. Todavia, ao serem efetuados testes de validação cruzada para aferir o poder de generalização dos modelos, verificou-se um decréscimo significativo, tanto para Opel (79,3%) como para Peugeot (84,9%), deixando antever a possibilidade de ter ocorrido overfitting na computação dos modelos. Por este motivo, foram efetuados novos ensaios com imagens completamente novas para cada modelo, sendo obtidos resultados de 55,7% para a marca Opel e 57,4% para a marca Peugeot. Assim, embora longe de serem resultados ideais, as CNN aparentam ser a melhor via para um sistema integrado de reconhecimento de veículos, tornando o seu refinamento e estudo numa solução viável para a continuação de um possível trabalho nesta área.For a long time, tolling has served as a way to finance and maintain publicly used roads. In recent years, however, due to generalised vehicle use and consequent traffic demand, there has been a call for open-road tolling solutions, which make use of automatic vehicle identification systems which operate through the use of transponders and automatic license plate recognition. In this context, recognising the make and model of a vehicle (MMR) may prove useful, especially when dealing with infractions. Intelligent automated license plate recognition systems have already been adopted by several Accenture clients, with this new feature being a potential point of interest for future developments. Therefore, the current project aimed to establish a potential means of integrating such a system with the already existing architecture, with requirements being designed to ensure its current reliability and performance would suffer as little an impact as possible. Furthermore, several options were considered as candidates for the future development of an integrated MMR solution, namely, image fingerprinting of a whole image, grille selection followed by localised fingerprinting, and the use of convolutional neural networks (CNN) for image classification. Among these, CNN showed the most promising results, albeit making use of images in limited angle ranges, therefore mimicking those exhibited in captured tolling vehicle images, as well as performing binary classification instead of a multi-class one. Consequently, further work in this area should take these results into account and expand upon them, refining these models and introducing more complexity in the process

    Vuforia v1.5 SDK: Analysis and evaluation of capabilities

    Get PDF
    This thesis goes into the augmented reality world and, being more specific in Vuforia uses, searching as an achievement the analysis of its characteristics. The first objective of this thesis is make a short explanation of what is understood by augmented reality and the actual different varieties of AR applications, and then the SDK’s features and its architecture and elements. In other hand, to understand the basis of the detection process realized by the Vuforia’s library is important to explain the approach to the considerations of image recognition, because it is the way in which Vuforia recognizes the different patterns. Another objective has been the exposition of the possible fields of applications using this library and a brief of the main steps to create an implementation always using Unity3D, due to Vuforia is only a SDK not an IDE. The reason to choose this way is due to the facilities that are provided by Unity3D when creating the application itself, because it already has implemented all necessary to access the hardware of the smartphone, as well as those that control the Vuforia’s elements. In other way, the Vuforia’s version used during the thesis has been the 1.5, but two months ago Qualcomm was launched the new 2.0 version, that it is not intended to form part of this study, although some of the most significant new capabilities are explained. Finally, the last and perhaps the most important objective have been the test and the results, where they have used three different smartphones to compare the values. Following this methodology has been possible to conclude which part of the results are due to the features and capabilities of the different smartphones and which part depends only of the Vuforia’s library.Català: Aquest projecte s’endinsa al món de la realitat augmentada, més concretament a l’anàlisi de les característiques y funcionalitats del SDK Vuforia. En primer objectiu serà posar en perspectiva el que s’entén per realitat augmentada i de les variants existents avui dia d’aplicacions que fan ús de la RA. A continuació es mencionen les característiques d’aquest SDK, la seva arquitectura i els seus elements. En aquesta part també s’han tingut en compte les consideracions de reconeixement d’imatge, ja que es la manera en la qual Vuforia realitza el reconeixement dels diferents patrons. El següent pas es tractar d’exposar els possibles camps d’aplicació d’aquesta llibreria, i una breu explicació dels principals passos per crear una aplicació sota Unity3D, tenint en compte sempre que Vuforia es només un SDK i no un IDE. La raó per escollir aquest entorn es degut a les ventatges que ofereix Unity3D a l’hora de crear l’aplicació, degut a que ja disposa de tot el necessari per accedir tant al hardware del propi dispositiu mòbil com a els propis elements que integren Vuforia. D’altra banda, la versió de Vuforia utilitzada durant el projecte ha sigut la 1.5, encara que fa poc més de dos mesos Qualcomm va alliberar la nova versió 2.0, la qual no forma part dels objectius d’aquest projecte, encara que una part de les noves funcionalitats més significatives s’exposen breument. Finalment, es conclourà amb els tests i resultats obtinguts. Per realitzar totes aquestes proves s’han utilitzat tres terminals diferents per poder comparar valors. A més, utilitzant aquest mètode, ha sigut possible concloure quina part dels resultats obtinguts es deuen a les característiques i capacitats dels diferents terminals i quina part depèn exclusivament de la pròpia llibreria Vuforia

    Video Abstracting at a Semantical Level

    Get PDF
    One the most common form of a video abstract is the movie trailer. Contemporary movie trailers share a common structure across genres which allows for an automatic generation and also reflects the corresponding moviea s composition. In this thesis a system for the automatic generation of trailers is presented. In addition to action trailers, the system is able to deal with further genres such as Horror and comedy trailers, which were first manually analyzed in order to identify their basic structures. To simplify the modeling of trailers and the abstract generation itself a new video abstracting application was developed. This application is capable of performing all steps of the abstract generation automatically and allows for previews and manual optimizations. Based on this system, new abstracting models for horror and comedy trailers were created and the corresponding trailers have been automatically generated using the new abstracting models. In an evaluation the automatic trailers were compared to the original Trailers and showed a similar structure. However, the automatically generated trailers still do not exhibit the full perfection of the Hollywood originals as they lack intentional storylines across shots

    Investigating User Experiences Through Animation-based Sketching

    Get PDF

    A course-oriented intelligent tutoring system with probability assessment

    Get PDF
    Most Intelligent Tutoring Systems (ITSs) in the past have concentrated on small domains and have been topic-oriented. They have tended to be non-extendable prototypes and have neglected the expertise of human teachers. It is argued here that a promising approach at this time is to design course-oriented ITS shells which are based on the human teacher. Courses using such shells could be used to take some of the load of first-time delivery and assessment from teachers and lecturers, and leave them more time for individual tutoring. [Continues.

    Design and semantics of form and movement (DeSForM 2006)

    Get PDF
    Design and Semantics of Form and Movement (DeSForM) grew from applied research exploring emerging design methods and practices to support new generation product and interface design. The products and interfaces are concerned with: the context of ubiquitous computing and ambient technologies and the need for greater empathy in the pre-programmed behaviour of the ‘machines’ that populate our lives. Such explorative research in the CfDR has been led by Young, supported by Kyffin, Visiting Professor from Philips Design and sponsored by Philips Design over a period of four years (research funding £87k). DeSForM1 was the first of a series of three conferences that enable the presentation and debate of international work within this field: • 1st European conference on Design and Semantics of Form and Movement (DeSForM1), Baltic, Gateshead, 2005, Feijs L., Kyffin S. & Young R.A. eds. • 2nd European conference on Design and Semantics of Form and Movement (DeSForM2), Evoluon, Eindhoven, 2006, Feijs L., Kyffin S. & Young R.A. eds. • 3rd European conference on Design and Semantics of Form and Movement (DeSForM3), New Design School Building, Newcastle, 2007, Feijs L., Kyffin S. & Young R.A. eds. Philips sponsorship of practice-based enquiry led to research by three teams of research students over three years and on-going sponsorship of research through the Northumbria University Design and Innovation Laboratory (nuDIL). Young has been invited on the steering panel of the UK Thinking Digital Conference concerning the latest developments in digital and media technologies. Informed by this research is the work of PhD student Yukie Nakano who examines new technologies in relation to eco-design textiles
    • …
    corecore