8 research outputs found

    Stereo vision-based algorithm for control of nonholonomic mobile robot

    Get PDF
    Requirements for an effective and reliable material transport system within advanced manufacturing environment can be fulfilled by using intelligent mobile robots to perform material handling and transportation tasks. In order to re-duce the degree of ambiguity occurring in a dynamic manufacturing environment, mobile robots are equipped with a stereo vision system that can reliably estimate distance to manufacturing entities. In this paper, a new stereo vision-based algorithm for control of nonholonomic mobile robot is proposed. The main control algorithm, based on an error in image parameters (IBVS - Image based visual servoing), is used for positioning of a mobile robot in the de-sired location. For estimation of the error in image parameters, point features are extracted from the current and target camera view via feature detection and description algorithm. A comparison of these algorithms is made on a set of images obtained in laboratory model of the manufacturing environment by using Basler acA1920-25uc cameras. Based on the results of comparison, KAZE feature detection and description algorithm is proven to be best suited for this specific case. In order to verify the stereo visual control system, simulation and real-world experiments are per-formed. Two experiments are conducted on a mobile robot RAICO (Robot with Artificial Intelligence based COgni-tion) in a laboratory model of the manufacturing environment. Experimental results show the effectiveness of the pro-posed stereo visual control system and its applicability in reaching the desired location with minimal accuracy error

    Cooperative Perception of Connected Vehicles for Safety

    Get PDF
    69A3551747115/ Project 05-115In cooperative perception, reliably detecting surrounding objects and communicating the information between vehicles is necessary for safety. However, vehicle-to-vehicle transmission of huge datasets or images can be computationally expensive and often not feasible in real time. A robust approach to ensure cooperation involves relative pose estimation between two vehicles sharing a common field of view. Detecting the object and transferring its location information in real time is necessary when the object is not in the ego vehicle\u2019s field of view. In such scenarios, reliable and robust pose recovery of the object at each instant ensures the ego vehicle accurately estimates its trajectory. Once pose recovery is established, the object\u2019s location information can be obtained for future trajectory prediction. Deterministic predictions provide only point estimates of future states which is not trustworthy under dynamic traffic scenarios. Estimating the uncertainty associated with the predicted states with a certain level of confidence can lead to robust path planning. This study proposed quantifying this uncertainty during forecasting using stochastic approximation, which deterministic approaches fail to capture. The current method is simple and applies Bayesian approximation during inference to standard neural network architectures for estimating uncertainty. The predictions between the probabilistic neural network models were compared with the standard deterministic models. The results indicate that the mean predicted path of probabilistic models was closer to the ground truth when compared with the deterministic prediction. The study has been extended to multiple datasets, providing a comprehensive comparison for each model

    Monocular 3D Scene Reconstruction for an Autonomous Unmanned Aerial Vehicle

    Get PDF
    Rekonstrukce 3D modelu prostředí je klíčovou částí autonomního letu bezpilotní helikoptéry (UAV). Kombinace inerciální měřicí jednotky (IMU) a kamery je běžnou a dostupnou senzorovou sadou, jež je schopna získat informaci o měřítku prostředí. Tato práce si klade za cíl vyvinout algoritmus řešící problém 3D rekostrukce pro tyto senzory za využití existujících metod vizuálně-inerciální lokalizace (VINS). V práci jsou navrženy dva algoritmy, odlišené způsobem, jakým extrahují korespondence mezi snímky: párovací algoritmus se širokou bází a algoritmus založený na trackingu s malou bází. Také je implementována metoda vylepšující výslednou 3D strukturu po letu. Algoritmy jsou otestovány na veřejně dostupné datové sadě. Navíc jsou otestovány v simulátoru a je proveden experiment v reálném prostředí. Výsledky ukazují, že algoritmus založený na trackingu dosahuje výrazně lepších výsledků. Navíc testy na datech a experimenty v reálném prostředí ukazují, že algoritmus může být nasazen v praktických aplikačních situacích.The real-time 3D reconstruction of the surrounding scene is a key part in the pipeline of the autonomous flight of unmanned aerial vehicle (UAV). The combination of an inertial measurement unit (IMU) and a monocular camera is a common and inexpensive sensor setup that can be used to recover the scale of the environment. This thesis aims to develop an algorithm solving this problem for this particular setup by leveraging the existing visual-inertial navigation system (VINS) odometry algorithms for localisation. Two algorithms are developed, wide-baseline matching-based and small-baseline tracking-based. Also, an offline post-processing structure-refinement step is implemented to further improve the resulting structure. The algorithms and the refinement step are then evaluated on publicly available datasets. Furthermore, they are tested in a simulator, and a real-world experiment is conducted. The results show that the tracking-based algorithm is significantly more performant. Importantly, tests on the datasets and the real-world experiments suggest that this algorithm can be practically employed in application scenarios

    Robotic Burst Imaging for Light-Constrained 3D Reconstruction

    Get PDF
    This thesis proposes a novel input scheme, robotic burst, to improve vision-based 3D reconstruction for robots operating in low-light conditions, where existing state-of-the-art robotic vision algorithms struggle due to low signal-to-noise ratio in low-light images. We aim to improve the correspondence search stage of feature-based reconstruction using robotic burst imaging, including burst-merged images, a burst feature finder, and an end-to-end learning-based feature extractor. Firstly, we establish the use of robotic burst imaging to compute burst-merged images for feature-based reconstruction. We then develop a burst feature finder that locates features with well-defined scale and apparent motion on a burst to deal with limitations of burst-merged images such as misalignment at strong noise. To improve feature matches in burst-based reconstruction, we also present an end-to-end learning-based feature extractor that finds well-defined scale features directly on light-constrained bursts. We evaluate our methods against state-of-the-art reconstruction methods for conventional imaging that uses both classical and learning-based feature extractors. We validate our novel input scheme using burst imagery captured on a robotic arm and drones. We demonstrate progressive improvements in low-light reconstruction using our burst-based methods against conventional approaches and overall, converging 90% of all scenes captured in millilux conditions that otherwise converge with 10% success rate using conventional methods. This work opens up new avenues for applications, including autonomous driving and drone delivery at night, mining, and behavioral studies on nocturnal animals

    Video tolling integrated solution

    Get PDF
    Trabalho de projeto de mestrado, Engenharia Informática (Engenharia de Software) Universidade de Lisboa, Faculdade de Ciências, 2020A indústria de cobrança de portagens foi instituída no século VII com o intuito de financiar e auxiliar na manutenção de vias públicas através do pagamento de taxas correspondentes ao seu uso. Contudo, o advento do uso massificado de veículos automóveis, e consequente aumento do tráfego, obrigou à adaptação desta indústria aos tempos modernos, tendo sido introduzida uma filosofia de livre trânsito complementar à tradicional paragem para pagamento. A adoção deste tipo de medida foi possível graças ao desenvolvimento de tecnologias de reconhecimento ótico de caracteres, que permitem a identificação da matrícula, aliados ao uso de identificadores registados para cada veículo. Porém, a ausência de paragem implica também a existência de infrações de condutores que circulem com matrículas obscurecidas ou de difícil leitura. Deste modo, é desejável o uso de métodos complementares de auxílio à identificação dos veículos, caso do reconhecimento da marca e modelo dos mesmos (MMR). Os sistemas de reconhecimento ótico de caracteres com o objetivo de identificar matrículas são já implementados nas soluções concebidas pela Accenture para os seus diversos clientes na área, tornando estes novos métodos complementares numa adição interessante à robustez dos mesmos, de modo a reduzir custos adicionais relacionados com a identificação manual de matrículas através das imagens captadas. O presente trabalho visou então, em primeira instância, o estabelecimento de uma prova de conceito com um modelo arquitetural que permitisse a integração de um sistema de reconhecimento de marca e modelo de veículos com os sistemas informáticos previamente desenvolvidos e que se encontram atualmente em uso por parte dos clientes. Para este modelo foi também estabelecido um conjunto de requisitos, tanto funcionais como não funcionais, com o intuito de minorar, tanto quanto possível, perdas no desempenho e fiabilidade dos atuais sistemas por consequência da introdução deste novo componente de MMR. Os requisitos foram definidos fazendo uso de uma versão modificada do modelo de qualidade FURPS, segundo as boas práticas definidas pela equipa de desenvolvimento do Centro de Excelência de Tolling (TCoE) da Accenture Portugal. Adicionalmente, os requisitos definidos foram sujeitos ao estabelecimento de prioridades segundo as regras MoSCoW. A captura de imagens de veículos em movimento e consequente classificação oferece desafios inerentes à sua complexidade, pelo que foram também efetuadas considerações sobre os fatores de variabilidade que devem ser tidos em conta aquando da conceção de um sistema MMR. Estes fatores foram classificados segundo três áreas principais: propriedades inerentes ao sistema de captura de imagens (RSE), propriedades do evento de captura da imagem, e propriedades do veículo. A arquitetura proposta para um eventual sistema que possa ser passível de integração com os existentes faz uso da arquitetura dos mesmos, organizando-se em quatro camadas, a saber: acesso a dados (camada inferior), gestão e regras de negócio, avaliação de resultados e aumento da base de conhecimento disponível, e correspondência (camada superior). Para a elaboração da presente prova de conceito, foram deste modo escolhidas tecnologias que permitem a integração com os sistemas Java previamente existentes sem despender demasiado esforço adicional nessa integração. Deste modo, foram utilizadas bibliotecas Python para o uso de OpenCV, que permite o processamento de imagens, e Tensorflow para as atividades relacionadas com machine learning. O desenvolvimento da prova de conceito para estes sistemas envolveu também o teste de hipóteses quanto ao modo mais vantajoso de reconhecimento da marca e modelo dos veículos propriamente dita. Para este efeito, foram equacionadas três hipóteses, que se basearam no uso de dois datasets distintos. O primeiro conceito abordado consistiu em fingerprinting de imagens associadas a um dataset desenvolvido na Universidade de Stanford, contendo 16185 imagens de veículos automóveis ligeiros em variadas poses, que podem ser divididas segundo 49 marcas e 196 modelos distintos, se for considerada a distinção dos anos de comercialização dos mesmos. Para o efeito, foi usado o modelo de características AKAZE e testados três métodos distintos para efetuar as correspondências: força bruta com teste de rácio descrito na literatura (para dois rácios distintos, 0,4 e 0,7), força bruta com recurso a função de cross-check nativa das bibliotecas usadas, e FLANN. A pertença de uma imagem a determinada categoria foi então ditada pelo estabelecimento de correspondências entre os seus pontos-chave e os pontos-chave das imagens do dataset, testando vários algoritmos de ordenação para aumentar as probabilidades de correspondência com uma imagem pertencente à mesma classe. Os resultados obtidos demonstraram, no geral, precisões relativamente baixas, sendo que nenhuma ultrapassou os 20% para o reconhecimento da marca ou modelo dos veículos. Contudo, dos ensaios efetuados, dois destacaram-se ao conseguir atingir 16,8% de precisão para a marca e 11,2% para o modelo. Estes ensaios tiveram, de resto, características em comum, sendo que, em ambos os casos, foi utilizado o método de força bruta com rácio de 0,4. Os métodos de ordenação de resultados foram, todavia, diferentes, sendo que num dos casos foi usado o valor máximo de pontos-chave em comum (MV) e no segundo um rácio entre este número de pontos em comum e o número de pontos-chave existentes (MR). De entre ambos, o ensaio que recorreu ao método MR foi considerado estatisticamente mais significativo, dado possuir um valor do coeficiente de correlação k de Cohen mais elevado em relação a MV. Os parcos resultados obtidos através deste método levaram à tentativa de adoção de uma abordagem diferente, nomeadamente no que tocava à seleção das imagens que deviam ser comparadas, uma vez que os fatores de variabilidade identificados na análise se encontravam demasiado presentes nas imagens do dataset de Stanford. Deste modo, a grelha do veículo foi identificada como região de interesse (ROI), dados os padrões distintivos inerentes à mesma e a presença do logotipo identificador da marca à qual pertence o veículo. O objetivo desta nova abordagem residia na identificação desta ROI de modo a proceder à sua extração a partir da imagem original, aplicando-sedepois os algoritmos de fingerprinting anteriormente abordados. A deteção da ROI foi efetuada com recurso a classificadores em cascata, os quais foram testados com dois tipos de características diferentes: LBP, mais rápidas, mas menos precisas, e Haar, mais complexas, mas também mais fiáveis. As imagens obtidas através da identificação e subsequente recorte foram depois analisadas segundo a presença de grelha, deteção da mesma ou de outros objetos, bem como o grau de perfeição da deteção efetuada. A determinação da ROI a recortar foi também avaliada segundo dois algoritmos: número total de interseções entre ROIs candidatas, e estabelecimento de um limiar de candidatos para uma ROI candidata ser considerada ou rejeitada (apelidado de min-neighbours). As cascatas foram treinadas com recurso a imagens não pertencentes ao dataset de Stanford, de modo a evitar classificações tendenciosas face a imagens previamente apresentadas ao modelo, e para cada tipo de característica foram apresentados dois conjuntos de imagens não correspondentes a grelhas (amostras negativas), que diferiam na sua dimensão e foram consequentemente apelidadas de Nsmall e Nbig. Os melhores resultados foram obtidos com o dataset Nsmall, estabelecimento de limiar, e com recurso a características Haar, sendo a grelha detetada em 81,1% dos casos em que se encontrava efetivamente presente na imagem. Contudo, esta deteção não era completamente a que seria desejável, uma vez que, considerando deteção perfeita e sem elementos externos, a precisão baixava para 32,3%. Deste modo, apesar das variadas vertentes em que esta deteção e extração de ROI foi estudada, foi decidido não avançar para o uso de fingerprinting, devido a constrangimentos de tempo e à baixa precisão que o sistema como um todo conseguiria alcançar. A última técnica a ser testada neste trabalho foi o uso de redes neuronais de convolução (CNN). Para o efeito, e de modo a obter resultados mais fiáveis para o tipo de imagem comumente capturado pelos RSE em contexto de open road tolling, foi usado um novo dataset, consistindo de imagens captadas em contexto real e cedidas por um dos clientes do TCoE. Dentro deste novo conjunto de imagens, foi feita a opção de testar apenas a marca do veículo, com essa classificação a ser feita de forma binária (pertence ou não pertence a determinada marca), ao invés de classificação multi-classe. Para o efeito, foram consideradas as marcas mais prevalentes no conjunto fornecido, Opel e Peugeot. Os primeiros resultados para o uso de CNN revelaram-se promissores, com precisão de 88,9% para a marca Opel e 95,3% para a Peugeot. Todavia, ao serem efetuados testes de validação cruzada para aferir o poder de generalização dos modelos, verificou-se um decréscimo significativo, tanto para Opel (79,3%) como para Peugeot (84,9%), deixando antever a possibilidade de ter ocorrido overfitting na computação dos modelos. Por este motivo, foram efetuados novos ensaios com imagens completamente novas para cada modelo, sendo obtidos resultados de 55,7% para a marca Opel e 57,4% para a marca Peugeot. Assim, embora longe de serem resultados ideais, as CNN aparentam ser a melhor via para um sistema integrado de reconhecimento de veículos, tornando o seu refinamento e estudo numa solução viável para a continuação de um possível trabalho nesta área.For a long time, tolling has served as a way to finance and maintain publicly used roads. In recent years, however, due to generalised vehicle use and consequent traffic demand, there has been a call for open-road tolling solutions, which make use of automatic vehicle identification systems which operate through the use of transponders and automatic license plate recognition. In this context, recognising the make and model of a vehicle (MMR) may prove useful, especially when dealing with infractions. Intelligent automated license plate recognition systems have already been adopted by several Accenture clients, with this new feature being a potential point of interest for future developments. Therefore, the current project aimed to establish a potential means of integrating such a system with the already existing architecture, with requirements being designed to ensure its current reliability and performance would suffer as little an impact as possible. Furthermore, several options were considered as candidates for the future development of an integrated MMR solution, namely, image fingerprinting of a whole image, grille selection followed by localised fingerprinting, and the use of convolutional neural networks (CNN) for image classification. Among these, CNN showed the most promising results, albeit making use of images in limited angle ranges, therefore mimicking those exhibited in captured tolling vehicle images, as well as performing binary classification instead of a multi-class one. Consequently, further work in this area should take these results into account and expand upon them, refining these models and introducing more complexity in the process

    Upper airways segmentation using principal curvatures

    Get PDF
    Esta tesis propone una nueva técnica para segmentar las vías aéreas superiores. Esta propuesta permite la extracción de estructuras curvilíneas usando curvaturas principales. La propuesta permite la extracción de éstas estructuras en imágenes 2D y 3D. Entre las principales novedades se encuentra la propuesta de un nuevo criterio de parada en la propagación del algoritmo de realce de contraste (operador multi-escala de tipo sombrero alto). De la misma forma, el criterio de parada propuesto es usado para detener los algoritmos de difusión anisotrópica. Además, un nuevo criterio es propuesto para seleccionar las curvaturas principales que conforman las estructuras curvilíneas, que se basa en los criterios propuestos por Steger, Deng et. al. y Armande et. al. Además, se propone un nuevo algoritmo para realizar la supresión de nomáximos que permite reducir la presencia de discontinuidades en el borde de las estructuras curvilíneas. Para extraer los bordes de las estructuras curvilíneas, se utiliza un algoritmo de enlace que incluye un nuevo criterio de distancia para reducir la aparición de agujeros en la estructura final. Finalmente, con base en los resultados obtenidos, se utiliza un algoritmo morfológico para cerrar los agujeros y se aplica un algoritmo de crecimiento de regiones para obtener la segmentación final de las vías respiratorias superiores.This dissertation proposes a new approach to segment the upper airways. This proposal allows the extraction of curvilinear structures based on the principal curvatures. The proposal allows extracting these structures from 2D and 3D images. Among the main novelties is the proposal of a new stopping criterion to stop the propagation of the contrast enhancement algorithm (multiscale top-hat morphological operator). In the same way, the proposed stopping criterion is used to stop the anisotropic diffusion algorithms. In addition, a new criterion is proposed to select the principal curvatures that make up the curvilinear structures, which is based on the criteria proposed by Steger, Deng et. al. and Armande et. al. Furthermore, a new algorithm to perform the non-maximum suppression that allows reducing the presence of discontinuities in the border of curvilinear structures is proposed. To extract the edges of the curvilinear structures, a linking algorithm is used that includes a new distance criterion to reduce the appearance of gaps in the final structure. Finally, based on the obtained results, a morphological algorithm is used to close the gaps and a region growing algorithm to obtain the final upper airways segmentation is applied.Doctor en IngenieríaDoctorad
    corecore