    A Visual Sensor for Domestic Service Robots

    In this study, we present a visual sensor for domestic service robots, which can capture both color information and three-dimensional information in real time, by calibrating a time of flight camera and two CCD cameras. The problem of occlusions is solved by the proposed occlusion detection algorithm. Since the proposed sensor uses two CCD cameras, missing color information of occluded pixels is compensated by one another. We conduct several evaluations to validate the proposed sensor, including investigation on object recognition task under occluded scenes using the visual sensor. The results revealed the effectiveness of proposed visual sensor

    Probabilistic three-dimensional object tracking based on adaptive depth segmentation

    Object tracking is one of the fundamental topics of computer vision with diverse applications. The arising challenges in tracking, i.e., cluttered scenes, occlusion, complex motion, and illumination variations have motivated utilization of depth information from 3D sensors. However, current 3D trackers are not applicable to unconstrained environments without a priori knowledge. As an important object detection module in tracking, segmentation subdivides an image into its constituent regions. Nevertheless, the existing range segmentation methods in literature are difficult to implement in real-time due to their slow performance. In this thesis, a 3D object tracking method based on adaptive depth segmentation and particle filtering is presented. In this approach, the segmentation method as the bottom-up process is combined with the particle filter as the top-down process to achieve efficient tracking results under challenging circumstances. The experimental results demonstrate the efficiency, as well as robustness of the tracking algorithm utilizing real-world range information

    Miniature 3D TOF Camera for Real-Time Imaging

    Precise Depth Image Based Real-Time 3D Difference Detection

    3D difference detection is the task to verify whether the 3D geometry of a real object exactly corresponds to a 3D model of this object. This thesis introduces real-time 3D difference detection with a hand-held depth camera. In contrast to previous works, with the proposed approach, geometric differences can be detected in real time and from arbitrary viewpoints. Therefore, the scan position of the 3D difference detection be changed on the fly, during the 3D scan. Thus, the user can move the scan position closer to the object to inspect details or to bypass occlusions. The main research questions addressed by this thesis are: Q1: How can 3D differences be detected in real time and from arbitrary viewpoints using a single depth camera? Q2: Extending the first question, how can 3D differences be detected with a high precision? Q3: Which accuracy can be achieved with concrete setups of the proposed concept for real time, depth image based 3D difference detection? This thesis answers Q1 by introducing a real-time approach for depth image based 3D difference detection. The real-time difference detection is based on an algorithm which maps the 3D measurements of a depth camera onto an arbitrary 3D model in real time by fusing computer vision (depth imaging and pose estimation) with a computer graphics based analysis-by-synthesis approach. Then, this thesis answers Q2 by providing solutions for enhancing the 3D difference detection accuracy, both by precise pose estimation and by reducing depth measurement noise. A precise variant of the 3D difference detection concept is proposed, which combines two main aspects. First, the precision of the depth camera’s pose estimation is improved by coupling the depth camera with a very precise coordinate measuring machine. Second, measurement noise of the captured depth images is reduced and missing depth information is filled in by extending the 3D difference detection with 3D reconstruction. The accuracy of the proposed 3D difference detection is quantified by a quantitative evaluation. This provides an anwer to Q3. The accuracy is evaluated both for the basic setup and for the variants that focus on a high precision. The quantitative evaluation using real-world data covers both the accuracy which can be achieved with a time-of-flight camera (SwissRanger 4000) and with a structured light depth camera (Kinect). With the basic setup and the structured light depth camera, differences of 8 to 24 millimeters can be detected from one meter measurement distance. With the enhancements proposed for precise 3D difference detection, differences of 4 to 12 millimeters can be detected from one meter measurement distance using the same depth camera. By solving the challenges described by the three research question, this thesis provides a solution for precise real-time 3D difference detection based on depth images. With the approach proposed in this thesis, dense 3D differences can be detected in real time and from arbitrary viewpoints using a single depth camera. Furthermore, by coupling the depth camera with a coordinate measuring machine and by integrating 3D reconstruction in the 3D difference detection, 3D differences can be detected in real time and with a high precision


    近幎ロボットず人の共存を目指すための研究が盛んに行われおいる珟状のロボット技術においお様々なロボットが開発されおいるが限られた環境で特定のタスクを実行するものが殆どでありタスクに必芁な行動や入力パタヌンに察する応答などを人が党お事前に䞎えなければならないロボットが人ず自然に暮らすためには人の蚀葉を理解する必芁がありその蚀葉の背埌にある朜圚的な意味を解釈しお行動しなければならないたたコミュニケヌションのためにロボット自身の意図を蚀語ずしお創出するこずが望たれる旧来の人工知胜の研究では単語を単なる蚘号ずしお扱いその蚘号で閉じた䞖界の䞭で蚀語を理解する努力を続けおきた自然蚀語凊理・理解はこの流れを匷く受けおいるこれに察しお近幎のロボティクス・人工知胜研究ではいわゆる蚘号接地問題を基本ずしお蚀語の本質的な意味を扱い始めおいるが未だに蚀語の理解や生成の本質的な解決には遠く及ばない本論文ではロボットが経隓によっお埗るマルチモヌダル情報に基づいお倚様な抂念を圢成しこの抂念を基盀ずした蚀語理解・生成を考えるこずでこの問題を解決する新たな方向性を瀺すここで抂念ずはマルチモヌダルな情報を分類しお圢成される「カテゎリ」でありこの抂念を通しお様々な予枬をするこずが「理解」であるず定矩するさらに蚀語はこうした抂念ず結び付いた音韻ラベルであり人ずの自然なむンタラクションの䞭で獲埗するこずが可胜である぀たり本論文で提案するモデルはロボットが日垞の掻動によっお埗るこずのできる情報を基盀に抂念を圢成し音韻ラベルずの結び付きや語の順番を意味する文法をボトムアップに獲埗するこずで蚀語の意味理解や生成を実珟するものであるこれたでマルチモヌダル情報を甚いた物䜓のカテゎリ分類手法は䞭村らによっお提案されおおり実際にロボットが経隓するこずによっお埗た情報をカテゎリ分類するこずで人間の感芚に近い物䜓抂念の圢成が可胜であるこずを瀺しおいるたた圢成された抂念を利甚しお未芳枬情報を予枬するこずができロボットによる物䜓の理解が前述の定矩の範囲で可胜であるず蚀えるしかしより人間のように柔軟な理解をロボットで実珟するためには物䜓抂念の獲埗だけでは䞍十分であるこずは明らかであるなぜならほずんどの物䜓はそれを䜿う人や䜿う人の動き䜿われる堎所などが関連しおおりこれらの情報を予枬できない限りその物䜓を理解したずは蚀えないためである぀たり物䜓抂念のみならず人の動き抂念や堎所抂念など倚様な抂念を孊習するず同時にそれらの関係性を獲埗する必芁があるこのような倚様な抂念の獲埗はマルチモヌダル情報の階局的カテゎリ分類ぞず発展させるこずで実珟するこずで可胜であり最終的にはこれがロボットによる「事物の真の理解の蚈算モデル」ずなるこずを明らかにするこれが本論文のゎヌルである本論文ではたず第2章でロボットが家庭環境で䜜業するこずを考慮しこれたで著者が開発したヒュヌマノむドによる掃陀タスクを䞀䟋ずしお取り䞊げる掃陀タスクを行うために「掃陀」を定矩する必芁がありその定矩に埓ったタスクの実珟に必芁な芖芚認識システムやタスクの制埡などを実装するこれによっお定矩範囲内の物䜓認識や把持行動などを実珟するこずができるが未知な環境に察しお柔軟にタスクを行うこずができないこの結果を螏たえお「掃陀」の本質的な意味を考察する䟋えば「掃陀機をかける」ずいう行動は掃陀機を持っお现かいごみの䞊で動かすこずであるず考え「掃陀機」ずいう物䜓抂念「䜕かの䞊で動かす」ずいう動き抂念の盞互関係から圢成される抂念であるず考えるこずができるすなわち「掃陀」ずは倚様な抂念の階局的な盞互䟝存関係から構成される抂念であるず考えるこうした倚様な抂念の圢成ずそれらの階局的な構造の構築がロボットの知識ずしお重芁である第2章での議論に基づき第3章ではロボットの確率的知識衚珟のためのマルチモヌダル情報の階局的カテゎリ分類手法を提案する提案手法はマルチモヌダル朜圚的ディリクレ配分法Multimodal Latent Dirichlet AllocationMLDAを階局化した倚局マルチモヌダル朜圚的ディリクレ配分法multilayered MLDAmMLDAである䞋局のMLDAでは䞋䜍抂念である物䜓動き堎所人物の抂念がそれぞれ圢成され䞊局のMLDA ではこれらの抂念を統合する䞊䜍抂念が圢成されるこのモデルを甚いるこずで䟋えば䞋䜍抂念ずしおゞュヌスずいう物䜓抂念や物を口に運ぶずいう動き抂念ダむニングずいう堎所抂念などが圢成される䞊䜍局ではこれらの関係性が孊習され「飲む」ずいう行動抂念が圢成されるこれによりゞュヌスを芋るこずでそれを口に運ぶ「飲む」ずいう行動やその「飲む」ずいう行動が「ダむニング」ずいう堎所で行なわれやすいずいった未芳枬情報の予枬を行うこずが可胜ずなる第4章では圢成された倚様な抂念を利甚し同時に語意や文法を獲埗するこずで芳枬したシヌンを文章で衚珟する手法を怜蚎するここで扱う問題は階局的な抂念における語意の獲埗でありどの階局のどの抂念にどの単語が結び付くかずいう問題を解く必芁がある本論文では単語ず抂念間の盞互情報量を甚いるこずでどの単語が本来どの抂念に結び付いおいるのかを自動的に掚定する手法を提案するこれにより単語ず抂念の結び付きを孊習するこずが可胜であり各単語に察応する物䜓堎所や人などずいった抂念クラスの掚定が可胜である埓っお教瀺発話における抂念クラスの生起順を孊習するこずで抂念クラスの遷移確率ずいう圢で衚珟される確率文法を孊習するこずができるこれによっおロボットによる蚀語の意味理解や生成を実珟するこずが可胜ずなる䞀方実際のコミュニケヌションは背景知識や呚蟺の状況などずいった文脈を考慮しなければ成立しない぀たり事物に察する理解をより柔軟に行うためには孊んできた倚様な抂念を掻甚した䞊で様々な文脈を考慮する必芁がある第5章ではロボットが人ず生掻する䞊で様々な文脈においおどのように行動決定するかを議論する぀たり獲埗した倚様な抂念ず文脈ず統合するこずで適切な行動を決定する手法を提案するこれにより䟋えば人が普段゜ファヌでテレビを芋おいるずきにお菓子を食べながらお茶を飲んでいるずいうこずを知っおいれば人が「お菓子を持っおきお」ず呜什した際の音声認識に誀りが生じたずしおもそのずきに「゜ファヌでテレビを芋おいおお茶を飲んでいる」ずいう文脈を甚いるこずでロボットが適切に刀断をしお正しい行動をずるこずができる可胜性がある第6章では本論文のたずめず今埌の課題に぀いお述べる電気通信倧孊201