8 research outputs found

    Structuring lecture videos for distance learning applications. ISMSE

    Get PDF
    This paper presents an automatic and novel approach in structuring and indexing lecture videos for distance learning applications. By structuring video content, we can support both topic indexing and semantic querying of multimedia documents. In this paper, our aim is to link the discussion topics extracted from the electronic slides with their associated video and audio segments. Two major techniques in our proposed approach include video text analysis and speech recognition. Initially, a video is partitioned into shots based on slide transitions. For each shot, the embedded video texts are detected, reconstructed and segmented as high-resolution foreground texts for commercial OCR recognition. The recognized texts can then be matched with their associated slides for video indexing. Meanwhile, both phrases (title) and keywords (content) are also extracted from the electronic slides to spot the speech signals. The spotted phrases and keywords are further utilized as queries to retrieve the most similar slide for speech indexing. 1

    Video text detection and extraction using temporal information.

    Get PDF
    Luo Bo.Thesis (M.Phil.)--Chinese University of Hong Kong, 2003.Includes bibliographical references (leaves 55-60).Abstracts in English and Chinese.Abstract --- p.iAcknowledgments --- p.viTable of Contents --- p.viiList of Figures --- p.ixList of Tables --- p.xList of Abbreviations --- p.xiChapter Chapter 1 --- Introduction --- p.1Chapter 1.1 --- Background --- p.1Chapter 1.2 --- Text in Videos --- p.1Chapter 1.3 --- Related Work --- p.4Chapter 1.3.1 --- Connected Component Based Methods --- p.4Chapter 1.3.2 --- Texture Classification Based Methods --- p.5Chapter 1.3.3 --- Edge Detection Based Methods --- p.5Chapter 1.3.4 --- Multi-frame Enhancement --- p.7Chapter 1.4 --- Our Contribution --- p.9Chapter Chapter 2 --- Caption Segmentation --- p.10Chapter 2.1 --- Temporal Feature Vectors --- p.10Chapter 2.2 --- Principal Component Analysis --- p.14Chapter 2.3 --- PCA of Temporal Feature Vectors --- p.16Chapter Chapter 3 --- Caption (Dis)Appearance Detection --- p.20Chapter 3.1 --- Abstract Image Sequence --- p.20Chapter 3.2 --- Abstract Image Refinement --- p.23Chapter 3.2.1 --- Refinement One --- p.23Chapter 3.2.2 --- Refinement Two --- p.24Chapter 3.2.3 --- Discussions --- p.24Chapter 3.3 --- Detection of Caption (Dis)Appearance --- p.26Chapter Chapter 4 --- System Overview --- p.31Chapter 4.1 --- System Implementation --- p.31Chapter 4.2 --- Computation of the System --- p.35Chapter Chapter 5 --- Experiment Results and Performance Analysis --- p.36Chapter 5.1 --- The Gaussian Classifier --- p.36Chapter 5.2 --- Training Samples --- p.37Chapter 5.3 --- Testing Data --- p.38Chapter 5.4 --- Caption (Dis)appearance Detection --- p.38Chapter 5.5 --- Caption Segmentation --- p.43Chapter 5.6 --- Text Line Extraction --- p.45Chapter 5.7 --- Caption Recognition --- p.50Chapter Chapter 6 --- Summary --- p.53Bibliography --- p.5

    Video text detection and extraction using temporal information.

    Get PDF
    Luo Bo.Thesis (M.Phil.)--Chinese University of Hong Kong, 2003.Includes bibliographical references (leaves 55-60).Abstracts in English and Chinese.Abstract --- p.iAcknowledgments --- p.viTable of Contents --- p.viiList of Figures --- p.ixList of Tables --- p.xList of Abbreviations --- p.xiChapter Chapter 1 --- Introduction --- p.1Chapter 1.1 --- Background --- p.1Chapter 1.2 --- Text in Videos --- p.1Chapter 1.3 --- Related Work --- p.4Chapter 1.3.1 --- Connected Component Based Methods --- p.4Chapter 1.3.2 --- Texture Classification Based Methods --- p.5Chapter 1.3.3 --- Edge Detection Based Methods --- p.5Chapter 1.3.4 --- Multi-frame Enhancement --- p.7Chapter 1.4 --- Our Contribution --- p.9Chapter Chapter 2 --- Caption Segmentation --- p.10Chapter 2.1 --- Temporal Feature Vectors --- p.10Chapter 2.2 --- Principal Component Analysis --- p.14Chapter 2.3 --- PCA of Temporal Feature Vectors --- p.16Chapter Chapter 3 --- Caption (Dis)Appearance Detection --- p.20Chapter 3.1 --- Abstract Image Sequence --- p.20Chapter 3.2 --- Abstract Image Refinement --- p.23Chapter 3.2.1 --- Refinement One --- p.23Chapter 3.2.2 --- Refinement Two --- p.24Chapter 3.2.3 --- Discussions --- p.24Chapter 3.3 --- Detection of Caption (Dis)Appearance --- p.26Chapter Chapter 4 --- System Overview --- p.31Chapter 4.1 --- System Implementation --- p.31Chapter 4.2 --- Computation of the System --- p.35Chapter Chapter 5 --- Experiment Results and Performance Analysis --- p.36Chapter 5.1 --- The Gaussian Classifier --- p.36Chapter 5.2 --- Training Samples --- p.37Chapter 5.3 --- Testing Data --- p.38Chapter 5.4 --- Caption (Dis)appearance Detection --- p.38Chapter 5.5 --- Caption Segmentation --- p.43Chapter 5.6 --- Text Line Extraction --- p.45Chapter 5.7 --- Caption Recognition --- p.50Chapter Chapter 6 --- Summary --- p.53Bibliography --- p.5

    Hidden Markov models for robust recognition of vehicle licence plates

    Get PDF
    In this dissertation the problem of recognising vehicle licence plates of which the sym¬bols can not be segmented by standard image processing techniques is addressed. Most licence plate recognition systems proposed in the literature do not compensate for dis¬torted, obscured and damaged licence plates. We implemented a novel system which uses a neural network/ hidden Markov model hybrid for licence plate recognition. We implemented a region growing algorithm, which was shown to work well when used to extract the licence plate from a vehicle image. Our vertical edges algorithm was not as successful. We also used the region growing algorithm to separate the symbols in the licence plate. Where the region growing algorithm failed, possible symbol borders were identified by calculating local minima of a vertical projection of the region. A multilayer perceptron neural network was used to estimate symbol probabilities of all the possible symbols in the region. The licence plate symbols were the inputs of the neural network, and were scaled to a constant size. We found that 7 x 12 gave the best character recognition rate. Out of 2117 licence plate symbols we achieved a symbol recognition rate of 99.53%. By using the vertical projection of a licence plate image, we were able to separate the licence plate symbols out of images for which the region growing algorithm failed. Legal licence plate sequences were used to construct a hidden Markov model contain¬ing all allowed symbol orderings. By adapting the Viterbi algorithm with sequencing constraints, the most likely licence plate symbol sequences were calculated, along with a confidence measure. The confidence measure enabled us to use more than one licence plate and symbol segmentation technique. Our recognition rate increased dramatically when we com¬bined the different techniques. The results obtained showed that the system developed worked well, and achieved a licence plate recognition rate of 93.7%.Dissertation (MEng (Computer Engineering))--University of Pretoria, 2002.Electrical, Electronic and Computer Engineeringunrestricte

    Scientific chart image recognition and interpretation

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH

    映像・音声認識・自然言語処理によるメタデータ生成の作業コスト削減に関する研究

    Get PDF
    筑波大学 (University of Tsukuba)201

    テレビ向けシーン検索技術及び番組推薦技術

    Get PDF
    近年,地上波ディジタル放送,BS(Broadcasting Satellite)ディジタル放送,CS(Communication Satellite)ディジタル放送等により,視聴可能なテレビ番組が増えている.加えて,HDD(Hard Disk Drive)の大容量化及びMPEG(Moving Picture Experts Group)やH.26x等での動画圧縮技術も進化している.こうした背景から,ユーザが保有するテレビやレコーダでのテレビ番組の量は膨大になっている.一方,視聴可能なテレビ番組がどんなに多くなっても,1日24時間という限られた時間の中でユーザがこれらのテレビ番組を視聴できる時間には限りがある.むしろ,行動の多様化や情報の大量化に伴い,ユーザがゆっくりとテレビ番組を楽しめる時間は減り,折角大量のテレビ番組を録画しても,これらをすべて観る時間はなくなってきている.また,視聴したいテレビ番組に対する選択肢が多くなった分,実際に視聴する際のテレビ番組の選択に時間がかかり,結局は観たい番組を選択できず,これらを観ることができないケースも増えている.さらに,見忘れ等も多くなり,折角録画機器があっても録画を忘れるケースも増えている.本研究では,これらの課題を解決し,大量のテレビ番組の中からユーザが興味ある番組を短時間で視聴可能とするために,ユーザが好むシーンのみを視聴可能とする「シーン検索機能」を実現する.また,テレビ番組をユーザが簡単かつ見落としなく視聴可能とするために,ユーザの好みに合ったテレビ番組を推薦及び自動録画可能とする「テレビ番組推薦機能」を実現する.特に,これらの機能を録画機能付きのテレビに付加可能とする.テレビはユーザにとって身近な製品とするため,コストに対する要求が厳しく,処理能力とユーザインターフェースに制限がある.また,このような制限がある中で,信頼性に影響を与える機能の精度や使い勝手に対する要求も厳しい.本研究では,特に,安価な300MHzのCPU,256MByteのメモリを搭載した普及型の録画機能付きテレビにおいてこれらの機能を付加可能とする.シーン検索機能では,テレビ番組の録画時に余っている計算リソースでシーンのインデクシングを可能とするため,CPU負荷3MHz,使用メモリ量0.5MByte以下でシーンのインデクシング可能な処理負荷とする.また,シーン検索時に問題となる「指定シーンとトピック開始位置のズレ問題」を解消する.テレビ番組推薦機能では,ユーザがテレビに対して何らかの処理要求を行った場合,結果が出てくるまでに待つことができる時間は長くて10秒程度であるため,本テレビ番組推薦機能では10秒以下で推薦処理可能とする.また,ユーザの好む番組を可能な限り過不足なく推薦するため,推薦適合率と再現率のバランスを最適化する.これを実現するために,シーン検索機能向けには,番組に付随する字幕情報を利用することでシーンキーワードを抽出し,シーンのインデクシングを行う方式を提案する.特に,テレビ番組のジャンル毎に共通のキーワードからなる定型句辞書と,番組に固有のキーワードからなる動画固有辞書による多重インデクシング方式を提案する.これら二種類の意味レベルの異なる辞書により,指定シーンとトピック開始位置のズレ問題を解決する.また,これらの辞書を用いたキーワードの符号化によるシーンの効率的な表現を提案する.従来技術では,インデクシング処理にCPU負荷として8MHz,使用メモリ量として2MByteを要し,シーン検索精度を示すF値は65.9%(適合率56%,再現率80%)である.これに対して提案方式では,インデクシングに必要となるCPU負荷を1.835MHz,必要メモリ量を0.384MByteとすることができる.また,シーン検索におけるF値を81.5%(適合率80%,再現率83%)とすることができる.これにより,普及型の録画機能付きテレビにおいて,CPUやメモリを追加あるいは変更することなくシーン検索機能を付加可能とした.テレビ番組推薦機能向けには,ユーザの嗜好を的確に表現する必要最低限のテレビ操作として,再生,予約,検索,録画を定義する.また,テレビ番組の重視属性として,番組タイトル,番組キーワード,番組ジャンル,放送チャンネル,放送時間を定義し,これらの重み付けにより推薦対象のテレビ番組に対するユーザの嗜好度を示す推薦スコアの計算方式を提案する.さらに,推薦スコアと推薦番組数の関係を示す“Number-Score Curve (N-S Curve)”を考案し,推薦番組数を制御することで,テレビ番組推薦における適合率と再現率のバランスを最適化する.従来技術では,300MHzのCPU,256MByteのメモリを搭載した普及型の録画機能付きテレビにおいて,一週間の番組(3000番組)に対する推薦処理に26秒を要し,推薦適合率と再現率は,それぞれ71%及び62%(F値=66.2%)である.これに対して提案方式では,同様の条件下で推薦処理を8秒で実施可能とし,テレビ番組推薦における適合率と再現率をそれぞれ82%及び78%(F値=79.9%)とすることができる.これによりテレビ番組推薦機能における適合率と再現率のバランスを改善し,普及型の録画機能付きテレビにおいて,CPUやメモリを追加あるいは変更することなくテレビ番組推薦機能を付加可能とした.さらに,本論文では,近年増加しているソーシャルメディアデータを活用した推薦の可能性についても検討し,世の中のトレンドを反映した推薦が可能であることを示す.これらにより,処理能力及びユーザインターフェースに制限があるテレビにおいて,好きなテレビ番組を見落としなく素早く選択して,そのシーンを短時間で視聴可能とし,近年多忙化する生活者が低価格なテレビを用いて,短時間で大量のテレビ番組を楽しむことを可能とした.電気通信大学201
    corecore