3 research outputs found

    Bayesian Gaussian Process Models: PAC-Bayesian Generalisation Error Bounds and Sparse Approximations

    Get PDF
    Non-parametric models and techniques enjoy a growing popularity in the field of machine learning, and among these Bayesian inference for Gaussian process (GP) models has recently received significant attention. We feel that GP priors should be part of the standard toolbox for constructing models relevant to machine learning in the same way as parametric linear models are, and the results in this thesis help to remove some obstacles on the way towards this goal. In the first main chapter, we provide a distribution-free finite sample bound on the difference between generalisation and empirical (training) error for GP classification methods. While the general theorem (the PAC-Bayesian bound) is not new, we give a much simplified and somewhat generalised derivation and point out the underlying core technique (convex duality) explicitly. Furthermore, the application to GP models is novel (to our knowledge). A central feature of this bound is that its quality depends crucially on task knowledge being encoded faithfully in the model and prior distributions, so there is a mutual benefit between a sharp theoretical guarantee and empirically well-established statistical practices. Extensive simulations on real-world classification tasks indicate an impressive tightness of the bound, in spite of the fact that many previous bounds for related kernel machines fail to give non-trivial guarantees in this practically relevant regime. In the second main chapter, sparse approximations are developed to address the problem of the unfavourable scaling of most GP techniques with large training sets. Due to its high importance in practice, this problem has received a lot of attention recently. We demonstrate the tractability and usefulness of simple greedy forward selection with information-theoretic criteria previously used in active learning (or sequential design) and develop generic schemes for automatic model selection with many (hyper)parameters. We suggest two new generic schemes and evaluate some of their variants on large real-world classification and regression tasks. These schemes and their underlying principles (which are clearly stated and analysed) can be applied to obtain sparse approximations for a wide regime of GP models far beyond the special cases we studied here

    Machine learning on Web documents

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2004.Includes bibliographical references (leaves 111-115).The Web is a tremendous source of information: so tremendous that it becomes difficult for human beings to select meaningful information without support. We discuss tools that help people deal with web information, by, for example, blocking advertisements, recommending interesting news, and automatically sorting and compiling documents. We adapt and create machine learning algorithms for use with the Web's distinctive structures: large-scale, noisy, varied data with potentially rich, human-oriented features. We adapt two standard classification algorithms, the slow but powerful support vector machine and the fast but inaccurate Naive Bayes, to make them more effective for the Web. The support vector machine, which cannot currently handle the large amount of Web data potentially available, is sped up by "bundling" the classifier inputs to reduce the input size. The Naive Bayes classifier is improved through a series of three techniques aimed at fixing some of the severe, inaccurate assumptions Naive Bayes makes. Classification can also be improved by exploiting the Web's rich, human-oriented structure, including the visual layout of links on a page and the URL of a document. These "tree-shaped features" are placed in a Bayesian mutation model and learning is accomplished with a fast, online learning algorithm for the model. These new methods are applied to a personalized news recommendation tool, "the Daily You." The results of a 176 person user-study of news preferences indicate that the new Web-centric techniques out-perform classifiers that use traditional text algorithms and features. We also show that our methods produce an automated ad-blocker that performs as well as a hand-coded commercial ad-blocker.by Lawrence Kai Shih.Ph.D

    木編集距離の宣言的意味に基づく階層とその計算に関する研究

    Get PDF
    WebにおけるHTMLデータやXMLデータ,バイオインフォマティクスにおけるRNAや糖鎖データのような根付きラベル付き木(以後,木という)として表現される木構造データを比較することは,構造データからのデータマイニングや機械学習における重要な研究の一つである.そのような木同士の距離として有名なものの一つに木編集距離がある.木編集距離は,ノードの削除,挿入,置換からなる編集操作を用いて,一方の根付き木から他方の木への変換に必要な編集操作列の最小コストとして定式化される.2つの木の間の編集操作列は無数に存在するため,操作列をすべて計算して木編集距離を求める方法は現実的ではない.そこでTaiは,木編集距離計算の指針として,木編集距離に宣言的意味を与えるTaiマッピング(以後単にマッピングともいう)を導入した.このTaiマッピングは,先祖子孫関係(および順序木の場合は兄弟関係)を保持する木のノード間の一対一対応であり,Taiマッピングの最小コストは木編集距離と一致する.木編集距離の計算時間は,順序木の場合はノード数nに対してO(n3)時間であるが,無順序木の場合はMAX SNP困難である.一方,糖鎖データではノードのつながりに意味があるためそのつながりを崩さないような制約が求められ,XMLデータでは根ノードから一定のノードはどの木にも共通する場合があり,より葉ノードに重点を置いた距離が求められる.このように,対象によっては木編集距離は過度に一般的となるため,他方では計算効率を上げるという目的の下に,宣言的意味であるマッピングに制限を加えることで木編集距離のさまざまな変種が研究されている.特に,RNA解析などで利用され,削除の前に挿入を行う木編集距離でもある木アライメント距離の計算は,順序木の場合はノード数nに対してO(n4)時間,無順序木の場合は一般にMAX SNP困難であるが,次数が限定されている木のときは多項式時間で計算できる.このアライメント距離は,2つの木の超木となるアライメント木の最小コストとして定式化することができ,Taiマッピングに制限を加えた劣制限マッピングの最小コストと一致する.本論文では,まず,マッピングへの制限をTaiマッピングの階層として捉え,この階層を共通部分森,特に,共通部分森中のノードの接続と部分木の並びの観点から見直すことで,木編集距離の変種の計算における本質について研究する.また,これらの観点によって新たに導入されるマッピングについて,それらの最小コストとなる編集距離の変種の時間計算時間を解析する.また,木アライメント距離に対して,森アライメント構築の高速化を目的として導入されたアンカーアライメント問題が提唱されている.これは,アンカーと呼ばれるマッピングを入力とし,そのアンカーでの対応を保持したアライメント木を構築する問題であるが,このアンカーはTaiマッピングであり,劣制限マッピングでないマッピングがアンカーとして入力されると木が構築することができない.そこで本論文では,木アライメント距離の宣言的意味が劣制限マッピングとなることの構成的な別証明を与え,その構成方法を利用することで,アンカーアライメント問題の出力を,アライメント木が構築できない場合は”no”を返す形に定式化する.また,それに基づくアンカーアライメント距離を定式化し,アンカーアライメント距離とアライメント距離を実データをもとに比較する.さらに,順序木より一般的であり,無順序木より制限された巡回的順序木を提案し,巡回的順序木間でのアライメント距離を計算するアルゴリズムを設計する.最後に,木編集距離に関するさまざまな内容として,無順序木編集距離を計算する動的A∗アルゴリズムの設計,Taiマッピングの根無し木への拡張,巡回的順序木と次数制限無順序木のマッピングカーネルの設計を行う.無順序木編集距離を計算するアルゴリズムとしては,既に,複数の下限関数を用いるHiguchiらのA∗アルゴリズムが導入されているが,これには計算の重複が存在するため,改善の余地がある.本論文では,その重複計算を動的計画法を用いて省いた動的A∗アルゴリズムを導入する.また,実験により,下限関数の効率を確認する.また,根付き木Taiマッピングは木編集距離に対応する重要な概念であるが,このTaiマッピングを根無し木に拡張するためには,単射であることに加えて,先祖子孫関係に代わる条件を導入する必要がある.そこで,ZhangらがLCA保存マッピングを根無し木に拡張する際に用いた中心に着目し,根無し木のマッピングを導入する.特に,根無し木としてよく表現される進化系統樹を特徴づける条件である4点条件と3点条件を木のトポロジーを特徴づける条件に変更し,それぞれの条件を保存するようなマッピングを導入する.さらに,サポートベクターマシンを利用して木を分類するための基本的な方法の1つである木カーネルは順序木について多く研究がおこなわれており,そのほとんどが,順序木間のマッピングを数え上げるマッピングカーネルのフレームワークに分類される.一方で,無順序木のカーネルは,その計算の難しさからほとんど研究がなされていない.そこで,巡回的順序木と,次数を定数Dに制限した無順序木に対するマッピングカーネルを設計し,それらの計算時間について議論する.九州工業大学博士学位論文 学位記番号:情工博甲第332号 学位授与年月日:平成30年3月23日第1章 はじめに|第2章 木編集距離と木アライメント距離|第3章 共通部分森に基づくTaiマッピング階層|第4章 木アライメント距離の計算|第5章 さまざまな拡張|第6章 結論と今後の課題九州工業大学平成29年
    corecore