3 research outputs found

    Temporal Difference Learning in Complex Domains

    Get PDF
    PhDThis thesis adapts and improves on the methods of TD(k) (Sutton 1988) that were successfully used for backgammon (Tesauro 1994) and applies them to other complex games that are less amenable to simple pattem-matching approaches. The games investigated are chess and shogi, both of which (unlike backgammon) require significant amounts of computational effort to be expended on search in order to achieve expert play. The improved methods are also tested in a non-game domain. In the chess domain, the adapted TD(k) method is shown to successfully learn the relative values of the pieces, and matches using these learnt piece values indicate that they perform at least as well as piece values widely quoted in elementary chess books. The adapted TD(X) method is also shown to work well in shogi, considered by many researchers to be the next challenge for computer game-playing, and for which there is no standardised set of piece values. An original method to automatically set and adjust the major control parameters used by TD(k) is presented. The main performance advantage comes from the learning rate adjustment, which is based on a new concept called temporal coherence. Experiments in both chess and a random-walk domain show that the temporal coherence algorithm produces both faster learning and more stable values than both human-chosen parameters and an earlier method for learning rate adjustment. The methods presented in this thesis allow programs to learn with as little input of external knowledge as possible, exploring the domain on their own rather than by being taught. Further experiments show that the method is capable of handling many hundreds of weights, and that it is not necessary to perform deep searches during the leaming phase in order to learn effective weight

    Author index—Volumes 1–89

    Get PDF

    Análise do uso de formalização de conhecimento heurístico no ensino de jogos através do estímulo à alternância entre competição e colaboração

    Get PDF
    Resumo: Neste trabalho de doutoramento, verifica-se a hipótese de que o estímulo à formalização de conhecimento heurístico de jogo por aprendizes contribui para que estes compreendam melhor, os conceitos trabalhados no processo de aprendizagem. Sendo esta atividade de instrução apoiada por software, e privilegiando a alternância entre a colaboração e competição entre os estudantes. O projeto PROTEX, de apoio computacional ao ensino de xadrez nas escolas brasileiras, apresentado em Direne et al. (2004), descreve um ambiente educacional onde o aprendiz formaliza o seu conhecimento heurístico de jogo, e esta representação criada pode ser analisada, comentada, e usada por outros estudantes. E através de jogadores automáticos, a heurística especificada por um indivíduo pode ser validada, quando esta é utilizada como lógica de escolha de jogadas em uma partida automatizada. Alguns conceitos e ferramentas para este sistema foram anteriormente desenvolvidos por Martineschen et al. (2006), Feitosa et al. (2007) e Bueno et al. (2008), contudo até o presente estudo a eficácia desta abordagem não podia ser atestada. Com o intuito de realizar esta aferição, os seguintes objetivos foram alcançados por esta pesquisa: (1) realizou-se uma análise crítica, e uma revisão bibliográfica completa sobre os trabalhos acadêmicos e comerciais relacionados a este tema; (2) expandiu-se o conjunto de conceitos e softwares para permitir a competição artificial entre as especificações feitas; e (3) conduziu-se um estudo empírico sobre o uso deste novo ferramental, em um ambiente real de ensino e aprendizagem de xadrez. E a partir da análise dos resultados encontrados, constatou-se que a proposição inicial demonstrou-se válida
    corecore