2,244 research outputs found

    New foundations for qualitative physics

    Get PDF
    Physical reality is all the reality we have, and so physical theory in the standard sense is all the ontology we need. This, at least, was an assumption taken almost universally for granted by the advocates of exact philosophy for much of the present century. Every event, it was held, is a physical event, and all structure in reality is physical structure. The grip of this assumption has perhaps been gradually weakened in recent years as far as the sciences of mind are concerned. When it comes to the sciences of external reality, however, it continues to hold sway, so that contemporary philosophers B even while devoting vast amounts of attention to the language we use in describing the world of everyday experience B still refuse to see this world as being itself a proper object of theoretical concern. Here, however, we shall argue that the usual conception of physical reality as constituting a unique bedrock of objectivity reflects a rather archaic view as to the nature of physics itself and is in fact incompatible with the development of the discipline since Newton. More specifically, we shall seek to show that the world of qualitative structures, for example of colour and sound, or the commonsense world of coloured and sounding things, can be treated scientifically (ontologically) on its own terms, and that such a treatment can help us better to understand the structures both of physical reality and of cognition

    The application of classical conditioning to the machine learning of a commonsense knowledge of visual events

    Get PDF
    In the field of artificial intelligence, possession of commonsense knowledge has long been considered to be a requirementto construct a machine that possesses artificial general intelligence. The conventional approach to providing this commonsense knowledge is to manually encode the required knowledge, a process that is both tedious and costly. After an analysis of classical conditioning, it was deemed that constructing a system based upon the stimulusstimulus interpretation of classical conditioning could allow for commonsense knowledge to be learned through a machine directly and passively observing its environment. Based upon these principles, a system was constructed that uses a stream of events, that have been observed within the environment, to learn rules regarding what event is likely to follow after the observation of another event. The system makes use of a feedback loop between three sub-systems: one that associates events that occur together, a second that accumulates evidence that a given association is significant and a third that recognises the significant associations. The recognition of past associations allows for both the creation of evidence for and against the existence of a particular association, and also allows for more complex associations to be created by treating instances of strongly associated event pairs to be themselves events. Testing the abilities of the system involved simulating the three different learning environments. The results found that measures of significance based on classical conditioning generally outperformed a probability-based measure. This thesis contributes a theory of how a stimulus-stimulus interpretation classical conditioning can be used to create commonsense knowledge and an observation that a significant sub-set of classical conditioning phenomena likely exist to aid in the elimination of noise. This thesis also represents a significant departure from existing reinforcement learning systems as the system presented in this thesis does not perform any form of action selection

    TALK COMMONSENSE TO ME! ENRICHING LANGUAGE MODELS WITH COMMONSENSE KNOWLEDGE

    Get PDF
    Human cognition is exciting, it is a mesh up of several neural phenomena which really strive our ability to constantly reason and infer about the involving world. In cognitive computer science, Commonsense Reasoning is the terminology given to our ability to infer uncertain events and reason about Cognitive Knowledge. The introduction of Commonsense to intelligent systems has been for years desired, but the mechanism for this introduction remains a scientific jigsaw. Some, implicitly believe language understanding is enough to achieve some level of Commonsense [90]. In a less common ground, there are others who think enriching language with Knowledge Graphs might be enough for human-like reasoning [63], while there are others who believe human-like reasoning can only be truly captured with symbolic rules and logical deduction powered by Knowledge Bases, such as taxonomies and ontologies [50]. We focus on Commonsense Knowledge integration to Language Models, because we believe that this integration is a step towards a beneficial embedding of Commonsense Reasoning to interactive Intelligent Systems, such as conversational assistants. Conversational assistants, such as Alexa from Amazon, are user driven systems. Thus, giving birth to a more human-like interaction is strongly desired to really capture the user’s attention and empathy. We believe that such humanistic characteristics can be leveraged through the introduction of stronger Commonsense Knowledge and Reasoning to fruitfully engage with users. To this end, we intend to introduce a new family of models, the Relation-Aware BART (RA-BART), leveraging language generation abilities of BART [51] with explicit Commonsense Knowledge extracted from Commonsense Knowledge Graphs to further extend human capabilities on these models. We evaluate our model on three different tasks: Abstractive Question Answering, Text Generation conditioned on certain concepts and aMulti-Choice Question Answering task. We find out that, on generation tasks, RA-BART outperforms non-knowledge enriched models, however, it underperforms on the multi-choice question answering task. Our Project can be consulted in our open source, public GitHub repository (Explicit Commonsense).A cognição humana é entusiasmante, é uma malha de vários fenómenos neuronais que nos estimulam vivamente a capacidade de raciocinar e inferir constantemente sobre o mundo envolvente. Na ciência cognitiva computacional, o raciocínio de senso comum é a terminologia dada à nossa capacidade de inquirir sobre acontecimentos incertos e de raciocinar sobre o conhecimento cognitivo. A introdução do senso comum nos sistemas inteligentes é desejada há anos, mas o mecanismo para esta introdução continua a ser um quebra-cabeças científico. Alguns acreditam que apenas compreensão da linguagem é suficiente para alcançar o senso comum [90], num campo menos similar há outros que pensam que enriquecendo a linguagem com gráfos de conhecimento pode serum caminho para obter um raciocínio mais semelhante ao ser humano [63], enquanto que há outros ciêntistas que acreditam que o raciocínio humano só pode ser verdadeiramente capturado com regras simbólicas e deduções lógicas alimentadas por bases de conhecimento, como taxonomias e ontologias [50]. Concentramo-nos na integração de conhecimento de censo comum em Modelos Linguísticos, acreditando que esta integração é um passo no sentido de uma incorporação benéfica no racíocinio de senso comum em Sistemas Inteligentes Interactivos, como é o caso dos assistentes de conversação. Assistentes de conversação, como o Alexa da Amazon, são sistemas orientados aos utilizadores. Assim, dar origem a uma comunicação mais humana é fortemente desejada para captar realmente a atenção e a empatia do utilizador. Acreditamos que tais características humanísticas podem ser alavancadas por meio de uma introdução mais rica de conhecimento e raciocínio de senso comum de forma a proporcionar uma interação mais natural com o utilizador. Para tal, pretendemos introduzir uma nova família de modelos, o Relation-Aware BART (RA-BART), alavancando as capacidades de geração de linguagem do BART [51] com conhecimento de censo comum extraído a partir de grafos de conhecimento explícito de senso comum para alargar ainda mais as capacidades humanas nestes modelos. Avaliamos o nosso modelo em três tarefas distintas: Respostas a Perguntas Abstratas, Geração de Texto com base em conceitos e numa tarefa de Resposta a Perguntas de Escolha Múltipla . Descobrimos que, nas tarefas de geração, o RA-BART tem um desempenho superior aos modelos sem enriquecimento de conhecimento, contudo, tem um desempenho inferior na tarefa de resposta a perguntas de múltipla escolha. O nosso Projecto pode ser consultado no nosso repositório GitHub público, de código aberto (Explicit Commonsense)

    Some Varieties of Superparadox. The implications of dynamic contradiction, the characteristic form of breakdown of breakdown of sense to which self-reference is prone

    Get PDF
    The Problem of the Paradoxes came to the fore in philosophy and mathematics with the discovery of Russell's Paradox in 1901. It is the "forgotten" intellectual-scientific problem of the Twentieth Century, because for more than sixty years a pretence was maintained, by a consensus of logicians, that the problem had been "solved"

    The Metaphysics of Mental Representation

    Get PDF
    The representational theory of mind (RTM) explains the phenomenon of intentionality in terms of the existence and nature of mental representations. Despite the typical characterisation of mental representations in terms of their semantics, RTM is best understood as a metaphysical – more specifically formal ontological – theory whose primary defining feature is stipulating the existence of a class of mental particulars called representations. In this regard it is false, since mental representations do not exist. My argument is primarily methodological. Using an extended analysis of mereology and its variants as paradigmatic examples of a formal ontological theory, I argue for a 'synthetic’ approach to ontology which seeks to form a sound descriptive characterisation of the relevant phenomena from empirical data, to which philosophical analysis is applied to produce a rigorous theory. The value and necessity of this method is proved by example in our discussion of mereology which is shown to be defensible given certain assumptions, in particular perdurantism, but still inadequate as an account of parthood without considerable supplementation. We also see that there are viable alternatives which adopt a more synthetic approach and do not require the same assumptions. Having effectively demonstrated the value of a synthetic approach in ontology I critically examine the methodology employed by RTM and find it severely lacking. In the guise of ‘commonsense psychology’ RTM cavalierly imposes a theoretical framework without regard to empirical data, and this results in a severe distortion of the phenomenon of intentionality it purports to explain. RTM is methodologically unsound, and so its commitment to the existence of mental representations is utterly undermined. Furthermore the most attractive aspect of RTM – its semantics – can be separated from any commitment to mental representations existing. Even RTM’s strongest advocates lack motivation to believe that mental representations exist

    Induction, complexity, and economic methodology

    Get PDF
    This paper focuses on induction, because the supposed weaknesses of that process are the main reason for favouring falsificationism, which plays an important part in scientific methodology generally; the paper is part of a wider study of economic methodology. The standard objections to, and paradoxes of, induction are reviewed, and this leads to the conclusion that the supposed ‘problem’ or ‘riddle’ of induction is a false one. It is an artefact of two assumptions: that the classic two-valued logic (CL) is appropriate for the contexts in which induction is relevant; and that it is the touchstone of rational thought. The status accorded to CL is the result of historical and cultural factors. The material we need to reason about falls into four distinct domains; these are explored in turn, while progressively relaxing the restrictions that are essential to the valid application of CL. The restrictions include the requirement for a pre-existing, independently-guaranteed classification, into which we can fit all new cases with certainty; and non-ambiguous relationships between antecedents and consequents. Natural kinds, determined by the existence of complex entities whose characteristics cannot be unbundled and altered in a piecemeal, arbitrary fashion, play an important part in the review; so also does fuzzy logic (FL). These are used to resolve two famous paradoxes about induction (the grue and raven paradoxes); and the case for believing that conventional logic is a subset of fuzzy logic is outlined. The latter disposes of all questions of justifying induction deductively. The concept of problem structure is used as the basis for a structured concept of rationality that is appropriate to all four of the domains mentioned above. The rehabilitation of induction supports an alternative definition of science: that it is the business of developing networks of contrastive, constitutive explanations of reproducible, inter-subjective (‘objective’) data. Social and psychological obstacles ensure the progress of science is slow and convoluted; however, the relativist arguments against such a project are rejected.induction; economics; methodology; complexity

    A Study of Commonsense Reasoning with Language Models

    Get PDF
    Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2021Artificial Intelligence (AI) has gone through an increasing growth in the past decades, which in the present day translates to its usage in almost every sector of society. From its inception, AI pursues the reproduction of human intelligence. Currently, AI¬equipped devices are capable of solving particular problems within specific domains with varying degrees of success. The goal and hope is that the combination of these systems will eventually approximate human intelligence. This dissertation addresses a problem in Natural Language Processing (NLP), a central subfield of AI that aims to produce devices capable of handling human language for problems such as translation, parsing, commonsense reasoning, and others. Deep learning has fueled state¬of¬the¬art NLP research. The current most prominent methodology leverages large scale neural networks and large amounts of data to achieve outstanding performances. Recent research has started to uncover how these neural networks obtain state¬of¬the¬art results. In some cases the models appear to latch on to so called data artifacts, whether they sustain valid generalizations or not, which happen to minimize loss w.r.t. the training dataset distribution. Although this is generally the rationale behind a machine learning approach, it can be error inducing, as models can fail miserably when the distribution of the input data differs from the training data. Our work reported in this dissertation investigates whether models learn to perform commonsense reasoning, a cognitively demanding task inherent to the human experience, by resorting to such shortcuts. Five state¬of¬the¬art models of different major types are trained to perform four most prominent commonsense reasoning tasks. Models undergo stress testing with five additional tasks devised to provide hints of possible shortcut learning and of memorization. The results indicate that the models seem to be resorting to shortcut learning in three of the four commonsense reasoning tasks; they seem to be learning a different task from the one the data is meant to convey by relying on spurious patterns present in the dataset. For example, the trained models can pick the answer from a set of options without even being supplied with the question they are meant to answer. Further experimentation confirmed that this behavior could not be attributed to memorization. This behavior is worrisome, as the field measures progress by the capabilities of these models to perform these tasks, and show that their cognitive abilities are disappointingly still low, susceptible to simple deceptions in spite of the overwhelming good scores obtained under mainstream performance metrics. Parts of this work have passed peer review and were accepted for publication (Branco et al., 2021a,b).A Inteligência Artificial (IA) teve um enorme crescimento nas últimas décadas, que se traduziu hoje em dia na sua utilização em quase todos os setores da sociedade. Por exemplo, está presente no sector financeiro, onde modelos neuronais são utilizados para fazer previsões em mercados financeiros; está presente na nossa vida social através das redes sociais, que utilizam modelos de IA para todo o tipo de tarefas e análises; esta dissertação aborda um problema de Processamento de Linguagem Natural (PLN), uma subárea da IA que visa produzir dispositivos capazes de usar e compreender a linguagem humana. Desde o início, a IA visa reproduzir a inteligência humana. Atualmente, produzimos dispositivos capazes de resolver problemas específicos, em domínios específicos, com algum grau de sucesso. A esperança para o futuro é que, através da combinação desses sistemas, as suas capacidades cognitivas conjuntas se aproximem da inteligência humana. Em PLN, os modelos são aplicados a vários problemas, como tradução, análise sintática, argumentação, raciocínio de senso comum, entre outros. Esta dissertação apresenta um estudo sobre consequências negativas da metodologia mais proeminente em PLN na sua aplicação ao raciocínio de senso comum, um desafio/tarefa central em IA. Essa metodologia consiste em utilizar redes neuronais de grande escala, geralmente modelos Transformer, e pré treiná¬los com grandes quantidades de texto através de modelação de linguagem. Dado este pré¬treino, onde as redes aprendem as nuances da linguagem natural, os modelos quando aplicados a tarefas específicas obtêm desempenhos excecionais, que podem em alguns casos rivalizar e até superar as capacidades humanas. O raciocínio de senso comum é uma tarefa clássica em IA, tendo sido objeto de estudo de um dos pioneiros da IA, John McCarthy. É uma capacidade humana essencial, que está em constante utilização, pois o conhecimento de senso comum emerge naturalmente da experiência humana: observar e atuar no nosso ambiente. É necessário raciocinar com este conhecimento de base para tomar decisões, por muito imediatas que sejam. Em PLN, as tarefas deste género geralmente são de pergunta & resposta que necessitam de raciocínio de senso comum para serem respondidas. Ensinar uma máquina, que por enquanto não consegue facilmente interagir com o ambiente e aprender dele, continua a ser um desafio central. A investigação recente começa a descobrir como as redes neuronais obtêm resultados que constituem o estado da arte. Por meio de aprendizagem por atalhos, os modelos prendem¬se aos chamados artefactos presentes nos dados, quer estes produzam generalizações válidas ou não, os quais procuram minimizar perdas relativamente à distribuição do conjunto de dados. Um exemplo deste fenômeno foi descoberto numa tarefa de SemEval 2018, Argument Reasoning Comprehension Task, onde os modelos classificavam texto através de palavras¬chave como “not”, “is”, “do” e “are”, que estavam altamente cor relacionadas com o resultado desejado. Embora minimizar as perdas com base em padrões nos dados seja a abordagem subjecente à aprendizagem automática, pode acabar por ser detrimental fazê¬lo, pois os padrões podem não refletir uma generalização sobre a tarefa em questão, mas podem resultar fortuita mente do processo de construção dos dados. Quando a distribuição dos dados muda, o que pode acontecer quando, por exemplo, utilizamos dados de entrada que podem ser consideravelmente diferentes dos dados de treino, os modelos exibem falhas aparatosas. Este trabalho investiga se os modelos realmente aprendem raciocínio de senso comum, uma tarefa cognitivamente exigente e inerentemente de cariz humano. Cinco modelos de Transformer de estado da arte são aplicados a quatro tarefas diferentes de raciocínio de senso comum, de modo a perceber a sua aptidão na tarefa e estabelecer dados comparativos. Dois modelos são escolhidos para serem submetidos a um teste de pressão, com cinco tarefas concebidas para obter indícios de aprendizagem por atalhos e memorização: (i) Treino com dados de entrada parciais (Partial Input Training), onde segmentos dos dados de entrada, essenciais para completar a tarefa, são retirados, e o efeito nos modelos é observado. Se os modelos forem capazes de cumprir a tarefa igualmente bem, então é um indício que estarão a usar arte factos nos dados. (ii) Ataque adversarial (Adversarial Attack), que consiste na utilização de algoritmos que modificam a frase de entrada, de forma que a semântica é conservada, e que levam o modelo a mudar a sua decisão para uma classificação errada. Se a degradação dos resultados for significativa, pode ser um indício de uma aprendizagem superficial, potenciada por atalhos nos dados. (iii) Contaminação de dados (Data Contamination), que procura descobrir se existe uma sobreposição entre os dados de teste de uma tarefa com os dados de pré¬treino. Como previamente referido, a metodologia mais atual utiliza grandes volumes de dados de texto para pré¬treinar modelos, que podem ser obtidos das mesmas fontes utilizadas para construir dados para outras tarefas. Os modelos têm capacidade de reter informação, portanto, podem utilizar mais tarde durante a avaliação, quebrando princípios de senso comum de testes de modelos: modelos devem ser testado em dados que não teram sido vistos previamente. (iv) Avaliação cruzada de tarefas (Cross¬Task Evaluation), que consiste em pegar num modelo treinado numa certa tarefa e avaliar noutra, sem que o modelo tivesse aprendendo¬a. Isto permite observar se há transferência de conheci mento, que seria possível pois as tarefas têm o mesmo conceito comum subjacente, que é raciocínio de senso comum. Caso haja degradação forte nos resultados, isto é indicativo que os modelos aprenderam atalhos que não foram transferidos para as outras tarefas, pois eram específicos aos dados onde treinou. (v) Exploração de atalhos (Shortcut Exploration), que investiga dois tipos de atalhos: desiquilíbrio de classes e “sinais” (cues) lexicais, que são palavras que fornecem indícios da classe pertencente a cada examplo. Modelos que são treinados com um conjunto de dados que tenha desiquilíbrio de classes conseguem obter melhores resultados ao tirar proveito desse desquilíbrio, enquanto que “sinais” lexicais providenciam um sinal útil para os modelos obterem uma boa prestação. As experiências mostram que os modelos parecem recorrer a aprendizagem por atalho em três das quatro tarefas. Na experiência (i), em três das quatro tarefas de raciocínio de senso comum, é possível chegar perto dos resultados impressionantes retirando segmentos dos dados fundamentais, no ponto de vista do raciocínio humano, para resolver a tarefa. Como exemplo, os modelos conseguem escolher respostas corretas a perguntas que não são fornecidas. Na experiência (ii), as mesmas tarefas sofreram uma degradação superior. No geral, a degradação é alta, mostrando que os modelos ainda são frágeis perante ataques adversários. Com a experiência (iii) observa¬se que embora existe diferentes níveis de contaminação dos dados das tarefas, estes não conseguem explicar os resultados obtido nas experiências anteriores, e, portanto, memorização não poderá ser o fenômeno conducente aos resultados obtidos. Na experiência (iv), verifica¬se que os modelos na sua maioria consegue transferir o seu conhecimento para outras tarefas, sem serem treinados nelas. Finalmente, na experiência (v), descarta¬se desiquilíbrio de classes como um possível atalho e identifica¬se alguns “sinais” lexicais presentes nos dados, embora que não são abrangentes o suficiente para explicar os resultados obtidos nas experiências (i), (ii) e (iv). Estes indícios mostram que os modelos não estarão a realizar a tarefa pretendida, em vez disso, estão a aprender e realizar tarefas diferentes que acontece que maximizam as métricas da tarefa pretendida, através de padrões encontrados nos dados. O facto de estes fenômenos se verificarem é preocupante por vários motivos. A área (PLN) consegue medir o progresso através da capacidade destes modelos realizarem tarefas, como as utilizadas nesta dissertação. Mas se os modelos conseguem obter bons resultados não através da tarefa pretendida, mas uma derivada, o progresso pode ser inflacionado. Outra preocupação refere¬se ao grande objetivo traçado desde o começo da área, a reprodução de inteligência humana. Dado que os modelos não aprendem as tarefas supostas, talvez por falta de especificação, e são suscetíveis a simples enganos como mudar apenas uma palavra para um sinónimo, é difícil de argumentar a capacidade cognitiva que eles possuem, por muito impressionante que seja o desempenho e tamanho. Investigação futura é necessária, através de uma revisão cuidadosa e comparação entre os métodos e procedimentos usados no desenvolvimento de dados, modelos e metodologia de treino. Partes deste trabalho foram alvo de revisão por pares e aceites para publicação (Branco et al., 2021a,b)

    Analysing the familiar : reasoning about space and time in the everyday world

    Get PDF
    The development of suitable explicit representations of knowledge that can be manipulated by general purpose inference mechanisms has always been central to Artificial Intelligence (AI). However, there has been a distinct lack of rigorous formalisms in the literature that can be used to model domain knowledge associated with the everyday physical world. If AI is to succeed in building automata that can function reasonably well in unstructured physical domains, the development and utility of such formalisms must be secured. This thesis describes a first order axiomatic theory that can be used to encode much topological and metrical information that arises in our everyday dealings with the physical world. The formalism is notable for the minimal assumptions required in order to lift up a very general framework that can cover the representation of much intuitive spatial and temporal knowledge. The basic ontology assumes regions that can be either spatial or temporal and over which a set of relations and functions are defined. The resulting partitioning of these abstract spaces, allow complex relationships between objects and the description of processes to be formally represented. This also provides a useful foundation to control the proliferation of inference commonly associated with mechanised logics. Empirical information extracted from the domain is added and mapped to these basic structures showing how further control of inference can be secured. The representational power of the formalism and computational tractability of the general methodology proposed is substantiated using two non-trivial domain problems - modelling phagocytosis and exocytosis of uni-cellular organisms, and modelling processes arising during the cycle of operations of a force pump
    corecore