2 research outputs found
A NCaRBS analysis of SME intended innovation: Learning about the Don’t Knows
This study demonstrates a novel form of business analytics, respecting the quality of the data available (allowing incompleteness in the data set), as well as engaging with the uncertainty in the considered outcome variable (inclusive of Don’t Know (DK) responses). The analysis employs the NCaRBS technique, based on the Dempster–Shafer theory of evidence, to investigate the relationship between Small and Medium-sized Enterprise (SME) characteristics and whether they intended to undertake future innovation. The allowed outcome response for intended innovation was either, Yes, No and DK, all of which are considered pertinent responses in this analysis. An additional consequence of the use of the NCaRBS technique is the ability to analyse an incomplete data set, with missing values in the characteristic variables considered, without the need to manage their presence. From a soft computing perspective, this study demonstrates just how exciting the business analytics field of study can be in terms of pushing the bounds of the ability to handle real ‘incomplete’ business data which has real, and sometimes uncertain, outcomes. Further, the findings also inform how different notions of ignorance in evidence are accounted for in such analysis
Μηχανική Μάθηση στην Επεξεργασία Φυσικής Γλώσσας
Η διατριβή εξετάζει την χρήση τεχνικών μηχανικής μάθησης σε διάφορα στάδια της
επεξεργασίας φυσικής γλώσσας, κυρίως για σκοπούς εξαγωγής πληροφορίας από
κείμενα. Στόχος είναι τόσο η βελτίωση της προσαρμοστικότητας των συστημάτων
εξαγωγής πληροφορίας σε νέες θεματικές περιοχές (ή ακόμα και γλώσσες), όσο και
η επίτευξη καλύτερης απόδοσης χρησιμοποιώντας όσο το δυνατό λιγότερους πόρους
(τόσο γλωσσικούς όσο και ανθρώπινους). Η διατριβή κινείται σε δύο κύριους
άξονες: α) την έρευνα και αποτίμηση υπαρχόντων αλγορίθμων μηχανικής μάθησης
κυρίως στα στάδια της προ-επεξεργασίας (όπως η αναγνώριση μερών του λόγου) και
της αναγνώρισης ονομάτων οντοτήτων, και β) τη δημιουργία ενός νέου αλγορίθμου
μηχανικής μάθησης και αποτίμησής του, τόσο σε συνθετικά δεδομένα, όσο και σε
πραγματικά δεδομένα από το στάδιο της εξαγωγής σχέσεων μεταξύ ονομάτων
οντοτήτων. Ο νέος αλγόριθμος μηχανικής μάθησης ανήκει στην κατηγορία της
επαγωγικής εξαγωγής γραμματικών, και εξάγει γραμματικές ανεξάρτητες από τα
συμφραζόμενα χρησιμοποιώντας μόνο θετικά παραδείγματα.This thesis examines the use of machine learning techniques in various tasks of
natural language processing, mainly for the task of information extraction from
texts. The objectives are the improvement of adaptability of information
extraction systems to new thematic domains (or even languages), and the
improvement of their performance using as fewer resources (either linguistic or
human) as possible. This thesis has examined two main axes: a) the research and
assessment of existing algorithms of machine learning mainly in the stages of
linguistic pre-processing (such as part of speech tagging) and named-entity
recognition, and b) the creation of a new machine learning algorithm and its
assessment on synthetic data, as well as in real world data from the task of
relation extraction between named entities. This new algorithm belongs to the
category of inductive grammar learning, and can infer context free grammars
from positive examples only