4 research outputs found
Design & Implementation of a PDF to Excel Conversion Tool (P2X)
The conversion of a portable document structures into an editable format is formally described. Conversion of paper based documents to electronic form is a necessity encountered by public and private sectors. The converted electronic form may not be editable. There are several applications that need documents in editable or plain text form. In this thesis we address this problem with the design and implementation of a conversion tool, P2X. The conversion tool was developed to automatically convert batches of PDF tabular data to editable spreadsheet format using a novel approach. We show that significant improvements to the quality of data conversion can be achieved at insignificant cost and with minimal complexity.Computer Science Departmen
Uma proposta de aplicação integrada para a transferência automática de documentos estruturados por meio da web, utilizando serialização de objetos e meta-linguagem XML
Orientador: Carlos Alberto Picanço de CarvalhoDissertação (mestrado) - Universidade Federal do Paran
ISLE: Konzeption und Realisierung eines verteilten XML-basierten Informationssystems
Die rasante Entwicklung von XML (eXtensible Markup Language) als neue Web-Sprache eröffnet weitreichende Möglichkeiten zur flexiblen Realisierung von verteilten Informationssystemen. Diese Diplomarbeit beschreibt den grundlegenden Aufbau und die Erfahrungen, die bei der Entwicklung eines universitären Informationssystems auf der Basis von XML gesammelt wurden. Das Resource Description Framework (RDF) wurde dabei als konzeptuelle Grundlage zur Datenmodellierung eingesetzt. Zur Manipulation von XML-Dokumenten wurde eine CORBA-basierte Schnittstelle verwendet. Durch eine zur Zeit noch kaum in der Praxis eingesetzte Technologie-Kombination konnten viele Schwierigkeiten heutiger Informationssysteme mit vergleichsweise geringem Aufwand umgangen werden. Das Datenmodell wird durch eine XML-basierte Speicherungsorganisation realisiert. Die Daten werden transparent im WWW verteilt, der Zugriff darauf erfolgt mittels des HTTP-Protokolls. Dadurch daß die in XML semantisch ausgezeichneten Informationsobjekte maschinell verarbeitet werden können, lassen sich aus dieser verteilten Datenstruktur alle benötigten Informationen extrahieren und für eine detaillierte Recherche aufbereiten. Weiterhin verfügen die Daten über einen hohen Grad der Wiederverwendbarkeit und lassen sich beispielsweise zur automatischen Generierung von Dokumenten und zur Archivierung in einer digitalen Bibliothek einsetzen. Für die Präsentation der Informationen ist ein Java-Modul zuständig, das die Interpretation und Formatierung der XML-Daten direkt vom Client-Rechner aus, entsprechend den benutzerspezifischen Präferenzen, ermöglicht, die ebenfalls in Form einer XML-Datei im lokalen Dateisystem des Nutzers gespeichert werden können. Durch die Verlagerung der Datenmanipulierung auf den Client wird die Server-Last minimiert. Ein ebenfalls in Java realisierter Server für XML-Dokumente ermöglicht die Client-basierte Bearbeitung von Dokumenten über eine CORBA-Schnittstelle. Mehrere Benutzer mit unterschiedlichen Zugriffsrechten können somit gemeinsam XML-Dokumente durch ein Web-Browser-Interface editieren. Die Diplomarbeit geht darauf ein, welche Vorteile und Probleme die Verwendung von XML und der verteilten Architektur aufgeworfen hat, und stellt die grundlegenden Prinzipien und Techniken vor, die dabei eingesetzt wurden
Informationssysteme auf der Basis aktiver Hypertextdokumente
Die Arbeit beschäftigt sich mit der Implementierung von
Informationssystemen, die mittels Web-Techniken wie etwa der Hypertext
Markup Language (HTML), des Hypertext Transport Protocols (HTTP) oder
der Extensible Markup Language (XML) erstellt werden. Web-basierte
Informationssysteme werden verstärkt eingesetzt, um vollständige
Applikationen für die Abwicklung von Geschäftsprozessen zu
implementieren. Die Ausgangslage für die Arbeit ist das Fehlen formeller
Modelle, mit der solche Systeme umgesetzt werden können, kombiniert mit
dem Aufkommen neuer Anwendungsgebiete wie der
Business-to-Business-Kopplung mittels Web-basierter Systeme. Im Verlauf
der Arbeit werden bestehende Systeme analysiert um darauf aufbauend die
Anforderungen für ein Modell zur Beschreibung und Realisierung
Web-basierter Anwendungen festzulegen. Das daraus entwickelte Modell
stellt die Information, die in solchen Anwendungen ausgetauscht und
verarbeitet wird, in den Vordergrund, und setzt als wichtigstes
Beschreibungsmittel Hypertextdokumente ein, welche um aktive Komponenten
ergänzt zu aktiven Hypertextdokumenten (AHDs) werden. Das Modell für
aktive Hypertextdokumente (AHDM) umfaßt ein Informationsmodell, welches
den Aufbau aktiver Hypertextdokumente beschreibt, ein
Kommunikationsmodell zur Regelung des Informationsaustausches, ein
Objektmodell für die Definition des Zusammenspiels der aktiven
Bestandteile eines AHDs und ein Laufzeitmodell für die tatsächliche
Ausführung der aktiven Bestandteile. Aktive Hypertextdokumente werden
als XML-Dokumente realisiert, die entsprechend dem Informationsmodell
neben den ursprünglichen Nutzdaten auch Funktionen und Variablen
enthalten. Neben dem Modell wird auch eine Vorgehensweise beschrieben,
die den Einsatz aktiver Hypertextdokumente erleichtern soll. Die
Praktikabilität des Modells wird anhand von Beispielanwendungen
demonstriert, die von einfachen, eigenständigen Anwendungen hin zu
kooperativen, vernetzten Anwendungen mit mobilen Dokumenten reichen. Die
zur Nutzung aktiver Hypertextdokumente notwendigen Werkzeuge werden
ebenfalls beschrieben