321 research outputs found
Biblioteca digital de peças teatrais
Biblioteca Digital de Peças Teatrais - BDTeatro é um projeto para preservação, formatação, armazenamento e disseminação de Peças Teatrais. Este projeto foi desenvolvido pela Faculdade de Computação, Faculdade de Artes, Filosofia e Ciências Sociais e Biblioteca Central da Universidade Federal de Uberlândia - UFU. A Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG) forneceu parte do suporte financeiro para o PROJETO. BDTeatro foi proposto para resolver os problemas de preservação e disseminação de uma coleção com aproximadamente 800 peças teatrais em papel. Esta coleção apresenta sinais de deterioração e sua digitalização foi a motivação deste projeto. Adicionalmente, a ausência de um catálogo on-line e de um processo automatizado para pesquisa de informações na coleção também motivou o projeto. Este artigo descreve o desenvolvimento da Biblioteca Digital de Peças Teatrais, onde foi usada uma perspectiva interdisciplinar de trabalho, garantindo desta maneira, padrões de qualidade no processo de construção do catálogo, na entrada dos dados e nos mecanismos de pesquisa de informações na coleção.
Palavras-chave
Indexação automática; sistemas de recuperação da informação – Teatro; Teatro – Indexação e resumos; Teatro – pesquisa; Teatro – Pesquisa – Indexação e resumos; Bibliotecas digitais.
Digital library of theater plays
Abstract
Digital Library of Theater Plays - BDTeatro is a project for preservation, formatting, storage, and dissemination of theater plays. This project was developed by the School of Computation, School of Philosophy, Arts, and Social Science, and Central Library of Federal University of Uberlândia(UFU). The Foundation to Research Support of the Minas Gerais State (FAPEMIG ) provided partial financial support for the project. BDTeatro was proposed to deal with problems of preservation and dissemination of a collection with approximately eight hundred paper- ased theater plays. This collection presents signs of deterioration and its digitalization has motivated this project. Besides, the absence of an on-line catalogue and an automated process to search information in the collection has also motivated the project. This paper describes the development of the Digital Library of Theater Plays where an interdisciplinary perspective of work was used, assuring this way standards of quality in the process of building up the catalog, in text data entrance and in mechanisms of searching by information in the collection.
Keywords
Automatic Indexing; Information retrieval systems - theater; Theater – Indexing and abstracts; Theater – search; Theater – Search – Indexing and abstracts; Digital Libraries
Proposta de modelo de recomendação de conteúdo baseado em arquivos de legendas de filmes e séries
A crescente complexidade dos objetos armazenados e o grande volume de dados exigem modelos de recuperação e recomendação cada vez mais sofisticados. O objetivo deste trabalho é propor um modelo de recomendação de conteúdo baseado em arquivos de legendas de filmes e séries. Utilizando a ferramenta Apache Lucene, para recuperação da informação, e a ferramenta OGMA, para análise de textos, foi possível propor, para o modelo, três etapas distintas: uma pesquisa utilizando palavra-chave, a classificação de filmes e séries por gênero e a identificação de títulos similares. Também é apresentado uma adaptação ao modelo para identificar em cada título um sentimento, denominado análise de sentimentos. Como resultado ressaltamos que a pesquisa por palavras-chave gerourecomendações surpreendentes, já que proporcionam ao usuário liberdade de pesquisa dentro de um conteúdo específico. Já a classificação por gênero apresentou índice de 73% de acerto em comparação com os gêneros apresentados pelo site IMDb, facilitando a recomendação de conteúdo. A análise de sentimentos demonstrou recomendações com coesão, determinando títulos apropriados para cada sentimento. Por último, a identificação de títulos similares, apresentou resultados primários, trazendo apenas filmes e séries com a mesma temática, sem apresentar nenhum resultado em comum com o site IMDb. Concluiu-se que apesar da enorme dificuldade de ser assertivo na recuperação da informação, existevantagens em se utilizar os arquivos de legendas para ajudar na composição dos sistemas de recomendação
Avaliação da nova interface da Biblioteca Jurídica Digital (BDJur)
Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Faculdade de Ciência da Informação, 2017.Este trabalho tem como objetivo geral avaliar a usabilidade da interface do repositório
institucional do Superior Tribunal de Justiça, mais especificamente a Biblioteca
Jurídica Digital (BDJur), bem como ferramentas que auxiliam usuários em sua
navegação. Tendo em vista que todo ambiente digital voltado à informação deve ser
primeiramente pensado em seu usuário, o objetivo deste se dá em descrever o perfil
dos usuários da BDJur, caracterizar a interface, identificar dificuldades na interação,
identificar a satisfação e aspectos que a interface atual supera a anterior, e por fim
identificar sugestões dos usuários. Os dados do estudo se deram por questionário que
traçavam alguns objetivos diretos para então avaliar sua navegabilidade e uma
avaliação heurística proposta por Nielsen com profissionais da informação já
ambientados com repositórios digitais para ampliar a detecção dos problemas de
usabilidade. Entrevista com todos os participantes e a reunião de um grupo focal. O
resultado aponta que há poucas dificuldades de alta severidade de usabilidade em
toda BDJur e os questionários demonstraram uma alta ansiedade dos jovens
estudantes que logo desistem, têm pouca familiaridade com os termos utilizados e
anseiam por uma barra de pesquisa logo em sua página inicial. Já os profissionais
ambientados com a ferramenta e com a linguagem logo chegaram ao seu objetivo e
tão pouco reclamaram da navegabilidade, layout e usabilidade da BDJur. Porém, deve
salientar a falta de ferramentas para deficientes auriculares, visuais e motores, tendo
em vista que a BDJur é uma grande ferramenta para a população em geral se informar
de jurisprudências, de legislações pertinentes e de estudos doutrinários da área do
direito.This work aims to investigate the usability of the institutional repository of the Superior
Court of Justice, more specifically the Digital Law Library (BDJur), as well as tools that
help users navigate. Given that every digital information-based environment must first
be user-oriented of its, the purpose of this study, is to describe the behavior of a
sample that includes computer professionals, librarians, lawyers and students of these
areas of knowledge to identify possible problems with usability and identify difficulties in
interaction, as well as satisfaction and suggestions for improvements. The data of the
study were given by a questionnaire that outlined some direct objectives to evaluate its
navigability and a heuristic evaluation proposed by Nielsen with information
professionals already set up with digital repositories to increase the detection of
usability problems, interview with all participants and Meeting of a focal group. The
results point out that there are few difficulties of high severity of usability throughout
BDJur and the questionnaires showed a high anxiety of young students who soon give
up, have little familiarity with the terms used and look forward to a search bar soon on
their home page. The professionals acclimated with the tool and the professionals used
with language soon arrived at their objective. So little they complained of the
navigability, layout and usability of the BDJur. However, it should be noted that there is
a lack of tools for the hearing, vision and motor disabled, given that BDJur is a great
tool for the general population to learn about jurisprudence, relevant legislation and
doctrinal studies in the field of law
Padrões de metadados para fotografia digital
Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Faculdade de Ciência da Informação, Curso de Graduação em Biblioteconomia, 2017.Os metadados para fotografias digitais têm se tornando cada vez mais necessários no armazenamento e recuperação de imagens devido ao crescente volume de imagens produzidas e as diferentes possibilidades de usos de imagens, que requerem informações acerca de formatos, origens, assuntos, descrições e outros, que atestem sua autoria, ausência de manipulação, entre outros requisitos de informação. Com isso, os metadados para fotografia digital surgem para auxiliar na classificação dessas imagens auxiliando, assim, na obtenção de maior eficácia na recuperação das informações dessas imagens. Este trabalho teve como objetivo realizar uma análise sobre o padrão de metadados para fotografias digitais e, para tanto, definiu-se que poderia ser melhor desenvolvido por meio de uma pesquisa de caráter qualitativo e descritivo que auxiliou a identificar e classificar os padrões EXIF, IPTC e XMP utilizando como padrão de análise a proposta de categorização de Gilliland (2008) que classifica os metadados em cinco tipos: administrativos, descritivos, de conservação e de uso, a fim de categorizar as imagens fotográficas de forma mais completa. Os resultados obtidos nesta pesquisa indicam que o padrão EXIF possui metadados técnicos mais específicos. Por outro lado, o IPTC, é menos específico do que o EXIF no que diz respeito aos metadados técnicos, sendo mais rico em metadados descritivos. O padrão XMP, oferece conjuntos de elementos complementares que o tornam mais flexível do que os outros padrões. Observou-se que os padrões são complementares entre si, não sendo possível estabelecer algum tipo de hierarquia, considerando-se um padrão superior ao outro, mas apenas maior adequação em relação ao tipo de usuário e à forma de organização.Digital image metadata has become increasingly necessary in image retrieval, storage and search due to the increasing volume of images produced and the diferente possibilities of using images, which require information about formats, origins, and others that at test to their authorship, absence of manipulation, amongo ther information requirements. With this, the metadata for digital photography appears to help in the classification of these images, thus helping to obtain great efficiency in the retrieval of the information of these images. This work aimed to performan analysis on the metadata standard for digital photographs and, for that, it was defined that could be better developed through a qualitative and descriptive research that helped to identify and classify the EXIF, IPTC and XMP using the Gilliland categorization proposal (2008), which classifies the metadata in to five types: administrative, descriptive, conservation and use, in order to categorize the photographic images more complete. The results obtained in this research indicate that the EXIF standard has more specific technical metadata. On the other hand, the IPTC is less specific than EXIF for technical metadata, being richer in descriptive metadata. The XMP standard provides complementary sets of elements that make it more flexible than other standard. It was observed that the standards are complementary to each other, not being possible to establish some type of hierarchy, considering a standard superior to the other, but only greater adequacy in relation to the type of user and the purpose of the use of the image
Extração automática de documentos médicos da web para análise textual
Dissertação de mestrado integrado em Engenharia Biomédica (especialização em Informática Médica)A literatura científica na biomedicina é um elemento fundamental no processo de obtenção de
conhecimento, uma vez que é a maior e mais confiável fonte de informação. Com os avanços
tecnológicos e o aumento da competição profissional, o volume e diversidade de documentos médicos
científicos tem vindo a aumentar consideravelmente, impedindo que os investigadores acompanhem o
crescimento da bibliografia. Para contornar esta situação e reduzir o tempo gasto pelos profissionais na
extração dos dados e na revisão da literatura, surgiram os conceitos de Web Crawling, Web Scraping e
Processamento de Linguagem Natural, que permitem, respetivamente, a procura, extração e
processamento automático de grandes quantidades de texto, abrangendo uma maior gama de
documentos científicos do que os normalmente analisados de forma manual.
O trabalho desenvolvido para a presente dissertação teve como foco principal o rastreamento e recolha
de documentos científicos completos, do campo da biomedicina. Como a maioria dos repositórios da
web não disponibiliza, gratuitamente, a totalidade de um documento, mas sim apenas o resumo da
publicação, foi importante a seleção de uma base de dados adequada. Por este motivo, as páginas web
alvo de rastreamento foram restringidas ao domínio dos repositórios da editora BioMed Central, que
disponibilizam por completo, milhares de documentos científicos na área da biomedicina.
A arquitetura do sistema desenvolvido divide-se em duas partes principais: fase online e a fase offline. A
primeira inclui a procura e extração dos URLs das páginas candidatas a serem extraídas, a recolha dos
campos de texto pretendidos e o seu armazenamento numa base de dados. A segunda fase consiste no
tratamento e limpeza dos documentos recolhidos, deixando-os num formato estruturado e válido para
ser utilizado como entrada de qualquer sistema de análise de texto. Para a concretização da primeira
parte, foram utilizadas a framework Scrapy, como base para a construção do scraper, e a base de dados
de documentos MongoDB, para o armazenamento das publicações científicas recolhidas. Na segunda
etapa do processo, ou seja, na aplicação de técnicas de limpeza e padronização dos dados, foram
aproveitadas algumas das inúmeras bibliotecas e funcionalidades que a linguagem Python oferece.
Para demonstrar o funcionamento do sistema de extração e tratamento de documentos da área médica,
foi estudado o caso prático de recolha de publicações científicas relacionadas com Transtornos Obsessivo
Compulsivos. Como resultado de todo o procedimento, foi obtida uma base de dados com quatro
coleções de documentos com diferentes níveis de processamento.The scientific literature in biomedicine is a fundamental element in the process of obtaining knowledge,
since it is the largest and most reliable source of information. With technological advances and increasing
professional competition, the volume and diversity of scientific medical documents increased
considerably, preventing researchers from keeping up with the growth of bibliography. To circumvent this
situation and reduce the time spent by professionals in data extraction and literature review, the concepts
of web crawling, web scraping and natural language processing have emerged, which allow, respectively,
the search, extraction and automatic processing of large text, covering a wider range of scientific
documents than those normally handled.
The work developed for the present dissertation focused on the crawling and collection of complete
scientific documents from the field of biomedicine. As most web repositories do not provide the entire
document for free, but only the abstract of the publication, it was important to select an appropriate
database. For this reason, the crawled web pages have been restricted to the domain of BioMed Central
repositories, which provide thousands of scientific papers in the field of biomedicine.
The system architecture in question is divided into two main parts: the online phase and the offline phase.
The first one includes searching and extracting the URLs of the candidate pages to be extracted, collecting
the desired text fields and storing them in a database. The second phase is the handling and cleaning of
the collected documents, leaving them in a structured and valid format to be used as input to any text
analysis system. For the realization of the first part, it was used the Scrapy framework as the basis for
the construction of the scraper and the MongoDB document database for storing the collected scientific
publications. In the second step of the process, that is, for the application of data cleaning and
standardization techniques, some of the numerous libraries and functionalities that the Python language
offers are taken advantage of.
In order to demonstrate the operation of the document extraction system, the practical case of collecting
scientific publications related to Obsessive Compulsive Disorders was studied. As a result of the entire
procedure, a database with four document collections with different processing levels was obtained
Plataforma de ensino e pesquisa para área médica /
Orientador: Bonald Cavalcante de FigueiredoCo-orientador: Helio PedriniTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências da Saúde, Programa de Pós-Graduação em Saúde da Criança e do Adolescente. Defesa: Curitiba, 2007Inclui bibliografiaÁrea de concentração : Informática em saúd
Tesauros e ontologias sob a luz da teoria comunicativa da terminologia
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação. Programa de Pós-graduação em Ciência da InformaçãoO acelerado desenvolvimento das tecnologias de informação e comunicação promove um avanço vertiginoso na veiculação do conhecimento. Tal fato incide diretamente na comunicação entre especialistas que, por meio de linguagens de especialidade, laçam mão de terminologias próprias e específicas para transmitirem conteúdos informacionais das mais diversas áreas científicas e tecnológicas. Linguagens Documentárias são modelos de representação do conhecimento que, servindo como instrumentos de controle terminológico, auxiliam o processo de indexação e recuperação de documentos por assunto. O tesauro é uma linguagem documentária caracterizada pela especificidade e pela complexidade existente no relacionamento entre os termos que comunicam o conhecimento especializado. A ontologia é um modelo de representação do conhecimento que, a exemplo do tesauro, é utilizada para representar e recuperar informação por meio de uma estrutura conceitual (no caso da ontologia o meio de ação é o informático). A presente pesquisa consiste sobretudo na identificação, por meio de uma pesquisa documental, de aspectos que aproximam e distanciam os fundamentos do tesauro e o da ontologia. Para tanto, foi empregado, no plano metodológico, o Método de Análise de Conteúdo de Laurence Bardin. No plano teórico, a pesquisa está fundamentada pela Teoria Comunicativa da Terminologia (TCT) de Maria Teresa Cabré, que zela pelo caráter comunicativo no ambiente científico e técnico, baseando-se no uso social da linguagem efetivamente utilizada por especialistas. Para a constituição do corpus de análise foram utilizadas as bases de dados da Library and Information Science Abstracts (LISA), da Wilson Library Literature and Information Science Full Text e da Biblioteca Digital de Teses e Dissertações do IBICT (BDTD). A análise dos resultados e interpretações proporcionaram significativas contribuições aos estudos dos modelos de representação do conhecimento, visto que inúmeras características semelhantes e diferentes entre tesauros e ontologias foram identificadas e comentadas. Constatou-se que ambos os instrumentos se aproximam no que diz respeito ao esclarecimento dos aspectos relativos aos termos e suas estruturas conceituais. Suas diferenças se acentuam na esfera das aplicações, pois os recursos informáticos que suportam as ontologias as concedem objetivos que vão além daqueles atribuídos aos tesauros. The accelerated development of information and communication technologies fosters a vertiginous growth in the transmition of knowledge. Fact which come across communication among specialists, who by means of specialized languages, make use of their own particular terminologies in order to transmit informational content belonging to several scientific and technological areas. Documentary languages are models of knowledge representation. They can be employed as tools for terminology control and assistance in the process of indexing and retrieving documents by subject. Thesaurus is a documentary language characterized by the existing specificity and complexity found in the relationship among terms which communicate the specialized knowledge. Ontology is a knowledge representation model (taking for example the thesaurus) used for representing and retrieving information by means of a concept structure (in the case of ontology, its means of action is done through information technology). This piece of research consists specially of identifying, by means of a documental research, aspects which approximates and distantiate thesaurus's basis. The methodology used for this piece of research is that of Laurence Bardin's Content Analysis Method. The theoretical framework is affiliated to Maria Teresa Cabré's Communicative Theory of Terminology (CTT). This framework manage the communicative feature in the scientific and technical environment based on the social use of language effectively used by specialists. For the constitution of the corpus of analysis it was employed the Library and Information Science Abstracts' (LISA) database, Wilson Library Literature and Information Science Full text, and the Biblioteca Digital de Teses e Dissertações of IBICT (BDTD). Analysis and interpretation of the output provided meaningful contributions to the studies of knowledge representation models. It was possible to observe a large range of similar and different characteristics between thesauri and ontologies that were identified and commented. It was brought forth that both instruments get approached in what is referred to the clarifying of aspects related to terms and their conceptual structures. Their differences get highlighted in their application sphere while the informatic resources which supports ontologies concedes them objectives that goes beyond those attributed to thesauri
- …