8 research outputs found
오픈 사이언스 활성화를 위한 AI 기술 동향
오픈 사이언스는 과학지식과 데이터, 자료에 자유롭게 접근할 수 있게 함으로써 개방적인 정보 공유와 협력을 가능하게 하고, 나아가 사회 구성원들이 과학지식의 생산과 확산에 보다 적극적으로 참여하도록 하기 위한 움직임이다. 하지만 오픈 사이언스에 있어서 여러 제약 또한 존재한다. 이러한 오픈 사이언스를 효과적으로 지원하기 위해서는 기존 논문 출판 체계와 키워드 검색을 통한 자료 접근 이외에 좀 더 세분화된 지식의 구분과 이들의 연결, 접근 및 분석의 용이성을 강화할 필요가 있다. 최근의 AI 기술, 특히 AI 기반 자연어 처리 기술은 오픈 사이언스 활성화에 큰 역할을 할 수 있다. 이에 본 고에서는 오픈 사이언스를 위한 AI 기술 활용을 위해 현 상태를 점검하고 활용 방안을 논의하고자 한다
Causality Patterns and Machine Learning for the Extraction of Problem-Action Relations in Discharge Summaries
Clinical narrative text includes information related to a patient’s medical history such as chronological progression of medical problems and clinical treatments. A chronological view of a patient’s history makes clinical audits easier and improves quality of care. In this paper, we propose a clinical Problem-Action relation extraction method, based on clinical semantic units and event causality patterns, to present a chronological view of a patient’s problem and a doctor’s action. Based on our observation that a clinical text describes a patient's medical problems and a doctor's treatments in chronological order, a clinical semantic unit is defined as a problem and/or an action relation. Since a clinical event is a basic unit of the problem and action relation, events are extracted from narrative texts, based on the external knowledge resources context features of the conditional random fields. A clinical semantic unit is extracted from each sentence based on time expressions and context structures of events. Then, a clinical semantic unit is classified into a problem and/or action relation based on the event causality patterns of the support vector machines. Experimental results on Korean discharge summaries show 78.8% performance in the F1-measure. This result shows that the proposed method is effectively classifies clinical Problem-Action relations
Performance Analysis of Topic Classification Algorithms for Nation Digital Science Library’s Academic Achievements
Background/Objectives: Subject classification of thesis units is essential to serve scholarly information deliverables. However, to date, there is a journal-based topic classification, and there are not many article-level subject classification services. Methods/Statistical analysis: In this paper, we try to classify topics using unsupervised learning method. The unsupervised Learning Algorithms are a well-known Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA) and Latent Semantic Indexing (LSI) algorithms. Findings: In this paper, we can confirm that the classification algorithm should be used in accordance with the characteristics and purpose of the data. The LSI is used for a more intuitive data set, and the LDA is advantageous for applying a new term by classifying various keywords, and HDP seems to be advantageous for applying to a more detailed classification system. The limitations of this study are that algorithms such as LDA are sensitive to keywords and require detailed refinement of keywords. Improvements/Applications: When the reliability is improved on the basis of the major classification, it will become the subject classification of the thesis unit, and it will be possible to provide the subject classification service which is necessary for various institutions and researchers in various fields
기계학습 데이터 구축 현황과 이슈 - 과학기술 분야를 중심으로 -
정부는 코로나19 사태로 인한 극심한 경기침체의 극복과 경제의 구조적 대전환을 위하여 “한국판 뉴딜 종합계획”을 발표하였다. 한국판 뉴딜 계획의 중점 과제로 추진되는 ‘데이터댐’은 공공과 민간의 네트워크를 통해서 분야별 생성 데이터를 수집·가공하여 재구성한 데이터를 확충·연계하는 계획으로, 5G·AI 기반 융합 新산업 창출을 위한 데이터 인프라 구축을 목적으로 한다. 데이터댐을 구축하는 과정은 데이터를 가공하거나 결합시켜 새로운 데이터를 만들어야하기 때문에 많은 사람의 노력이 필요하다. 이러한 데이터댐 과제 수행의 일환으로 진행되는 ‘과학기술 기계학습 데이터 구축’을 통해 데이터 구축·공유·확산뿐만 아니라 일자리 창출 효과를 기대할 수 있다.
이번 이슈브리프에서는 데이터댐의 핵심인 AI와 기계학습 데이터에 대해 알아보고, 국ㆍ내외에서 공개된 기계학습 데이터의 유형별 구축 현황에 대해 살펴본다. 그리고 KISTI에서 추진하고 있는 ‘과학기술 기계학습 데이터 구축사업’의 배경과 추진 내용 등을 포함하여 기계학습 데이터의 활용 및 기대 효과에 대하여 소개하고자 한다. 그리고 끝으로 정부가 코로나19의 위기 속에서 정책적 추진하는 디지털 뉴딜이 성공하기 위한 조건을 살펴본다
