5 research outputs found

    Construction of the corpus of everyday Japanese conversation : An interim report

    Get PDF
    National Institute for Japanese Language and LinguisticsChiba University/National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsLREC 2018 Special Speech Sessions "Speech Resources Collection in Real-World Situations"; Phoenix Seagaia Conference Center, Miyazaki; 2018-05-09In 2016, we launched a new corpus project in which we are building a large-scale corpus of everyday Japanese conversation in a balanced manner, aiming at exploring characteristics of conversations in contemporary Japanese through multiple approaches. The corpus targets various kinds of naturally occurring conversations in daily situations, such as conversations during dinner with the family at home, meetings with colleagues at work, and conversations while driving. In this paper, we first introduce an overview of the corpus, including corpus size, conversation variations, recording methods, structure of the corpus, and annotations to be included in the corpus. Next, we report on the current stage of the development of the corpus and legal and ethical issues discussed so far. Then we present some results of the preliminary evaluation of the data being collected. We focus on whether or not the 94 hours of conversations collected so far vary in a balanced manner by reference to the survey results of everyday conversational behavior that we conducted previously to build an empirical foundation for the corpus design. We will publish the whole corpus in 2022, consisting of more than 200 hours of recordings


    Get PDF
    National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター『現日研・職場談話コーパス』は,現代日本語研究会が作成した,首都圏の有職女性19名(20代~50代)と,首都圏の有職男性21名(20代~50代)の職場での自然談話を文字起こししたテキストを元に作成したコーパスである。その元となっている文字化テキストは,『合本 女性のことば・男性のことば(職場編)』(現代日本語研究会編,2011年,ひつじ書房)の付録CD-ROMに収録されている。国立国語研究所に提供されたその文字化テキストをMeCab+UniDicで解析し,オンライン検索システム『中納言』にて『現日研・職場談話コーパス』として公開する。本発表では,『現日研・職場談話コーパス』の概要と特徴を述べる


    Get PDF
    NINJALNINJALNINJALNINJALNINJALNINJALNINJALThe University of Tokyo / NINJALNINJAL会議名: 言語資源ワークショップ2022, 開催地: オンライン, 会期: 2022年8月30日-31日, 主催: 国立国語研究所 言語資源開発センター2022年3月に公開した『日本語日常会話コーパス』(CEJC)は、成人中心のコーパスであり、未成年者、とくに 10 歳未満の子どもの会話はあまり含まれていないという問題がある。そこで国立国語研究所共同研究プロジェクト「多世代会話コーパスに基づく話し言葉の総合的研究」(2022~2027年度)では、子どもを中心とする多様な場面・相手との会話を含む映像付きコーパスを新たに開発し、成人中心のCEJCと接続させることにより、コミュニケーションを含む言語の発達・変化の過程を、子どもから高齢者まで多世代に渡り実証的に研究できる基盤を構築することを目指している。発表では、新たに構築する子ども版の日常会話コーパスの設計や収録状況について報告する