36 research outputs found

    An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese

    Get PDF


    Get PDF
    National Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター会話中には、相手の発話に応じ、何らかの反応を返す表現が多用される。本稿ではこれを「応答表現」と呼ぶ。頻出するのは、「うん」「はい」「ああ」などの感動詞と呼ばれる語である。従来、応答表現は、感動詞、あるいは応答詞と呼ばれるものを中心に議論されてきた。森山(1989, 2015)や吉田他(2009)は、応答表現として感動詞や応答詞だけでなく、それ以外の語も積極的に取り上げているが、そのように感動詞や応答詞以外の応答表現に着目して論じた研究はまだ少ない。そこで、『日本語日常会話コーパス』モニター公開版を用いて、応答表現として用いられる感動詞や、それ以外の語句を明らかにするために調査を進めている。本稿では感動詞と、いわゆる文末表現が応答表現として用いられる語句について報告する。その中には、先行研究ではあげていなかったような最近のものと思われる用例も得られたことをあわせて報告する


    Get PDF


    Get PDF
    国立国語研究所National Institute for Japanese Language and Linguistics第10回コーパス利用講習会,オンライン,2021/03/04 (木) 10:00-12:00,国立国語研究所音声言語研究領域・コーパス開発センタ


    Get PDF
    National Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2020, 開催地: オンライン, 会期: 2020年9月8日−9日, 主催: 国立国語研究所 コーパス開発センター会話中には,相手の発話に応じ,何らかの反応を返す表現が多用される。これを「応答表現」と呼ぶ。柏野(2019)では,『日本語日常会話コーパス』モニター公開版(小磯ほか2019)を対象に,応答表現用法があるととらえた感動詞の使用実態を報告した。また,文末表現が応答表現として用いられているものから(1)デス系,(2)ダ・ダロウ系,(3)ジャ・デハ系の三つの使用実態を報告した。本稿では,それら以外の文末表現の(4)カナ・カモ・ネ・ト系と,名詞,副詞,形容詞など,感動詞以外の品詞の語が応答表現として用いられている語について抽出し,(1)肯定・否定の反応を示す応答表現と,(2)感情(驚き・感心・喜び・落胆など)の反応を示す応答表現[(1)以外]という大きな2分類のもとで集計した結果を報告する

    〈共同研究プロジェクト紹介〉萌芽・発掘型 : テキストの多様性を捉える分類指標の策定 書籍サンプルの文体を分類する

    Get PDF
    国立国語研究所言語資源研究系文体研究などへのコーパスの有効活用を図るため,コーパスの書籍サンプルを文体によって特徴づけることを目的に,書籍サンプルの分類指標の設計と付与を行った。対象はBCCWJ図書館サブコーパス収録の全10,551サンプルである。テキスト構造が単純(例:章節構造)なもの(全体の84%)については,内容・表現の文体的特徴により,専門度,客観度,硬度,くだけ度,および語りかけ性度,という5観点による分類指標を定め,主観的評定によって評価値を付与した。また,テキスト構造・紙面形式などの点で上記分類になじまないもの(全体の16%)を見出し,その特徴を表す別の指標を設定した。これらを通じて,図書館サブコーパスに収録される全サンプルの多種多様な形式の類型ごとの分布や,各類型のNDC ごとの頻度が明らかになった。To facilitate the use of BCCWJ for writing style studies, we proposed a feature index system that characterizes the writing styles of the book samples in the corpus and then, following the proposed system, annotated all of the 10,551 samples included in its library subcorpus. For the samples with a simple text structure (84%), we chose five axes (specificity, objectivity, formality, softness, and spokenness) and assigned a five-dimensional index to each sample based on a subjective assessment. For the remaining samples (16%), that is, the samples with a complex text structure or some specific format, we employed a different set of feature annotations. This approach allowed a systematic analysis of the diverse writing styles of the samples included in the library subcorpus. Statistics such as the number of samples with a specific style feature, and correlations between the styles and NDC (Nippon Decimal Classification) categories were obtained


    Get PDF
    国立国語研究所国立国語研究所National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and Linguistics第10回コーパス利用講習会,オンライン,2021/03/04 (木) 10:00-12:00,国立国語研究所音声言語研究領域・コーパス開発センタ

    Design and Evaluation of the Corpus of Everyday Japanese Conversation

    Get PDF
    application/pdfNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsGraduate School of Humanities, Chiba UniversityNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsWe have constructed the Corpus of Everyday Japanese Conversation (CEJC) and published it in March 2022. The CEJC is designed to contain various kinds of everyday conversations in a balanced manner to capture their diversity. The CEJC features not only audio but also video data to facilitate precise understanding of the mechanism of real-life social behavior. The publication of a large-scale corpus of everyday conversations that includes video data is a new approach. The CEJC contains 200 hours of speech, 577 conversations, about 2.4 million words, and a total of 1675 conversants. In this paper, we present an overview of the corpus, including the recording method and devices, structure of the corpus, formats of video and audio files, transcription, and annotations. We then report some results of the evaluation of the CEJC in terms of conversant and conversation attributes. We show that the CEJC includes a good balance of adult conversants in terms of gender and age, as well as a variety of conversations in terms of conversation forms, places, activities, and numbers of conversants.conference pape

    Construction of the corpus of everyday Japanese conversation : An interim report

    Get PDF
    National Institute for Japanese Language and LinguisticsChiba University/National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsLREC 2018 Special Speech Sessions "Speech Resources Collection in Real-World Situations"; Phoenix Seagaia Conference Center, Miyazaki; 2018-05-09In 2016, we launched a new corpus project in which we are building a large-scale corpus of everyday Japanese conversation in a balanced manner, aiming at exploring characteristics of conversations in contemporary Japanese through multiple approaches. The corpus targets various kinds of naturally occurring conversations in daily situations, such as conversations during dinner with the family at home, meetings with colleagues at work, and conversations while driving. In this paper, we first introduce an overview of the corpus, including corpus size, conversation variations, recording methods, structure of the corpus, and annotations to be included in the corpus. Next, we report on the current stage of the development of the corpus and legal and ethical issues discussed so far. Then we present some results of the preliminary evaluation of the data being collected. We focus on whether or not the 94 hours of conversations collected so far vary in a balanced manner by reference to the survey results of everyday conversational behavior that we conducted previously to build an empirical foundation for the corpus design. We will publish the whole corpus in 2022, consisting of more than 200 hours of recordings


    Get PDF
    National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsMeiji University会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター本稿では「現代日本語書き言葉均衡コーパス」の図書館サブコーパスに含まれる小説(NDCで913, 923など)のサンプルにおける会話文に話者情報を付与した結果とそれを用いた分析について紹介する。付与したサンプル数は2,663サンプルである。付与した話者情報は「話者名、性別、年齢層」(これらは必須)のほか、「話者の社会的属性(職業など)、会話相手の情報、会話モード(電話での会話、方言での会話、外国人の会話等)」なども全てのサンプルにではないが付けている。「話者名、性別、年齢層」については、「中納言」の検索結果に表示することを計画している。また、その他の話者情報は、中納言のサイトからBCCWJ所有者に限りダウンロードできるようにする予定である。分析から分かったこととして以下の4点を挙げる。(1)小説の全センテンスの約4割が会話文であること。(2)性別では女性の会話文が全体の約3割であること。(3)年齢層では約75%が成年層の会話であり,若年層は約20%,老年層は約5%であること。(4)会話モードでは、電話による会話が全体の約4%程度あること。また、方言による会話文が約5,000あり、その多くは大阪を中心とした関西の方言であること