109 research outputs found
〈共同研究プロジェクト紹介〉独創・発展型 : 多様な様式を網羅した会話コーパスの共有化 会話コーパスの共有化に向けて : 転記方式の自動変換
千葉大学文学部話し言葉コーパスでは,音声収録・転記といった開発初期の負担が大きく,とくに会話に関しては大規模なコーパスは皆無である。国語研プロジェクト「多様な様式を網羅した会話コーパスの共有化」では,既存の会話コーパスの共有化というアプローチに着目し,コーパスに記述する基本情報を共通化し,共有するための方法論の構築を目指している。その手初めとして,プロジェクト内の会話コーパスの転記方式の違いを調査し,主要な転記方式である『日本語話し言葉コーパス』方式と会話分析方式の間の自動変換を試みた。変換精度はある程度高いものの,さらなる精度向上が必要な部分もあった。Developing spoken language corpora is difficult because of the tremendous effort required for recording and transcription, and this has hindered the construction of large-scale spoken language corpora. Our project aims at developing a methodology for sharing existing conversation corpora that cover diverse styles and settings. As a first step in this endeavor, we examined the different transcription conventions for corpora that have been developed by various researchers, and then attempted automatic conversion between CSJ-style and CA-style transcriptions. The accuracy of our method was quite high, although there is still room for improvement
A Conversation-Analytic Annotation of Turn-Taking Behavior in Japanese Multi-Party Conversation and its Preliminary Analysis
Tokyo University of TechnologyChiba UniversityNational Institute for Japanese Language and Linguistic
『日本語日常会話コーパス』データ公開方針 : 法的・倫理的な観点からの検討を踏まえて
国立国語研究所 研究系 音声言語研究領域千葉大学Spoken Language Division, Research Department, NINJALChiba University現在,国立国語研究所の機関拠点型基幹研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」で構築している『日本語日常会話コーパス』(CEJC)には,例えば自宅での家族との会話や飲食店での友人との会話,職場での同僚との打ち合せ,学校での同級生との雑談,散策時や車中の会話など,実に多様な場面の会話が含まれる。本コーパスは,音声データや転記テキストだけでなく,映像データについても公開する方針だが,こうした日常生活の中で記録された会話を,映像データも含めて公開したコーパスはこれまでにほとんど存在せず,データ公開のための方針を確立する必要がある。例えば,日常場面の会話を録画すると,映像データには公開の承諾を得ていない第三者の顔やテレビなどの著作物の写り込みが多く見られる。そこで,これまでに収録した多様な会話データをもとに具体的な問題を洗い出し,その対応について,肖像権や個人情報保護,著作権などの観点から,知財関連を専門とする弁護士と相談を重ねてきた。本稿では,これら一連の検討・議論を踏まえて定めたCEJC のデータ公開方針について報告する。Under the NINJAL collaborative research project, we started the compilation of a large-scale corpus of everyday Japanese conversation, the Corpus of Everyday Japanese Conversation (CEJC). The CEJC targets various kinds of naturally occurring conversations in daily situations, such as conversations during eating with the family at home, meetings with colleagues at work, and conversations while driving. A notable characteristic of the CEJC is that both audio and video data are collected and published. However, as virtually no corpora have contained video recordings of everyday conversations, guidelines have to be established on the release of such data in light of the potential ethical and legal issues of showing the faces of non-consenting third parties or copyrighted content such as TV programs. Based on a variety of data collected thus far, we discussed with a lawyer specializing in copyright and portrait right issues how to deal with such ethical problems. In this paper, we report a guideline for the release of the CEJC that we have established based on this discussion
『日本語日常会話コーパス』のデータ公開方針 : 法的・倫理的な観点から
会議名: 言語資源活用ワークショップ2017, 開催地: 国立国語研究所, 会期: 2017年9月5日-6日, 主催: 国立国語研究所 コーパス開発センター『日本語日常会話コーパス』には,自宅での家族との会話やレストランでの友人との会話,屋外の散策時の会話,職場・学校での同僚や学友との用談・会議など,実に多様な場面の会話が含まれる。こうした日常生活の中で記録された会話を,映像データを含めて公開するにあたり,プライバシー権・肖像権・個人情報保護などの観点から,また著作物の写り込みについては著作権の観点から,検討する必要がある。本稿では,これまでに収録した200時間を越える会話データをもとに具体的な問題を洗い出し,知財関連を専門とする弁護士と相談した上で整理したデータ整備・公開方針について議論する
会話における「そうしたら」と「そうすると」の出現状況 : 『日本語日常会話コーパス』を題材に
国立国語研究所 研究系 音声言語研究領域 非常勤研究員/千葉大学 博士課程千葉大学Adjunct Researcher, Spoken Language Division, Research Department, NINJAL / Doctoral Student, Chiba UniversityChiba University日本語の条件表現は,「タラ」「ト」「バ」「ナラ」等の多様な形式があり,これまで多くの研究者によって,各形式の統語的・意味的特徴を説明する理論が提案されてきた。しかし,実際の会話を対象にした定量的な研究は十分には行われていない。本研究は,条件表現のうち「そうしたら」と「そうすると」の2つの表現に着目し,2つの形式の選択要因を明らかにするために,『日本語日常会話コーパス』を用いて,3つの分析を行った。分析1では,従来議論されてきた前件の事実関係と条件表現形式の使用傾向について分析を行った。分析2では,特定の条件表現の用法に限定して,形式の使用傾向の分析を行った。分析3では,会話は参加者同士が協力して発話の理解を達成する共同的活動であるという観点から条件表現の形式の使用傾向の分析を行った。本研究の結果,「そうしたら」と「そうすると」の選択が前件の事実関係と強く関連していることが示された。また,分析結果に基づいて,条件表現の選択要因を検討し,これまでの研究では説明できない形式の使用を説明できることを示した。The Japanese language contains several forms of conditional clauses such as "tara," "to," "ba," and "nara," and numerous researchers have attempted to syntactically and/or semantically describe their differing functions. Prior studies usually focus on the theoretical usages of conditional clauses by examining if interchanging them, changes the sentences\u27 meanings; few studies examine how different conditional clauses are actually employed. To better understand this aspect, we analyzed the usages of conditional clauses in the Corpus of Everyday Japanese Conversation (CEJC, Koiso et al. 2017). In particular, we focused on the two most frequently appearing lexicalized expressions of Japanese conditional clauses in the CEJC – "soushitara" and "sousuruto." In Analysis 1, based on a traditional approach, we examined if the usage pattern of the two forms differed when the states of fact about antecedents varied. In Analysis 2, we selected conditional clauses associated with specific content from the corpus, subsequently examining whether the expressions of antecedents and/or consequents associated with the two conditional clauses differed. In Analysis 3, we reanalyzed data utilized in Analyses 1 and 2 by assuming that conversation is achieved by collaborative acts among agents to understand each other. Results revealed that although they may be syntactically and semantically interchangeable, "soushitara" and "sousuruto" are clearly employed in different ways, and differential usages can be attributed to variations in the states of fact about antecedents. In addition, the results of Analysis 3 provide an innovative way to differentiate between "soushitara" and "sousuruto" where no previous model or theory was applicable
Design and Evaluation of the Corpus of Everyday Japanese Conversation
application/pdfNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsGraduate School of Humanities, Chiba UniversityNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsWe have constructed the Corpus of Everyday Japanese Conversation (CEJC) and published it in March 2022. The CEJC is designed to contain various kinds of everyday conversations in a balanced manner to capture their diversity. The CEJC features not only audio but also video data to facilitate precise understanding of the mechanism of real-life social behavior. The publication of a large-scale corpus of everyday conversations that includes video data is a new approach. The CEJC contains 200 hours of speech, 577 conversations, about 2.4 million words, and a total of 1675 conversants. In this paper, we present an overview of the corpus, including the recording method and devices, structure of the corpus, formats of video and audio files, transcription, and annotations. We then report some results of the evaluation of the CEJC in terms of conversant and conversation attributes. We show that the CEJC includes a good balance of adult conversants in terms of gender and age, as well as a variety of conversations in terms of conversation forms, places, activities, and numbers of conversants.conference pape
Construction of the corpus of everyday Japanese conversation : An interim report
National Institute for Japanese Language and LinguisticsChiba University/National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and LinguisticsLREC 2018 Special Speech Sessions "Speech Resources Collection in Real-World Situations"; Phoenix Seagaia Conference Center, Miyazaki; 2018-05-09In 2016, we launched a new corpus project in which we are building a large-scale corpus of everyday Japanese conversation in a balanced manner, aiming at exploring characteristics of conversations in contemporary Japanese through multiple approaches. The corpus targets various kinds of naturally occurring conversations in daily situations, such as conversations during dinner with the family at home, meetings with colleagues at work, and conversations while driving. In this paper, we first introduce an overview of the corpus, including corpus size, conversation variations, recording methods, structure of the corpus, and annotations to be included in the corpus. Next, we report on the current stage of the development of the corpus and legal and ethical issues discussed so far. Then we present some results of the preliminary evaluation of the data being collected. We focus on whether or not the 94 hours of conversations collected so far vary in a balanced manner by reference to the survey results of everyday conversational behavior that we conducted previously to build an empirical foundation for the corpus design. We will publish the whole corpus in 2022, consisting of more than 200 hours of recordings
「日本語日常会話コーパス」への談話行為アノテーションの試み : タグ選択が困難な事例に焦点を当てて
National Institute for Japanese Language and LinguisticsWaseda UniversityChiba University,National Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター本研究では日常生活の中に生じた,具体的な文脈の中に埋め込まれた会話を扱った「日本語日常会話コーパス(CEJC)」に対する談話行為アノテーションの試みについて報告を行う。現在試行中の枠組みについて紹介した上で,実際のアノテーション作業の中で見出された談話行為の判断が困難な事例を示し,その要因についてCEJCの特性を参照しながら議論する
『日本語日常会話コーパス』モニター版の設計・評価・予備的分析
国立国語研究所 音声言語研究領域国立国語研究所 音声言語研究領域 非常勤研究員国立国語研究所 音声言語研究領域 非常勤研究員国立国語研究所 音声言語研究領域 非常勤研究員国立国語研究所 音声言語研究領域国立国語研究所 音声言語研究領域 非常勤研究員国立国語研究所 音声言語研究領域 非常勤研究員千葉大学国立国語研究所 コーパス開発センター 非常勤研究員Spoken Language Division, Research Department, NINJALAdjunct Researcher, Spoken Language Division, Research Department, NINJALAdjunct Researcher, Spoken Language Division, Research Department, NINJALAdjunct Researcher, Spoken Language Division, Research Department, NINJALSpoken Language Division, Research Department, NINJALAdjunct Researcher, Spoken Language Division, Research Department, NINJALAdjunct Researcher, Spoken Language Division, Research Department, NINJALChiba UniversityAdjunct Researcher, Center for Corpus Development, NINJAL国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」では,『日本語日常会話コーパス』(CEJC)の構築を進めている。CEJCは,日常会話の多様性を捉え自然な会話行動が観察できるよう,様々な種類の会話をバランスよく収めることを目標に掲げている。2021年度末に予定している本公開に先立ち,コーパスの利用可能性や問題などを把握するために,目標とする200時間のうち50時間の会話データについて,2018年12月にモニター公開を開始した。本稿ではまず,コーパスの設計について,会話の収録法,データの公開方針,調査協力者の内訳,コーパスの規模や構成などの観点から概観する。次に,収録されているデータが設計通りバランスがとれているかを,話者と会話の両面から検証する。最後に,コーパスを用いた予備的分析を通して,CEJCモニター版を活用した研究の可能性を示す。We have been constructing the Corpus of Everyday Japanese Conversation (CEJC) under the NINJAL collaborative research project since 2016. The CEJC is designed to contain various kinds of everyday conversations in a balanced manner to capture the diversity of everyday conversations and to observe natural conversational behavior. Prior to the publication of the whole corpus, which scheduled for 2022, we published the monitor version of the CEJC in December 2018. In this paper, we first outlined the design of the monitor version of the CEJC, including recording methods, the release policy of the corpus, corpus size, and annotations. Then, we examined whether the speakers and the conversations in the corpus vary in a balanced manner. Finally, we conducted a preliminary analysis on some linguistic aspects of the monitor version of the CEJC, revealing the possible implications of the corpus
『日本語日常会話コーパス』収録の進捗状況
会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター2016 年度から「大規模日常会話コーパス」プロジェクトによるコーパス『日本語日常会話コーパス』の構築が始まった。本発表では,日常会話の収録手続きの詳細や進捗状況について報告する。本プロジェクトでは,日常場面の中で自然に生じた会話を対象とするために,性別・年代などの点からバランスを考慮して選別された調査協力者に収録機材等を2 3 ヶ月程度貸し出し,協力者に日常会話を収録してもらう方法を採用している。研究者は収録場面に介在せず一般の協力者により独力で収録してもらうため,収録手続きや手順書などを工夫する必要がある。本コーパスの規模として,調査協力者40 名程度,合計時間200 時間を目指している。これまでに,18 名の調査協力者によって約190 時間の収録が完了している(うち6 名は収録調査中)。発表では収録に使用した機材や作成した手順書などについても具体的に紹介する
- …