112 research outputs found

    特徴的な要素と用例頻度の関係 : 角を例とした一考察

    Get PDF
    国立国語研究所 コーパス開発センター 非常勤研究員Adjunct Researcher, Center for Corpus Development, NINJALコーパスの頻度情報は有用なデータであり,COBUILDやウィズダム英和辞典などの辞書に語や意味の重要度の指標として活用されている。ある対象物に関する様々な要素のうち重要なものは,テキストにおいて高頻度で言及されている可能性が高い。動物の身体部位語の頻度を調査したところ,ある動物において特徴的と考えられる角のような要素の頻度が高い傾向が見られた。また,対象物の有する要素とその頻度分布情報から,対象物を認識することも可能という実験結果も得られた。我々は対照する他物との差異となり得る特徴的な要素に着目し,それらが高頻度であることを期待する。しかし,高頻度であると期待される要素が,必ずしも高頻度で言及されていない場合がある。たとえば,それぞれ馬と人との差異として角を有するユニコーンと鬼を見ると,ユニコーンの角は期待通りの高頻度で言及されるが,鬼の角は頻度が低い。期待される頻度と実頻度に差の生じる一因は,用例において比喩表現に現れていた。外観上特徴的な要素は,形状を表す喩辞として用いられる傾向がある。ゆえに,固定的なイメージがない場合には比喩表現として用いられにくい。また,対照されやすい他動物が被喩辞となる比喩表現では,差異となる要素こそあえて言及する必要がない。このように,特徴的な要素と用例頻度の関係には,比喩表現のような表現形式が関わるため,頻度情報を用いる際には考慮が必要である。Many dictionaries, such as the Collins COBUILD English language dictionary and WISDOM English-Japanese Dictionary, use corpus frequency data as the basis for determining the importance of words or word meanings. Based on the corpus frequency data, we assume that the most characteristic elements of an object tend to be mentioned frequently in corpora. In this study, we investigated the use of words that describe animal body parts and their frequencies. If the characteristic attribute of a target animal has a high frequency in the corpora, we would be able to guess the target animal. For example, we expected tsuno ‘horn,’ a word that distinguishes one animal type from another, to be used frequently. In the case of unicorns, we found that its horn was mentioned frequently, as it distinguishes a unicorn from a horse. However, the horns of oni ‘devil’ were mentioned less frequently, even though it is a feature that distinguishes oni from human beings. Upon analysis of the corpora, it was revealed that oni are often used as metaphors for human beings. By contrast, unicorns are not used as metaphors for horses. Moreover, oni horns do not have the fixed image that unicorn horns do as a metaphor for its form. Our results lead to the conclusion that the tendency for the most characteristic feature of an object not to be mentioned is the effect of metaphors

    テキストからの対象物認識に有用な記述内容 : 動物を例に

    Get PDF
    国立国語研究所 コーパス開発センター プロジェクト研究員Postdoctoral Research Fellow, Center for Corpus Development, NINJALテキストの示す対象物を認識するために,どのような内容を記述することが有用か。本稿では,動物を例にした3種類の実験に基づく考察結果を報告する。複数辞書に共通して記載のある語釈,辞書の語釈に不足しているとされた情報を追加したテキスト,コーパス(現代日本語書き言葉均衡コーパス・Google日本語n-gram)から取得した用例を用い,それぞれのテキストから対象物を同定する実験を行った。どの実験結果でも正答率は半数程度にとどまり,テキストのみからの対象物認識は困難であった。また,対象物の認識に求められた情報は,主に読み手の経験や知識を喚起する情報と,提示された情報によって設定したカテゴリにおける他メンバーとの差異に関する情報であった。我々が実際目にするテキスト(コーパス)からは,個別的一般的な経験や知識は取得しやすく,予め読み手の保有している知識と合致した場合には有用な情報となる。しかし,対象物に関する知識が読み手に不足している場合,対象物の認識には親カテゴリのプロトタイプとの差異を記述することが有用であり,あるいは誤認を避けるために他メンバーとの差別化が可能な記述を行うことが有用であるとわかった。This paper reports what features of encyclopaedic descriptions are useful for recognising entities based on the results of three experiments on target object identification from texts. We used gloss descriptions of animals compiled from dictionaries (Experiment 1), texts with additional information not found in the dictionaries (Experiment 2), and usages acquired from corpora (Balanced Corpus of Contemporary Written Japanese, Google Japanese N-grams; Experiment 3). In all three experiments, the percentage of the entities which could be identified correctly from texts was only about half. Therefore, we conclude that it is difficult to recognise an entity based on its description in a text. The results of the three experiments suggest that the following information is important for the identification of the target: specific features selected based on participants\u27 personal experiences and information that would distinguish the target animals from other members in the ad hoc categories were important for identification of the target. When readers have knowledge about the target entities, individual or general experience and knowledge are easily obtained from corpora, as the actual texts are useful for readers\u27 recognition. In contrast, when readers have insufficient knowledge about the target entities, a description of the features that distinguish the target from the prototype of the superordinate category (ad hoc category) is useful

    テキストからの対象物認識に有用な情報提示順序 : 動物の説明文を用いた調査例

    Get PDF
    国立国語研究所 コーパス開発センター 非常勤研究員Adjunct Researcher, Center for Corpus Development, NINJALテキストに記された対象物を読み手が適切に認識するとき,どのような情報がどのような順序で提示されているのか。本稿は,実験協力者に順序を変えて対象物の特徴的情報を提示し,さまざまな条件でテキストに記述された対象物を同定する実験を行った。動物5種類計600通りのテキストを調査対象とし,クラウドソーシングを用いてのべ6,000人の実験協力者を得た。この実験の結果から,同じ情報の提示順序が異なることで読み手の対象物同定率が変化する場合,どのような情報が読み手の認識を促進もしくは阻害するのか調査した。また,情報増加と正答率の関係,誤答に至った情報提示順の分析を行うことで,提示した情報のカテゴリとプロトタイプが認識に及ぼす影響についても考察した。これらに基づき,テキストから対象物を認識するにあたって有用な情報とその効果的な提示順を提案する。The aim of this study was to evaluate the effect of text information ordering on object recognition. Large-scale subject experiments were conducted via crowdsourcing wherein the participants identified all possible target objects in the provided information passages. The results indicated that target objects were easily recognized when participants successfully categorized and compared them with the surrounding information; when target objects were not easily categorized, recognition was confused by the surplus information. From these data, the following order of information presentation was found to be optimal. First, information is presented that invokes readers\u27 general experience and leads them to imagine the category that includes the target object. At that time, the prototype of the category should be close to the target object. Second, the difference between the prototype and the target is presented to exclude other members in the category of the prototype

    Machine-driven parameter screen of biochemical reactions

    Get PDF
    The development of complex methods in molecular biology is a laborious, costly, iterative and often intuition-bound process where optima are sought in a multidimensional parameter space through step-by-step optimizations. The difficulty of miniaturizing reactions under the microliter volumes usually handled in multiwell plates by robots, plus the cost of the experiments, limit the number of parameters and the dynamic ranges that can be explored. Nevertheless, because of non-linearities of the response of biochemical systems to their reagent concentrations, broad dynamic ranges are necessary. Here we use a high-performance nanoliter handling platform and computer generation of liquid transfer programs to explore in quadruplicates 648 combinations of 4 parameters of a biochemical reaction, the reverse-transcription, which lead us to uncover non-linear responses, parameter interactions and novel mechanistic insights. With the increased availability of computer-driven laboratory platforms for biotechnology, our results demonstrate the feasibility and advantage of methods development based on reproducible, computer-aided exhaustive characterization of biochemical systems

    Digitization and Annotation of "A stylistic study of the figurative"

    Get PDF
    目白大学国立国語研究所 研究系Mejiro UniversityResearch Department, NINJAL国立国語研究所報告57『比喩表現の理論と分類』データの電子化を行った。主に同書における指標比喩用例と結合比喩リストのデータを検索や参照が容易な形式に整備した。また,同データに対して,比喩分類,喩辞・被喩辞,『分類語彙表』に基づく意味分類,指標(指標比喩のみ),結合,印象評定などの追加情報の付与を行った。付与情報により,新たな観点の調査や確認が可能となった。We digitized the National Language Research Institute Research Report "A stylistic study of the figurative" and constructed a database of figurative expressions in the Index (simile) and Combination (metaphor) systems. The database was designed to support the search for figurative expression examples in several respects. We also annotated the figurative expression classification, figurative index expressions (simile only), topic and vehicle pairs, and semantic categories with the "Word list by semantic principles," figurative combinations, and impression ratings. The annotation enabled us to explore the figurative expressions from new perspectives.application/pdfdepartmental bulletin pape


    Get PDF
    National Institute for Japanese Language and LinguisticsTsuda University / National Institute for Japanese Language and LinguisticsNational Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター『現代日本語書き言葉均衡コーパス』の書籍サンプル(PB(出版)10,117サンプル・LB(図書館)10,551サンプル・OB(ベストセラー)1,390サンプル)に付与された日本十進分類法(NDC)分類記号の補助分類を拡張した。また、開発当時NDC分類記号が付与されていなかったサンプル(「分類なし」)などの見直しもあわせて行った。作業は、国立国会図書館のNDC情報を参照し、人手によって分類の確認と追加を進めた。本作業結果により、たとえば形式区分を利用し、ジャンルの分散する「随筆(-049)」「理論(-01)」「研究法(-07)」などのカテゴリでBCCWJサンプルを分類することが可能となった。このほか、時代情報や小項目が追加されたサンプルもあり、今まで以上に詳細な分類が可能となった。本発表では、情報付与作業の方法と基礎情報を報告し、分類例を示す。本作業結果データは「中納言」の検索結果として利用可能となる

    Genre Attribute-related Annotations on Fiction Samples in the Balanced Corpus of Contemporary Written Japanese

    Get PDF
    目白大学国立国語研究所 研究系Mejiro UniversityResearch Department, NINJAL我々は『現代日本語書き言葉均衡コーパス』の書籍サンプルに含まれるすべての小説サンプルについて,小説の内容に関するジャンルや舞台設定等の分類情報(「推理」「SF」「アドベンチャー」「ロマンス」など)を付与した。分類情報の策定にあたっては,小説サンプルの取得された各書籍について,書店や出版社の分類情報をはじめ,小説の内容を表すと複数作業者が判断した特徴語句を広く収集し,結果を整理した。各小説サンプルには様々な分類項目を重複して付与した。本稿の作業により,これまで分類されていなかった小説の分類情報が付与された。新たに付与された分類情報により,分類別の語彙分布や文体特徴が確認できるようになった。本稿では,作業手順と情報付与結果を報告する。We categorized genres and settings (e.g., "Mystery," "Science," "Adventure," "Romance," and "Historical") for all fiction works in book samples from the Balanced Corpus of Contemporary Written Japanese. To design the descriptive genre attributes, we explored the classification items of bookshops and publishers. We also newly defined the classification items by exploring characteristic words and phrases in the fiction contents. Thus, we annotated the designed classification items of genre attributes in a multi-label classification setting. The work described in this study enabled the assignment of new classification information for fiction samples in the Balanced Corpus of Contemporary Written Japanese. The genre attributes enabled us to confirm the distribution of vocabulary and stylistic features. We reported the annotation procedures and results of the classification items of the genre attributes.application/pdfdepartmental bulletin pape


    Get PDF
    目白大学国立国語研究所Mejiro UniversityNational Institute for Japanese Language and Linguistic


    Get PDF
    Mejiro UniversityNational Institute for Japanese Language and Linguistics会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センター『現代日本語書き言葉均衡コーパス』の書籍サンプルにはNDC情報が付与されており,構築当時に情報のなかった書籍などへの増補も行われた(加藤ほか2021)。また,コーパスに付与されたNDCを利用することで,ジャンル別の特徴語の抽出などが試みられてきた(内田・藤井2015)。しかし,一般動詞など,多義的あるいは補助的に使用される語は,語義情報なしでは語彙としての分布傾向が見られにくく,ジャンル横断的な分布となる。そこで,本稿は,増補したNDC(加藤ほか前掲)を用いてジャンルの語彙分布を再確認するとともに,分類語彙表番号の付与されたBCCWJ-WLSP(加藤ほか2019)と重ね合わせることにより,語義分布に内容別の傾向が見られることを確認する

    FANTOM5 CAGE profiles of human and mouse samples

    Get PDF
    In the FANTOM5 project, transcription initiation events across the human and mouse genomes were mapped at a single base-pair resolution and their frequencies were monitored by CAGE (Cap Analysis of Gene Expression) coupled with single-molecule sequencing. Approximately three thousands of samples, consisting of a variety of primary cells, tissues, cell lines, and time series samples during cell activation and development, were subjected to a uniform pipeline of CAGE data production. The analysis pipeline started by measuring RNA extracts to assess their quality, and continued to CAGE library production by using a robotic or a manual workflow, single molecule sequencing, and computational processing to generate frequencies of transcription initiation. Resulting data represents the consequence of transcriptional regulation in each analyzed state of mammalian cells. Non-overlapping peaks over the CAGE profiles, approximately 200,000 and 150,000 peaks for the human and mouse genomes, were identified and annotated to provide precise location of known promoters as well as novel ones, and to quantify their activities