会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター情報交流の国際化に伴い多言語情報の充実は今や喫緊の課題である。特に固有名詞やPOI (points of interest)は膨大な数量に加え頻繁な名称変更にも対応する必要があるため，正確で充実した多言語辞書データ資源が必須だ。そこで，機械翻訳の作業効率と精度を格段に向上させる，超大規模辞書データ資源(Very Large Scale Lexica: VLSL)の構築例として，固有名詞・専門用語等を含む日中韓英辞書データベースや多言語固有名詞辞書データベースを紹介する。VLSLは情報検索・形態素解析・固有表現認識・用語抽出等，自然言語処理の幅広い分野に応用が可能で更なる展開が期待される

Jack HALPERN

春遍 雀來

会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター情報交流の国際化に伴い多言語情報の充実は今や喫緊の課題である。特に固有名詞やPOI (points of interest)は膨大な数量に加え頻繁な名称変更にも対応する必要があるため，正確で充実した多言語辞書データ資源が必須だ。そこで，機械翻訳の作業効率と精度を格段に向上させる，超大規模辞書データ資源(Very Large Scale Lexica: VLSL)の構築例として，固有名詞・専門用語等を含む日中韓英辞書データベースや多言語固有名詞辞書データベースを紹介する。VLSLは情報検索・形態素解析・固有表現認識・用語抽出等，自然言語処理の幅広い分野に応用が可能で更なる展開が期待される。application/pdf日中韓辭典研究所conference pape

春遍, 雀來

ハルペン, ジャック

HALPERN, Jack

Academic Repository of the National Institute for Japanese Language and Linguistics / 国立国語研究所学術情報リポジトリ

国立国語研究所学術情報リポジトリ機械翻訳用超大規模辞書データ資源著者 春遍 雀來雑誌名 言語資源活用ワークショップ発表論文集巻 1ページ 148-153発行年 2017URL http://doi.org/10.15084/00001468機械翻訳用超大規模辞書データ資源春遍雀來（日中韓辭典研究所）"Very Large Scale Lexical Resources for Machine Translation"Jack HALPERN (The CJK Dictionary Institute, Inc. (CJKI))　　要旨情報交流の国際化に伴い多言語情報の充実は今や喫緊の課題である。特に固有名詞や POI (points of interest)は膨大な数量に加え頻繁な名称変更にも対応する必要があるため，正確で充実した多言語辞書データ資源が必須だ。そこで，機械翻訳の作業効率と精度を格段に向上させる，超大規模辞書データ資源 (VeryLarge Scale Lexica: VLSL)の構築例として，固有名詞・専門用語等を含む日中韓英辞書データベースや多言語固有名詞辞書データベースを紹介する。VLSLは情報検索・形態素解析・固有表現認識・用語抽出等，自然言語処理の幅広い分野に応用が可能で更なる展開が期待される。　　１．はじめに　近年，科学技術・学術・文化等の多方面で諸外国との相互理解・交流の重要性が再認識されている。2020年の東京オリンピック開催に向け，多言語情報の充実は今や喫緊の課題となっている。IT技術の発達に伴い，多言語情報は企業から一般ユーザーまで広く活用されるようになったが，そのような技術に不可欠なのが豊富な情報を包括した大規模な辞書データ資源である。当研究所は，日中韓英を中心とする各種の辞書データベースの構築を行っており，固有名詞・専門用語の他，日本語の語彙・異表記等も含め約2400万項目を収録している。また，IT関連の大手企業に広く採用されている中日・日中専門用語データベースは20分野に亘る専門用語を網羅した日中対訳辞書である。更に，動詞と形容詞・形容動詞を扱った日本語全活用辞典(J_FULEX)の開発もある。これらの辞書資源は，人力による翻訳や機械翻訳の作業効率と精度を格段に向上させてきた一方，形態素解析・固有表現認識・用語抽出等，自然言語処理の幅広い分野で応用されている。??????ワ?クショップ2016?????148 2017?3?7?-8?　　２．多言語固有名詞辞書データベース辞書データ資源は翻訳のみならず，各種の言語データ処理の場面でも活用される。例えば自然言語処理に於いて特に扱いが難しい固有名詞では，多数の異表記（アラブ人名「アブドゥル・ラフマーン」には千通り以上のアルファベット表記がある）や平仮名表記の中国語訳（市町村名等）に対応しなければならない。また，一般語彙に於ける同義語（「ソフトウェア」は簡体字では「软件」，繁体字では「軟體」と表記）を処理する際にも辞書データベースは有用である。これらの点を踏まえ，当研究所では専門用語を含む膨大な辞書データベースの構築・拡張を続けている。　　３．POIの辞書データベースと機械翻訳地名や POI(points of interest = ホテル，公園，大学，施設等)は数が膨大である上，名称が変更される場合もある。各言語体系に基づく正しい表記が必要であるため，アルゴリズムによる全面的な自動処理での生成は不可能で，辞書データベースが必須となる。最先端のニューラル機械翻訳(NMT)ですら，POIの辞書データベースなしには学校名・道路情報での翻訳がほぼ不可能な事がGoogleの抜き取り調査から明らかになった。POIの辞書データベースを含む超大規模辞書データ資源の構築は半自動的に行われ，結果に求められる精度と費用を勘案して自動翻訳と人間翻訳の割合を決定する事になる。特に固有名詞の翻訳作業では字訳・音訳・意訳・意音訳による自動変換と，人間翻訳という５通りの手法が数えられ，実際にはこれらの多様な組み合わせが可能である。つまり自動処理の割合が高く，安価で速いが精度が上がりにくいものから，人間翻訳で高価だが翻訳としての正確さを期す（定訳を選択する）ものまで様々である。??????ワ?クショップ2016?????149 2017?3?7?-8?日本の地名・公共施設名日本語 成田国際空港 京都府庁中国語(簡体字) 成田国际机场 京都府厅中国語(繁体字) 成田國際機場 京都府廳韓国語 나리타국제공항 교토부청英語 Narita International Airport Kyoto Prefectural Officeアラビア語 راطم اتيران يلودلا بتكم ةظفاحم وطويكインドネシア語Bandar Udara InternasionalNaritaKantor Pemerintahan Kyotoベトナム語 Sân bay quốc tế Narita Tòa nhà chính quyền tỉnh Kyotoタイ語 สนามบินนานาชาตินาริตะ ทีว่า่การจังหวัดเกียวโตヒンディー語नारिता अंतिाराषषट्रीय हवाई अड्ा क्योत्यो परीफ़े्रीफ़ेक्चि मुर मुख्ालयロシア語Международный аэропортНаритаадминистрация префектуры Киотоドイツ語Internationaler Flughafen Narita Präfekturverwaltung Kyotoポルトガル語Aeroporto Internacional de Narita Sede do Governo de Quiotoスペイン語Aeropuerto Internacional deNaritaOficina Prefectural de Kyotoフランス語Aéroport international de Narita Préfecture de Kyotoイタリア語Aeroporto Internazionale di NaritaSede del Governo prefettizio di Kyoto??????ワ?クショップ2016?????150 2017?3?7?-8?　　４．日本語異表記データベース日本語は表記の幅が広い言語であり，日本語異表記の種類には，漢字表記・平仮名表記・片仮名表記・交ぜ書き等がある。更に片仮名語の異表記（コンピュータとコンピューター，メイドとメード等）も多数出現する。また，同音異形異義語の具体例には，うまい = 美味い，上手い，巧い等，意味や表記の揺れが認められる。更に，日本語を扱う際には意味互換性の度合いや同訓異字への対応，異表記の類型（送り仮名や文字種等），詳細な属性等きめ細やかな配慮が常に求められる。当研究所は自然言語処理で課題となるこれら異表記の問題を，データベースに全てを包括する事によって解消している。各種国語辞典・内閣告示・新聞や公用文に見られる表記・出現頻度等，様々な角度から総合的に判断した「代表表記」を定める作業が，現在も進行中である。日本語異表記辞書データサンプルID 読　み POS SUB_ID 表　記 代表表記F000043 あっせん VNa 斡旋あっせんb あっせんc あっ旋F000690 あかとんぼ NCa 赤とんぼ赤とんぼb 赤トンボc 赤蜻蛉d アカトンボe あかとんぼF000853 あきかん NCa 空き缶空き缶b 空缶c 明き罐d あき缶e あき罐f 空きかんg 空きカンh 空き罐i 空罐j 空き鑵k 空鑵F001543 あじつけ VNa 味つけ味付けb 味付けc 味付??????ワ?クショップ2016?????151 2017?3?7?-8?　５．固有名詞情報と VLSL(超大規模辞書データ資源)当研究所では，こうした異表記を網羅する日中韓英各語とアラビア語の大規模な辞書データ資源を提供しており，世界の大手企業もこれを採用している。中国語のデータベースには検証済みの正確なピンインも収録されている。先進的な計算辞書学の手法によって構築・維持された当研究所のデータ資源は，固有名詞・専門用語のほか，日本語の語彙・異表記・音韻等も含め，約2400万項目に上る。日中韓英固有名詞データベースの収録語数日英 日中 日韓中国人名 1,000,000 1,000,000 1,000,000中国地名 2,400 5,600 3,000韓国人名 13,000 2,100 13,000韓国地名 5,900 2,000 5,900日本人名 390,000 281,000 390,000日本人姓 150,000 91,000 150,000日本地名 77,000 74,000 77,000西洋人名 31,000 38,000 10,000西洋地名 1,100 2,500 1,800合  計 1,670,400 1,496,200 1,650,700「日中韓英固有名詞データベース」は日中韓英語の各種固有名詞辞典を含み，総計1100万項目に及ぶ大規模なデータベースである。その用途は機械翻訳，情報検索，形態素解析，電子辞書，入力システム，固有名認識等多岐に亘る。??????ワ?クショップ2016?????152 2017?3?7?-8?日中専門用語データベース分野 中国語 日本語医学 肾上腺素能受体 アドレナリン受容体生物 亲和性 親和性生物 亲和层析法 アフィニティークロマトグラフィ生物 琼脂扩散法 寒天拡散法生物 琼脂糖 アガロース生物 琼脂胶 アガロペクチン生物 类蛋白 アルブミノイド医学 类天花 アラストリム医学 变应性试验 アレルギー試験医学 变应性肉芽肿 アレルギー性肉芽腫　「中日日中専門用語データベース」は日中二ヶ国語の双方向対訳辞書である。コンピュータ科学からバイオテクノロジーに至る 20分野に亘る幅広い専門用語を収録しており，収録語は中日・日中それぞれ約 80万語，総計約 160万語に及ぶ。その用途は特許翻訳を含む各種翻訳業務，用語の抽出やインデックス作成に役立つ情報検索アプリケーション，形態素解析や分節システム等，各種の自然言語処理アプリケーション，スマートフォンアプリケーションや電子辞書・CD-ROM等多岐に亘る。　  ６．まとめ　POIの辞書データベースを含む VLSL(超大規模辞書データ資源)は各種の自然言語処理に向いており，とりわけ機械翻訳に有効である。コンピュータメモリーが無制限に拡大可能になった今日，自然言語処理に於いてはアルゴリズムやコーパスのみに過度に依存する必要はもはやない。VLSLや POIの辞書データベースの効果的な活用は固有名詞の翻訳精度を大幅に向上させるばかりではなく，情報検索や形態素解析・固有表現認識・用語抽出等，自然言語処理の幅広い分野に応用が可能であり，更なる展開が期待されるのである。??????ワ?クショップ2016?????153 2017?3?7?-8?

Very Large Scale Lexical Resources for Machine Translation

Jack, HALPERN

Institutional Repositories DataBase (IRDB)

機械翻訳用超大規模辞書データ資源

https://repository.ninjal.ac.jp/?action=repository_action_common_download&item_id=1484&item_no=1&attribute_id=48&file_no=1

機械翻訳用超大規模辞書データ資源

Abstract

Similar works

Full text

Available Versions

Academic Repository of the National Institute for Japanese Language and Linguistics / 国立国語研究所学術情報リポジトリ

Institutional Repositories DataBase (IRDB)