本プログラムの詳細および使用方法については、氏名突合支援サービスサポートサイトをご参照ください。
氏名漢字カナ突合モデルは、氏名の漢字またはアルファベット表記と、その読みであるカタカナ表記を突合するモデルです。
本モデルは、以下の3つの機能を備えています。
-
氏名漢字カナ突合機能
漢字またはアルファベット表記の氏名とカタカナ表記の氏名を入力し、それらが一致しているかを判定します。判定結果は0〜100の数値で返され、数値が高いほど一致度が高いことを示します。
-
氏名カタカナ推計機能
漢字またはアルファベット表記の氏名を入力すると、推定される読みのカタカナ表記を、推定確率の高い順に出力します。
-
氏名漢字推計機能
カタカナ表記の氏名を入力すると、対応する漢字またはアルファベット表記の氏名を、推定確率の高い順に出力します。
本モデルでは、漢字・アルファベットとその読みであるカタカナのペアをデータとして使用しています。
使用したデータは以下の通りです。利用にあたっては、各データのライセンスをご確認ください。
各機能のアルゴリズムの詳細については、氏名突合支援サービスサポートサイトの「氏名漢字カナ突合モデル」をご参照ください。
漢字・アルファベットとその読みであるカタカナの辞書を用いて突合を行い、入力された氏名が一致しているかを判定します。
使用する辞書データは、上記「使用データ」からダウンロードし、スクリプトを用いて作成可能です。
詳細は、dictをご参照ください。
なお、作成した辞書モデルで使用する辞書ファイルは、氏名突合支援サービスの「リソース」で配布しています。
アルファベット表記の氏名とカタカナ表記の氏名を入力とし、 「日本語(ローマ字表記)–英語表記部分対応表」に基づいて突合を行います。
詳細は以下の文献をご参照ください。
佐藤 理史. 2020 東京オリンピック参加者名簿の翻訳. 自然言語処理, Vol.30, No.2, pp748-772, 2023.
上記「使用データ」から抽出した漢字・アルファベットとカタカナのペアを用いてデータセットを作成し、Transformerモデルで学習を行います。
学習時には、漢字・アルファベットおよびカタカナを一文字単位で分割し、Transformerに入力・出力として与えます。
詳細は、trainをご参照ください。
作成したモデルは以下の2種類です。
-
漢字・アルファベットからカタカナを推論するモデル
氏名漢字カナ突合機能および氏名カタカナ推計機能で使用します。
学習方法の詳細については,training.ipynb、
学習済みモデルを用いてのファインチューニングの方法の詳細については、finetuning.ipynbをご参照ください。 -
カタカナから漢字・アルファベットを推論するモデル
氏名漢字推計機能で使用します。
学習方法の詳細は、training_r.ipynbをご参照ください。
事前学習済みモデルは、氏名突合支援サービスサポートサイトの「リソース」で配布しています。
本モデルは、コマンドラインから実行可能なプログラムとして提供されています。
また,氏名突合支援サービスの内部でも利用しています。
プログラムの詳細は、coreをご参照ください。
AIモデルはPythonのPyTorchで構築されており、PythonおよびJavaによる推計サンプルを提供しています。
詳細はsampleをご参照ください。
本モデルに含まれる外国人モデル(アルファベット氏名とカタカナ氏名の突合モデル)は、名古屋大学の佐藤理史教授が作成したRubyプログラムをJavaに移植したものです。
- 佐藤 理史. 2020 東京オリンピック参加者名簿の翻訳. 自然言語処理, Vol.30, No.2, pp748-772, 2023.
論文
Source link
コメント