2015/01/15

(前後の文字を考慮した)カタカナ名前ジェネレータを作った

まとめ:
タイトル通りのものを作りました。
ここで使えます。
決めうちじゃないので、なかなか同じ名前はでない……はず。


背景(1):
「世界樹」とかプレーしているとカタカナの名前を入力する機会が多いです。
が、いい名前なんてそう簡単に思いつきません。
こういうときにいい感じの名前ジェネレータが欲しくなります。

ゲームとかについてる名前ジェネレータは大きく2タイプあるような気がします。
・完全ランダム:正直使い物にならない。
・決めうち:パターンがあんまりない。FFTみたいな例外はある。

ということで、作りましょう。

背景(2):
うちの子まとめβという素晴らしいデータセットがあるのに、
使わないのはもったいない。
開発者からもプレッシャーをかけられている気がする。

結果:
とりあえず一度回してみましょう。

フォルナ アクア  ヒトリ  ルシェッティ ハイル
ギリス  アキック ヴェラ  コロ     アルドラッサ
イヴ   ヒルト  ナナコ  ジア     イオドラト
ガオ   レナス  リベッツ ルヴァリ   カイキ

次は完全にランダムに生成した場合です。
(具体的には print ('ア'..'ン').to_a.sample(3).join + "\n" @ ruby)

ョハル エゾヨ トクヱ オィポ ギモニ
ナクワ ンヲユ ヤラェ ロベギ マジバ
ペクツ ホィレ ナジダ ハォウ カヨヰ
ラワゥ ヨャゥ スミゥ スドナ ウロヨ

ちょっとランダムの方の結果が極端に悪い気もしますが、
上の結果の方が実戦で使えそうな気がします。

以下は、微妙にテクニカルなので興味ない方はここまででも大丈夫です。
こちらからジェネレータでおあそびください。


考察:
完全ランダムがいまいちな原因としては、
あるべきでない場所にある文字がある->文頭の「 ョ」、 「ハ」の後ろの「ォ」
がまず考えられます。

とはいえ、そういうわけでもないものもどこか今ひとつな感じがあります。
おそらく、名前には使いやすい文字というものがあるのではなかろうかと思います。
実際、出現頻度にそれなりの差がありそうなことは去年の記事でも書きました。

また、完全に推測なのですが、
後ろに続く文字は前の文字の影響を受けているような気がします。
例えば、アの後ろにはギはこなそうだけど、ガの後のギは自然な気がするというように。
(アギーレとか言ってはいけない)
ということで、
・あるべきでない場所の文字がでないようにする
・使いやすい文字が出やすいようにする
・前の文字との繋がりやすさを考慮する
の3点を踏まえて実装を考えます。


実装方針:
各文字及び出現位置ごとに、次の文字の出現確率を求めます。
例えば[1文字目,ア->イ, 0.01], [2文字目,ア->ガ, 0.005],[1文字目,ョ->ガ, 0.00]のように。
また、1文字目で出現する確率、その文字で名前が終わる確率も併せて求めます。

そうすると、
1文字目を決める->1文字目から2文字目につながる確率がわかる->
2文字目を決める->2文字目から3文字目につながる確率がわかる-> ...
のように連鎖的に名前を生成することができます。

これによって
・あるべきでない場所の文字がでないようにする->その位置の確率を低くする
・使いやすい文字が出やすいようにする->使いやすい文字は確率が高くなるようにする
・前の文字との繋がりやすさを考慮する->前の文字と後ろの文字のペアで確率を決める
という感じで上の要件がクリアできます。

ここで重要になるのが、各文字ごとの次に出現する文字の確率をどう決めるかです。

今回は「うちの子まとめβ」のデータを活用します。
ここに登録されたキャラクターの名前を取得し、
例えばアの後にどれだけイが続くのかということを実際に数え上げます。
これをすべての文字の組み合わせに対して行うことで確率を決定します。

しのごの言わずにソースを貼れという話もあると思いますので、貼っときます。
なんかハッシュ周りがかなり酷いことになってしまいました…




謝辞
・うちの子まとめβ開発者のしおりもさんにバグ取りに付き合っていただきました。
 ありがとうございました。

以上です。
ジェネレータはこちら

0 件のコメント:

コメントを投稿