近年の海外旅行者の男女比が知りたい場合、知る方法は色々な方法がある。
方法はあっても、全てのデータが取得できるとは限らない。 しかし手がかりとなる公開データがあれば、まずはそれを使って推定する事ができる。
2021年~2023年 (各々10月) - 都道府県別・男女別人口を活用して、統計量
\[ T = \{人口数\} - \{日本人数\} \]
を訪日者の概推定値と思う事ができる。 (各都道府県における)
日本人数
の詳細な定義はe-Statから抜粋した
日本人人口
から導出される。
日本人人口とは、国勢調査及び人口推計による人口(日本と外国の国籍を有する者を含む。)のうち、日本の国籍を有する者をいう。
もちろん、非日本人数と訪日者数を同一視するには相応のバイアスが見込まれるが、データの傾向を掴む初動としては一定の成果があると思える。
以下のグラフは、\(X\)軸に各都道府県における訪日者数、\(Y\)軸に各訪日者数を有する都道府県数の全都道府県数(i.e. 47)に占める割合を対応させたものである。
この結果は各都道府県の人口及びそれに付随する訪日者の行動バイアス等、いわゆるnuisance parameterの影響を受け、母数の大きい都市部が右に偏るので傾向が見辛い。
代わりに、各都道府県の人口で割って正規化した次のグラフを見る。
ここでは、\(X\)軸を各都道府県において人口に占める訪日者の割合、\(Y\)軸を比\(\{人口\}/\{訪日者数\}\)を持つ都道府県数の密度と解釈する。
すぐに分かる事として、このグラフが横に均される程所定の訪日者率を持つ都道府県が均等に存在することになる。 つまり「ここ訪日客多めですね」という街と、「ここ地元の人が多いですね」という街が、日本全国を回ると凡そ同じ数あるということになる。
さて、以下は訪日者率上位と下位6都道府県を並べたものである。
## area grosssex sexrate grosssex2 sexrate2 dfrate nrsexrate
## 110 東京都 14086 96.4 13448 96.2 0.04529320 100.6
## 120 愛知県 7477 99.3 7195 99.2 0.03771566 101.4
## 107 群馬県 1902 98.2 1831 97.7 0.03732913 108.8
## 121 三重県 1727 95.7 1669 95.3 0.03358425 107.4
## 118 岐阜県 1931 94.4 1868 94.3 0.03262558 100.0
## 124 大阪府 8763 91.7 8488 91.4 0.03138195 100.7
## area grosssex sexrate grosssex2 sexrate2 dfrate nrsexrate
## 127 和歌山県 892 89.2 884 89.3 0.008968610 75.0
## 112 新潟県 2126 94.7 2107 94.8 0.008936971 80.0
## 103 山形県 1026 94.2 1018 94.5 0.007797271 80.0
## 100 岩手県 1163 93.3 1154 93.5 0.007738607 66.7
## 99 青森県 1184 89.3 1177 89.4 0.005912162 75.0
## 102 秋田県 914 89.6 909 89.8 0.005470460 66.7
dfrate
は訪日者率を表し、nrsexrate
はNon-resident、つまり訪日者の男女比を表す
(女性100人当たりの男性の人数)。
これらのデータを眺めていると幾つか気になる点がある。
まず訪日者上位の都道府県では必ず
nrsexrate>=100
となっている為、
女性訪日者に対し男性訪日者が相対的に多い
という仮説が立てられる。
そこで訪日者の男女それぞれの平均を見ると、次のようになっている。
## nrmen nrwomen
## [1,] 33.85106 33.40426
男女差は高々500人弱で、これが誤差の範囲か一見分からない。 数値上は男性訪日者が優位な事は確かだが、結局それがどれくらい有意か分かり辛い。
そこで\(M\)を訪日男性者数、\(F\)を訪日女性者数とし、これらの期待値が同値であるとするlevel \(\alpha=0.05\)の帰無仮説\(H_0\)を検定する。
\[ H_0: E[M]=E[F],\,H_1:E[M]>E[F] \] t検定の結果は次の通りである。
##
## Welch Two Sample t-test
##
## data: tbl.23[["men"]] - tbl.23[["men2"]] and tbl.23[["women"]] - tbl.23[["women2"]]
## t = 0.038827, df = 91.982, p-value = 0.4846
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -18.67405 Inf
## sample estimates:
## mean of x mean of y
## 33.85106 33.40426
ここでt統計量\(t=0.038827\)は次のように計算され、直感的に分かるように、これが大きい程訪日男性者数と訪日女性者数の差は顕著である。
\[ t=\left\vert\frac{\overline{M}-\overline{F}}{\sqrt{S^2_M/n_M+S^2_F/n_F}}\right\vert \] 厳密には\(t>t_{n_M+n_F-2,\alpha/2}\)の場合、誤って棄却される確率\(\alpha\)以下で\(H_0\)が棄却される。 実際以下の通り棄却され、対立仮説\(H_1\)、つまり訪日男女差が統計上顕著である事が言える。
print(tt2$statistic > qt(1-conf.level, tt2$parameter))
## t
## TRUE
ではなぜ男性訪日者が相対的に多いのだろうか?
その手がかりを見つけるのに、今度はnrsexrate
、つまり訪日者の男女比の上位6都道府県を見る。
今回は2021年~2023年の3年分を調べると、次のようになる。
## area grosssex sexrate grosssex2 sexrate2 dfrate nrsexrate
## 48 沖縄県 1468 97.0 1449 96.6 0.01294278 137.5
## 18 石川県 1125 94.3 1111 94.1 0.01244444 114.3
## 26 滋賀県 1411 97.3 1377 96.9 0.02409639 112.5
## 41 福岡県 5124 89.9 5045 89.6 0.01541764 110.8
## 9 茨城県 2852 99.6 2785 99.5 0.02349229 106.2
## 25 三重県 1756 95.4 1705 95.2 0.02904328 104.0
## area grosssex sexrate grosssex2 sexrate2 dfrate nrsexrate
## 88 高知県 676 89.7 671 89.5 0.00739645 150.0
## 96 沖縄県 1468 96.9 1446 96.5 0.01498638 130.0
## 66 石川県 1118 94.4 1102 94.1 0.01431127 128.6
## 89 福岡県 5116 90.0 5030 89.6 0.01681001 112.5
## 74 滋賀県 1409 97.4 1373 96.9 0.02555004 111.8
## 65 富山県 1017 94.8 998 94.6 0.01868240 111.1
## area grosssex sexrate grosssex2 sexrate2 dfrate nrsexrate
## 144 沖縄県 1468 97.0 1443 96.5 0.017029973 136.4
## 136 高知県 666 90.0 660 89.7 0.009009009 133.3
## 114 石川県 1109 94.5 1091 94.1 0.016230839 125.0
## 122 滋賀県 1407 97.5 1367 96.9 0.028429282 122.2
## 105 茨城県 2825 100.0 2744 99.6 0.028672566 116.2
## 131 広島県 2738 94.3 2682 93.9 0.020452885 115.4
まず沖縄が顕著な事は疑いようがなく、県面積の約8%を占める米軍基地と無関係ではないだろう。 着目しているのが居住者ではなく訪日者なので、知人が男性主体である事も想像はし易い。
驚くべきは高知県で、2022年に訪日者の男女比トップになった。 調べてみると幾つかのニュースサイトで観光施策を打っていた経緯が書いてある。
但しこれらのニュースは国内の他府県旅行者を含む調査に基づくもので、今回分析しているものは主に国勢調査に基づくのでさっぴいて考えないといけない。