shinpsanのデータ分析blog

Pythonやデータ分析に関するメモ

PythonでさけのわAPIをたたく 〜データサイエンティスト的日本酒選び〜 

さけのわデータプロジェクトについて

なんと日本酒アプリさけのわさんが保有する日本酒各銘柄のフレーバーを数値化したデータや地域、蔵元、ランキングなどのデータを公開してくれていてます!!

Pythonでサクッと分析してみます!!

データ取得

pyhtonからAPIを利用してデータを取得します。APIの仕様はさけのわデータプロジェクトのページに詳しく書かれています。

こんな感じのデータが取れてpandasで加工していきます。

f:id:shinpsan:20200919071111j:plain
さけのわデータER図てきなもの

大好きな佐賀のお酒と他県との比較

実は私は佐賀のお酒が大好きなのです。 鍋島、能古見古伊万里 前、東一、蔵心、東鶴、天吹、天山、、、、どれも素晴らしいお酒ですばい。

佐賀のお酒は芳醇旨口と言われています。 フレーバーチャートの数値を使って佐賀のお酒と、淡麗辛口と言われている新潟のお酒とを比較してみます。

f:id:shinpsan:20200919101311p:plain

箱ヒゲ図を見ても納得の分布ですね。

各銘柄について、フレーバータグが与えられています。 佐賀と新潟それぞれの県でデータがある銘柄全てについてフレーバータグを使ってword cloudを作ります。

f:id:shinpsan:20200919114836p:plain

佐賀はフルーティ、新潟はスッキリ辛口というイメージに合った結果になりました。 なかなか面白いですね。

ど真ん中の酒を探す

ここで、良いことを思いつきました!

  • クセの無い真ん中なお酒こそ美味いのでは?
  • そう言えば平均化した顔が美人になるっていう記事を昔どこかで見たな
  • そろそろ寒くなってきたしおでんと日本酒なんて良いじゃない

各フレーバーチャートのヒストグラムを見ると割ときれいな分布でした。

f:id:shinpsan:20200919110544p:plain

華やか、芳醇、重厚、穏やか、ドライ、軽快を表す6次元空間について考えます。 6項目それぞれの中央値で構成されるベクトルに一番近いベクトルを探します。 近さの決め方は、中央値で構成したベクトルと各銘柄のなす角の大きさ、つまりコサイン類似度です。

で、一番真ん中に近いお酒を探すと

f:id:shinpsan:20200919110124p:plain

中央値ベクトルとの類似度1位のお酒は埼玉県の天覧山でした!!

飲んでみる

天覧山を調べてみると、埼玉の五十嵐酒造でつくられているお酒でした。 天覧山純米吟醸は全国燗酒コンテスト2020 プレミアム燗酒部門にて最高金賞を受賞しているそうです。 酒造のHPから直接購入でき発送も早くて良かったです!

f:id:shinpsan:20200919111945j:plain
天覧山 純吟の熱燗と博多おでん

レビュー

舌の上から喉に転がる際に感じるのは、程よく丸みを帯びた日本酒の持つ甘み・旨味・香り。口中に広がったこれら甘く柔らかな味も、酒が喉を通ると後口の辛さへと表情を変える。美味い、やっぱ熱燗はこうだよな、なんて思っているうちに余韻がきれいに消えていく。おでんをつまみ、そして天覧山をグイッ。やはり合う。おでん、天覧山、おでん、天覧山、、、エンドレスである。

おわりに

現代においては華やかでフルーティ、綺麗な飲みやすい純米吟醸ばかりが評価され地酒!地酒!とありがたがられていますが、それらは日本酒空間における一つのクラスターに過ぎないのかもしれないですね。知らない飲んだことない日本酒はまだまだ沢山あります。データ分析し、仮説・検証として日本酒を選んでみても色んな気付きがあって面白いかもしれません。

分析に仕様したjupyterのソースコードはこちらに置いてます。