流行歌の歌詞を分析してみた
タイトルの通りなんですが、中国の流行歌の歌詞を分析してみました。中国の歌を聞いてて感じるのが「我爱你」とか「好想你」的な歌詞が多いなということです。個人的な嗜好の問題でバラード系をよく聞くからというのもあるとは思いますが、人気曲でもそうなのか気になりました。
時代によって人気曲の歌詞とかに変化があったら面白いなと期待しつつ、2000年~2018年のランキング上位10曲を見てみました。「爱」の字の登場頻度の変化は面白かったです。
集計とかグラフとか結構ガバいですが、ご容赦ください笑。
参考にしたランキング
「中国流行歌曲排行榜」とかで検索したら2000年~2018年のランキングをまとめているページがあったのでそのまま参考にしました。周杰伦を始め僕でも知ってるアーティストの曲がランクインしてます。
このサイトのランキングがどのようにして集計されたのか謎ですが、百度mp3をソースにしてるようです。
微博にも「中国歌曲排行榜」なるアカウントがあって定期的にランキングを上げてくれてます。ちゃんと分析しようと思ったら情報源にはこだわるべきですが、過去データを探すのがめんどくさかったのでサボりました笑
集計方法と項目
百度百科で曲のページから情報を取ってきて、pythonで簡単な集計をしました。集計したのは主に次の4項目です。
- 曲の長さ(秒)
- 歌詞の総字数
- 各年度の10曲中に登場する文字の種類
- 上記それぞれの文字の登場回数
曲の長さを見たのは、徐々に短くなってるとかあればなと思ったからです。某音楽配信サービスで人気の曲は前奏が短い傾向があるとかないとか。
歌詞の字数を見たのも同様な理由です。また総字数を演奏時間で割って1秒あたりの文字数を見ることもできます。RAPとか流行ってたらここにも違いが出るのではと期待してました。
登場する文字の種類は各年度を1セットとして、各年度に全部で何種類の文字が使われたかという感じです。登場回数は「爱」の字が何回登場したなどです。一部英語の歌詞についても1種類とカウントしました。そんなに多くないので影響は小さいです。
補足ですが、「江南style」や「See You Again」など中国語以外の言語がメインの曲は外しました。「恋のマイアヒ」の中国語版の「不怕不怕(2006年6位)」はMAI-A-HIみたいな歌詞が多くて迷いましたが対象にしました笑。
発見したこと
曲の長さと歌詞の字数については非常に残念なことに2000年~2018年の間で特に特徴的な変化はありませんでした。曲の長さは4分程度、総字数は350~450字が平均です。
どんな文字が出てくるかについては結構面白かったので紹介します。
登場する字の種類について
一番少ない年が2000年で約450種類、一番多い年が2007年で約780種類でした。800字程度が読めれば歌も歌えちゃうんですね。
登場回数の分布と頻出の文字
次にそれぞれの文字が何回登場するかについてです。登場回数の分布を見ました。各年度についてbins = 10 でヒストグラムを作ると以下のようになります。ほとんどが20回以下という感じです。
各年度について登場回数上位を見てみると、「我」「你」「的」「不」「有」「在」「一」「是」「爱」「人」「了」「想」「会」「着」「人」「要」など超基本の文字が並びます。
上位3つが「的」「我」「你」なのはわかりやすいですね。先ほど見た通り、ほとんどの文字は登場が20回以下ですが、これら3文字は100回を超えていて200回を超えた年度もありました。ベスト10に入りは40回が目安です笑。
爱の順位
面白かったの今回の企画の発端でもある「爱」の字についてです。2000年代ではベスト10常連だったのが、徐々に出現度合いが下がってきてるのがわかります。曲の種類まで分析してないので「ランキングに入ってるラブソングが減った」のか「愛を表現するときに爱が使われなくなった」のかはわかりませんが、面白い発見でした。
まとめ
案外使われてる文字の数は少ないんだなという発見でした。全ての曲を見たわけではないですが曲単位では100種類弱の文字が登場します。個人的に(歌詞が)難しい曲No.1である周杰伦の青花瓷は167種類でなるほどという感じでした。また青花瓷と同じく方文山が作詞の七里香も154種類です。
ついでに周杰伦の曲を見てみると说好不哭(2019)は95種類、MOJITO(2020)は170種類(うちアルファベット9文字)でした笑。
今回は使われてる文字の単純な集計程度しかしてないので、意味方面からの分析もやってみたいですね。
以前書いた中国語の歌についての記事もよかったら是非。
kangaeru-chimpanzee.hatenablog.com
最後まで読んでいただきありがとうございます。