Demo OpenShared
コレWordPressデス

アクセスログ ~2020年3月23日

posted:

ページも作成していないので増えるわけもなく。

まずは、アクセス数は増えもせず特別な変化はありません。

アクセスログ ~20200323

Jupyterを使ってデータを紐解く

import apache_log_parserでlogを整形してcsvに保存します。
前回は確認のためにExcelで確認しましたが、これからはJupyterのみで操作していきます。

欠損値 NaNを置き換える

# 0で書き換え
df.fillna(0)

要約データ

df_requests[‘request_url’].resample(‘D’).count()

time_received_tz_datetimeobj
2020-03-01 535
2020-03-02 1130
2020-03-03 319
2020-03-04 678
2020-03-05 639
2020-03-06 921
2020-03-07 151
2020-03-08 15
2020-03-09 837
2020-03-10 504
2020-03-11 1156
2020-03-12 192
2020-03-13 568
2020-03-14 572
2020-03-15 260
2020-03-16 2506
2020-03-17 1748
2020-03-18 1264
2020-03-19 913
2020-03-20 1027
2020-03-21 1893
2020-03-22 813
2020-03-23 805
2020-03-24 42
Freq: D, Name: request_url, dtype: int64

df_requests[‘response_bytes_clf’].resample(‘D’).sum()

time_received_tz_datetimeobj
2020-03-01 4812085
2020-03-02 10137347
2020-03-03 3417722
2020-03-04 6123660
2020-03-05 3379355
2020-03-06 8010265
2020-03-07 1063935
2020-03-08 6929
2020-03-09 5299492
2020-03-10 5825104
2020-03-11 9659048
2020-03-12 1121643
2020-03-13 5208954
2020-03-14 5436440
2020-03-15 1378657
2020-03-16 23458790
2020-03-17 26724193
2020-03-18 13622994
2020-03-19 8317793
2020-03-20 8629260
2020-03-21 10455693
2020-03-22 137866159
2020-03-23 53855185
2020-03-24 77131
Freq: D, Name: response_bytes_clf, dtype: int64

request_header

今回はrequest_header_user_agent__browser__familyを整理してみます。
Firefoxで記事を書いたりデザインのチェックを行っているので多いです。

sdcs = df_requests[df_requests[‘request_header_user_agent__browser__family’].str.contains(r’.*$’)]
grouped = sdcs.groupby(‘request_header_user_agent__browser__family’)
type(grouped)

request_header_user_agent__browser__familyをグループ化してグラフにします。

User Agent Browser

Googlebot-Videoが多いのはどうしてだろう?
Safariが思っていたより多いです。
フォーマットもこれでしばらくは毎月処理をしていくことにします。