現在「完了」、進捗 30%。工程は全4件中 3件完了。
残りの工程: データの正規化
最新報告「確認用ページ作成」(2025-08-25 21:47:36)
https://report.clinic/
https://clinic.beauty.hotpepper.jp/
https://caloo.jp/hospitals/search/all/k42
上記でチェックしても3,500件程度
中田
1.データ漏れ確認、取得
2.データの正規化
report.clicncの取得と
beauty.hotpepperの取得をしたが、項目に差異があるので、データの正規化を行う
中田
clinic.beauty.hotpepper.jpで
取得できていない項目を取得
スクレイピングコード修正→address空のデータに対し、リスト回す
一括スクレイピング完了
詳細結果をファイルに保存: scraping_results_20250820_115931.json
漏れなど確認中、再スクレイピング
中田
report_clinicの取得完了し、
hotpepperの取得に移っています
取得したデータ:
report_clinic_data.db
report_clinic_detail_tb.csvhttps://lifework.link/task_manage/uploads/20258198118_report_clinic_detail_tb.csvhttps://lifework.link/task_manage/uploads/202581981113_report_clinic_data.db
中田
report_clinicの取得完了し、
hotpepperの取得に移っています
取得したデータ:
report_clinic_data.db
report_clinic_detail_tb.csv
中田
report.clicncのクリニックページの詳細のスクレイピングがソースのパターンが多く、
うまく行かず、一旦テストを繰り返し
調整
添付した内容のものを取得できましたので、一旦一通りのリストのURLにまわしてみます
https://gyazo.com/3856a9e0228a671b018b0c82fb36d7f4
クリニック一覧:
https://plus-creative.xyz/nakata/clinic_db/clinic_list.php
クリニック詳細:
https://plus-creative.xyz/nakata/clinic_db/detail.php?id=317