中田のタスク管理

タスクの詳細

完了
美容クリニックスクレイピング
依頼者 Eijiさん
進捗率
75%  作業状況
現在の作業 データの正規化
作業完了日 2025-10-06 08:04:33
タスクタイプ 通常
タグ Python,スクレイピング
現状サマリー

現在「完了」、進捗 30%。工程は全4件中 3件完了。

残りの工程: データの正規化

最新報告「確認用ページ作成」(2025-08-25 21:47:36)

タスクの詳細情報・説明 別ウィンドウで表示

依頼の詳細

https://report.clinic/
https://clinic.beauty.hotpepper.jp/

クリニック情報のスクレイピング

https://caloo.jp/hospitals/search/all/k42
上記でチェックしても3,500件程度

対応者メモ・コメント 別ウィンドウで表示


作業工程・チェックリスト

現在の進捗:3/4 75%
report.clicncの取得
beauty.hotpepperの取得
データチェック
データの正規化

コメント コメントフォーム

中田
確認用ページ作成

クリニック一覧:
https://plus-creative.xyz/nakata/clinic_db/clinic_list.php

クリニック詳細:
https://plus-creative.xyz/nakata/clinic_db/detail.php?id=317

コメントのURLコピー 2025-08-25 21:47:36
中田

1.データ漏れ確認、取得

2.データの正規化
report.clicncの取得と
beauty.hotpepperの取得をしたが、項目に差異があるので、データの正規化を行う

コメントのURLコピー 2025-08-21 18:36:36
中田
clinic.beauty.hotpepper.jp取得

clinic.beauty.hotpepper.jpで
取得できていない項目を取得
スクレイピングコード修正→address空のデータに対し、リスト回す
一括スクレイピング完了

詳細結果をファイルに保存: scraping_results_20250820_115931.json

漏れなど確認中、再スクレイピング

コメントのURLコピー 2025-08-21 07:46:55
中田

report_clinicの取得完了し、
hotpepperの取得に移っています

取得したデータ:
report_clinic_data.db
report_clinic_detail_tb.csvhttps://lifework.link/task_manage/uploads/20258198118_report_clinic_detail_tb.csvhttps://lifework.link/task_manage/uploads/202581981113_report_clinic_data.db

コメントのURLコピー 2025-08-19 08:11:20
中田

report_clinicの取得完了し、
hotpepperの取得に移っています

取得したデータ:
report_clinic_data.db
report_clinic_detail_tb.csv

コメントのURLコピー 2025-08-18 18:07:17
中田
report.clicncの取得

report.clicncのクリニックページの詳細のスクレイピングがソースのパターンが多く、
うまく行かず、一旦テストを繰り返し
調整

添付した内容のものを取得できましたので、一旦一通りのリストのURLにまわしてみます

https://gyazo.com/3856a9e0228a671b018b0c82fb36d7f4

コメントのURLコピー 2025-08-14 18:11:34

コメントフォーム

名前
タイトル
コメント
    ファイルのアップロード
    (このエリアにドロップしてください)
    ※ ファイルのURLはコメント内に含めてください。
    Markdown記法が使用可能
    # 見出し h1
    ## 見出し h2
    ### 見出し h3
    #### 見出し h4
    ##### 見出し h5
    
    **太字**
    
    水平線
    ---
    
    > 引用テキスト
    > 引用テキスト 
    
    ```
    コードの表示(ブロック)
    コードの表示(ブロック)
    コードの表示(ブロック)
    ```
    
    * リスト
    * リスト
    * リスト
    
    0. 番号リスト
    0. 番号リスト