スクレイピングの練習中でリスト内包表記とre.search()について教えてください
seleniumとlxmlで取得したデータの変換がうまく行かないです
url_list = ['https://www.tekitou'+re.search(r'[^0-9A-Z]dp[^0-9A-Z]([0-9A-Z]{10})([^0-9A-Z]|$)',a.get('href')).group() for a in html.cssselect('#tekitou > div > div > a:nth-child(1)')]
html.cssselect('#tekitou > div > div > a:nth-child(1)').get('href')の時点で取得できてるurlは下記のような感じです。
https://www.tekitou/%〇〇%〇〇/dp/(10桁の英数字 英は半角大文字)/ref=zg_bs_10桁の数字_2桁の数字/3桁の数字-7桁の数字-7桁の数字?pd_rd_i=(10桁の英数字 英は半角大文字)&psc=1
https://www.tekitou/music/player/ref=zg_bs_10桁の数字_2桁の数字/3桁の数字-7桁の数字-7桁の数字?pd_rd_i=(10桁の英数字 英は半角大文字)&psc=1
re.search().group()する前のurlが/dp/ありのurlと/dp/なしのurlに分かれるのですが、
re.search(r'[^0-9A-Z]dp[^0-9A-Z]([0-9A-Z]{10})([^0-9A-Z]|$)',a.get('href')).group()の作業の際にエラーがでてしまうため
/dp/なしのurlを削除するようにするか、
pd_rd_i=(10桁の英数字 英は半角大文字)&psc=1の(10桁の英数字 英は半角大文字)を取得するようにしたいです。
なにかうまい表記があれば教えてください
【まず1嫁】くだすれPython(超初心者用) その57
■ このスレッドは過去ログ倉庫に格納されています
509デフォルトの名無しさん
2022/07/24(日) 19:45:11.64ID:e/hljxBO■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【W杯】日本はF組2位で3大会連続決勝T進出 1回戦で王国ブラジルと激突 スウェーデンと1-1ドロー ★6 [恐縮です★]
- 「福岡県」→「福岡府」に変更検討を 副首都構想めぐり県議会が国に要望 [煮卵★]
- あぼーん
- JA担当者「もう倉庫にコメが入らない」新米も過剰生産。。新米3000円割れが見えてきた ★7 [Gecko★]
- 【速報】俳優の村上虹郎さんを傷害の疑いで書類送検 おととし当時交際していた女性に対し顔を殴るなどして重傷を負わせたか ★2 [Ailuropoda melanoleuca★]
- 【サッカーW杯】1次リーグ途中で早くも観客動員歴代1位! 360万人超えで94年大会の記録を更新 [阿弥陀ヶ峰★]
- 【地上波/DAZNほか】 FIFAワールドカップ2026 総合スレ★199【メキシコ/カナダ/アメリカ】
- 【DAZN専用】日本-スウェーデン ★1
- こいせん 全レス転載禁止
- わしせん2
- とらせん
- 〓たかせん〓
- 小泉防衛大臣「航空自衛隊を航空宇宙自衛隊に改称する」 [931948549]
- 地震 [509448172]
- 【速報】地球、なんかヤバイもよう・・・😨 [398059782]
- 【速報】副首都・大阪、豪雨でひっそりと崩壊中 [398059782]
- 本田圭佑さんのワールドカップ解説が不評。日本人「相手選手に"コイツ“はないだろう! 」 [358195575]
- 【超緊急】サッカー⚽次戦 ブ ラ ジ ル 🇧🇷 [344263159]