EUのページから画像URLをスクレイピングをしたいのだが
上記検索結果画面のソースには画像URLが無い為直接の取得ができない。
フレームかと思いきやJava Scriptで画像を表示している事がわかった
のでソースから”.jsp”の文字列を探して
var link = new url(“ebti_list.jsp”);
が画像一覧を生成するJavaScriptタグである事を発見する
そこでBeautifulSoupにて以下のコードを実行する
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
import requests from bs4 import BeautifulSoup as BS # create session to keep cookies s = requests.Session() # load original page to get cookies url = 'https://ec.europa.eu/taxation_customs/dds2/ebti/ebti_consultation.jsp?Lang=en&Lang=en&refcountry=&reference=&valstartdate=&valstartdateto=&valenddate=&valenddateto=&suppldate=&nomenc=3824&nomencto=&keywordsearch1=&keywordsearch=&specialkeyword=&keywordmatchrule=OR&descript=&orderby=4&Expand=true&offset=1&viewVal=Thumbnail&isVisitedRef=false&allRecords=0&showProgressBar=true' r = s.get(url) # load page with thumbnails url = 'https://ec.europa.eu/taxation_customs/dds2/ebti/ebti_list.jsp?viewVal=Thumbnail&Lang=en&offset=1&allRecords=0&nomenc=3824&orderby=4&keywordmatchrule=OR&isVisitedRef=false&random=8377162' r = s.get(url) soup = BS(r.text, 'html.parser') all_items = soup.find_all('img') for item in all_items: print(item['src']) |
これにより全ての画像URLを取得
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18403-19-1_thumbnail104.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18403-19-1_thumbnail105.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18403-19-1_thumbnail106.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18403-19-1_thumbnail107.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18349-19-1_thumbnail625.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18349-19-1_thumbnail626.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18349-19-1_thumbnail627.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI18349-19-1_thumbnail628.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/GB/GBBTI503986041_thumbnail4.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/GB/GBBTI503986041_thumbnail5.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/GB/GBBTI503986041_thumbnail6.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI35762-19-1_thumbnail1.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI35762-19-1_thumbnail2.jpeg https://ec.europa.eu/taxation_customs/dds2/ebti/imagesLocation/DE/DEBTI35762-19-1_thumbnail3.jpeg |
以下の動画でjavascriptを外して表示するとどうなるかをchromeの検証で
調べる方法がある
コメントを残す