【Selenium】implicitly_wait

2022.10.11 ポカリ水

行いたいこと Pythonのコードで、固定の秒数ではなく「implicitly_wait」を使用して要素が見つかるまでの待機時間を設定したいと思います。今回はYoutubeを表示した際に、「野球」タブが表示されるま…

【Selenium】get_attributeの使い方

2022.10.10 ポカリ水

行いたいこと今回は稀に使用する「get_attribute」についてのメモです。 get_attributeを使用すると、属性の属性値を取得することが可能です。下記で言うと属性を指定して、属性値を取得する。属性：a…

【Selenium】HTMLでのXpathとPythonでの指定方法

2022.10.10 ポカリ水

行いたいこと今回はHTMLでのXpath指定をPythonで指定するメモを残したいと思います。例えばHTMLで「//h1[@class=”_3cl937Zpn1ce8mDKd5kp7u”]」 …

Selenium_classに空白が存在する場合

2022.07.04 ポカリ水

行いたいこと以下のような画面で class=”form-check-input needs-calc” となっている場合の指定。 find_element_by_class_name(&#822…

【メモ用】Selenium_操作系など

2022.06.29 ポカリ水

Seleniumコピペ用起動～操作時によく使用する処理をメモ用に残します。・ヘッドレスモードでの起動や、ウィンドウサイズの指定。・xpathやclassなどでクリックする処理などのメモ書きになります。サイトはテ…

Googleの検索結果を別タブ(javascript)で開いていく

2022.06.19 ポカリ水

行いたいこと Googleの検索結果を別タブで開いてみたいと思います。実行結果は以下のイメージ。コード

from bs4 import BeautifulSoup
import time
from selenium import webdriver

driver = webdriver.Chrome("chromedriver_win32/chromedriver.exe")

# 上位から何件までのサイトを抽出するか指定する
pages_num = 3

# キーワード
key_word = 'webスクレイピング'

# Google検索で「webスクレイピング」の結果を格納する
url = 'https://www.google.com/search?num={}&q={}'.format(pages_num,key_word)

# URLを開く
driver.get(url)

time.sleep(3)

# WebサイトのHTMLデータをBeautifulSoupで解析する
soup = BeautifulSoup(driver.page_source,'html.parser')

# 検索結果のまとまり
page_titles = soup.find_all(class_="tF2Cxc")

i = 1

# 1件別でURLを取得する
for page_title in page_titles:

    url = page_title.find("a").get("href").replace('/url?q=','')
    
    print("url = " , url)
    
    # タブを右隣に新規追加
    driver.execute_script("window.open()")
    # 操作対象のタブを追加したタブに設定
    driver.switch_to.window(driver.window_handles[i])
    # 検索結果から取得したURLへ遷移させる
    driver.get(url)
    # タブを右に追加していきたいので数字をプラスする
    i = i + 1

    time.sleep(2)


# 開き終わったら一番左のタブへ操作対象を戻す
driver.switch_to.window(driver.window_handles[0])