【準備編】メルカリをWebスクレイピング01

Webスクレイピングとは
Webスクレイピングを始める前に
今回の環境
Webドライバーのダウンロード
メルカリのトップページを表示

Webスクレイピングとは

この記事をご覧になってくださる方は既にご存じかと思いますが、
Webスクレイピングとは、Webサイトから自分が必要な情報を収集できる。
ことだと考えています(ザックリ)
例えば
・グーグルの検索結果で上位10位までの検索結果をリサーチ
・求人サイトで自分好みの絞り込みを行った結果を入手
などなどが行えたり、
もちろん実行結果をターミナルに出力するだけでなく
CSVファイルに保存したりといったことも可能です。
他にも検索した結果が前回と異なっていればLINEに通知など出来れば
本格的な自動化。といえそうですね！
今回は
・メルカリで自分が検索したキーワードで絞り込んだ結果を出力する
までの内容を記事にしたいと思います。
長くなりそうなので、何回かに分けて、、、

Webスクレイピングを始める前に

私自身、最近自動化に興味を持ったので
Webサイトの情報を取得したいなと思うようになりました。
Webスクレイピングに興味を持ったのは良いですが、
いくつか注意点が存在していますので個人でWebスクレイピングを行う際は、
先に「Webスクレイピング　注意事項」などで検索、閲覧してからコードを実行した方が良さそうですね。
色々な注意や解釈がされていますが、下記の記事など凄く参考になります。
Webスクレイピングの注意事項一覧

今回の環境

これからコードを書く前に
・OS：Windows10 64bit
・Webブラウザ：Chrome
・VSCode：インストール済み
・Python：インストール済み
上記を前提として内容を書いていこうと思います。
VSCode上でPythonを実行したことのある人なら問題ないかと思います。
SeleniumやBeautifulsoup4を使用しますので未インストールの方は
■ Seleniumのインストールコマンド

pip install selenium

■ Beautifulsoup4のインストールコマンド

BeautifulSoup

にてインストールを行ってください。

Webドライバーのダウンロード

またSeleniumはWebドライバーを必要としていますので、
下記の手順でインストールを行います。
WebドライバーはChromeのバージョンによってダウンロードするバージョンが異なります。
ので、自身のChromeバージョンに近いものをダウンロードしてください。
OSがWindows64bit版の方もWebドライバーは32bit版をダウンロードで問題ありません。

1. Chromeを起動し、バージョンを確認する
Chromeの右上、メニューボタンをクリック > ヘルプ > Google Chromeについてをクリック

2. Webドライバーのバージョンを確認する(例では98.0.4758.102)

3. WebドライバーをGoogle検索して、下記のサイトをクリックする

4. 自分のChromeのバージョンに近い番号をクリックする

5. サイト上からWebドライバーをダウンロードする

6. 任意の場所に保存して解凍する

解凍した中身に「chromedriver.exe」が入っていたら完了です。
今回の例では、
.pyファイルと同階層に「chromedriver_win32.zip」を解凍しています。
続いてコードを書いていきます。
まずは今ダウンロードしてきたWebドライバーを使用して
・メルカリのトップページを開く。
までを行います。

メルカリのトップページを表示

以下の内容を「Mercari_WebScraping.py」として保存し
実行してみるとメルカリのトップページが開いて、5秒後にChromeが閉じられると思います。



from selenium import webdriver
from time import sleep

# /*------------------------------------------
# メルカリのトップページを表示するだけ
# --------------------------------------------*/

# Winなので、chromeドライバーまでのパスを格納する
driver = webdriver.Chrome("chromedriver_win32/chromedriver.exe")

# メルカリのトップページを表示する
driver.get("https://jp.mercari.com/")

# トップページを開いて5秒後にWebブラウザを閉じる
sleep(5)

from selenium import webdriver

from time import sleep

# /*------------------------------------------

# メルカリのトップページを表示するだけ

# --------------------------------------------*/

# Winなので、chromeドライバーまでのパスを格納する

driver = webdriver.Chrome("chromedriver_win32/chromedriver.exe")

# メルカリのトップページを表示する

driver.get("https://jp.mercari.com/")

# トップページを開いて5秒後にWebブラウザを閉じる

sleep(5)

実際にWebページが開くとワクワクしますね！
次回からは開いたメルカリのページに対してスクレイピングを行い、データ収集を行っていきたいと思います。

第2回の記事を公開しました。

【実践編】メルカリをWebスクレイピング02

2022年2月27日

最後までお読み頂き、ありがとうございました。

アーカイブ

カテゴリー

Webスクレイピングとは

Webスクレイピングを始める前に

今回の環境

Webドライバーのダウンロード

メルカリのトップページを表示

カテゴリー

最近の投稿記事

アーカイブ

カテゴリー

Webスクレイピングとは

Webスクレイピングを始める前に

今回の環境

Webドライバーのダウンロード

メルカリのトップページを表示

RECOMMENDこちらの記事も人気です。

【5章】 データ構造

メモ16【切り捨て除算】

メモ07【配列】

【WebAPI】キーワードから緯度と経度と郵便番号を取得

メモ01【raise】

Pythonで1枚の画像をダウンロード

【Selenium】get_attributeの使い方

【Python】辞書型を使用してみる

カテゴリー

上位の記事

最近の投稿記事

【5章】　データ構造