【準備編】メルカリをWebスクレイピング01

Webスクレイピングとは

この記事をご覧になってくださる方は既にご存じかと思いますが、
Webスクレイピングとは、Webサイトから自分が必要な情報を収集できる。
ことだと考えています(ザックリ)
例えば
・グーグルの検索結果で上位10位までの検索結果をリサーチ
・求人サイトで自分好みの絞り込みを行った結果を入手
などなどが行えたり、
もちろん実行結果をターミナルに出力するだけでなく
CSVファイルに保存したりといったことも可能です。
他にも検索した結果が前回と異なっていればLINEに通知など出来れば
本格的な自動化。といえそうですね!
今回は
・メルカリで自分が検索したキーワードで絞り込んだ結果を出力する
までの内容を記事にしたいと思います。
長くなりそうなので、何回かに分けて、、、

Webスクレイピングを始める前に

私自身、最近自動化に興味を持ったので
Webサイトの情報を取得したいなと思うようになりました。
Webスクレイピングに興味を持ったのは良いですが、
いくつか注意点が存在していますので個人でWebスクレイピングを行う際は、
先に「Webスクレイピング 注意事項」などで検索、閲覧してからコードを実行した方が良さそうですね。
色々な注意や解釈がされていますが、下記の記事など凄く参考になります。
Webスクレイピングの注意事項一覧

今回の環境

これからコードを書く前に
・OS:Windows10 64bit
・Webブラウザ:Chrome
・VSCode:インストール済み
・Python:インストール済み

上記を前提として内容を書いていこうと思います。
VSCode上でPythonを実行したことのある人なら問題ないかと思います。
SeleniumやBeautifulsoup4を使用しますので未インストールの方は
■ Seleniumのインストールコマンド

pip install selenium

■ Beautifulsoup4のインストールコマンド

BeautifulSoup

にてインストールを行ってください。

Webドライバーのダウンロード

またSeleniumはWebドライバーを必要としていますので、
下記の手順でインストールを行います。
WebドライバーはChromeのバージョンによってダウンロードするバージョンが異なります。
ので、自身のChromeバージョンに近いものをダウンロードしてください。
OSがWindows64bit版の方もWebドライバーは32bit版をダウンロードで問題ありません。

1. Chromeを起動し、バージョンを確認する
Chromeの右上、メニューボタンをクリック > ヘルプ > Google Chromeについて をクリック

2. Webドライバーのバージョンを確認する(例では98.0.4758.102)

3. WebドライバーをGoogle検索して、下記のサイトをクリックする

4. 自分のChromeのバージョンに近い番号をクリックする

5. サイト上からWebドライバーをダウンロードする

6. 任意の場所に保存して解凍する

解凍した中身に「chromedriver.exe」が入っていたら完了です。
今回の例では、
.pyファイルと同階層に「chromedriver_win32.zip」を解凍しています。
続いてコードを書いていきます。
まずは今ダウンロードしてきたWebドライバーを使用して
・メルカリのトップページを開く。
までを行います。

メルカリのトップページを表示

以下の内容を「Mercari_WebScraping.py」として保存し
実行してみるとメルカリのトップページが開いて、5秒後にChromeが閉じられると思います。

実際にWebページが開くとワクワクしますね!
次回からは開いたメルカリのページに対してスクレイピングを行い、データ収集を行っていきたいと思います。

第2回の記事を公開しました。

【実践編】メルカリをWebスクレイピング02

2022年2月27日

最後までお読み頂き、ありがとうございました。