スクレイピングでtextを表示すると
データが下記のような状態で取得されることが多々あります。
カテゴリ = カテゴリ レディースファッション » ワンピース・オールインワン » ワンピース
これを綺麗なデータにしよう。
というのが今回のテーマです。
まずは「改行」を削除します。
1 |
category_detaile = category_detaile.replace('\n' , '') |
するとこうなります。
# 実行結果 カテゴリ = カテゴリレディースファッション » ワンピース・オールインワン » ワンピース
改行は無くなりましたが、空白が邪魔ですね。
続いて「空白」を削除します。
1 |
category_detaile = category_detaile.replace(' ', '') |
するとこうなります。
# 実行結果 カテゴリ = カテゴリレディースファッション»ワンピース・オールインワン»ワンピース
一見良さそうに見えますが、
取得した最初で「カテゴリ」という文字が邪魔です。
「カテゴリ」という文字を削除します。
1 |
category_detaile = category_detaile.replace('カテゴリ', '') |
するとこうなります。
# 実行結果 カテゴリ = レディースファッション»ワンピース・オールインワン»ワンピース
良い感じのデータになりました!
今回行った内容は以下です。
・改行コードを削除する
・空白を削除する
・不要な文字列を削除する
全て「replace」関数のみで行いました。
便利ですね!
以上です。
最後までお読みいただきありがとうございました!