Netmallから製品情報をスクレイピングする

ネットモールは、日本全国で中古品を扱うハードオフコーポレーションの公式総合中古通販サイトです。家電・オーディオ・パソコン・テレビ・デジカメ・時計・楽器・スマートフォンなど全国の中古商品を毎日更新するショッピングWebサイトです。

スクレイピングツールの概要

ScrapeStormとは、強い機能を持つ、プログラミングが必要なく、使いやすく人工知能Webスクレイピングツールです。違う基盤のユーザーに二つのスクレイピングモードを提供し、1-Clickで99%のWebサイトのスクレイピングを満たします。

抽出されたデータは下記のようにご覧ください。

Excel 2007へのエクスポート:

f:id:satoshihirai1:20200213205503p:plain

1.タスクを新規作成する

(1)NetmallのURLをコピーする

ScrapeStormは自動的にリストを識別できますから、できるだけリストページのURLをコピーしてください。詳細には下記のチュートリアルをご参照ください。

URLを正しく入力する方法

f:id:satoshihirai1:20200213205532p:plain

(2)スマートモードタスクを新規作成する

ソフトウェアのホムページ画面に新規作成できます。持っているタスクをインポートすることもできます。

詳細には下記のチュートリアルをご参照ください。

URLを正しく入力する方法

f:id:satoshihirai1:20200213205551p:plain

f:id:satoshihirai1:20200213205612p:plain

2.タスクを構成する

(1)ページボタンの識別

下記画像のようにソフトウェアは自動的にページボタンを識別できます。たまに識別できないの場合、手動でページボタンを選択するか、Xpathを修正することもできます。

ページボタンの設定詳細には下記のチュートリアルをご参照ください。

ページ分けの設定

f:id:satoshihirai1:20200213205631p:plain

(2)詳細ページに行く

「詳細ページに行く」ボタンをクリックして、製品の詳しく情報を抽出できます。

詳細ページのスクレイピングについては、下記のチュートリアルをご参照ください。

リストページと詳細ページをスクレイピングする方法

f:id:satoshihirai1:20200213205652p:plain

(3)フィールドの追加と編集

フィールドの追加には、「フィールドを追加」ボタンをクリックして、画面に抽出する要素を選択、データが自動的に抽出されます。また、必要に応じてフィールドの名前の変更または削除、結合できます。

フィールドの設定の詳細には下記のチュートリアルをご参照ください。

抽出されたフィールドを配置する方法

f:id:satoshihirai1:20200213205717p:plain

3.タスクの設定と起動

(1)起動の設定

ソフトウェアは数多くの機能を提供します。必要に応じて、スケジュール、アンチブロック、自動エクスポート、画像のダウンロード、スピードブーストを設定できます。

スクレイピングタスクを配置する方法については、下記のチュートリアルをご参照ください。

スクレイピングタスクを配置する方法

f:id:satoshihirai1:20200213205749p:plain

(2)しばらくすると、データがスクレイピングされます。

f:id:satoshihirai1:20200213205814p:plain

4.抽出されたデータのエクスポートと表示

(1)エクスポートをクリックして、データをダウンロードしする

f:id:satoshihirai1:20200213205847p:plain

(2)必要に応じてエクスポートする形式を選択します。

ScrapeStormは、Excel、csv、html、txt、データベース、ローカルなどさまざまなエクスポート方法を提供します。ライトプラン以上のユーザーは、WordPressに直接投稿することもできます。

抽出結果を表示し、抽出されたデータを消去する方法の詳細には下記のチュートリアルをご参照ください。

抽出されたデータの表示と消去する方法

抽出結果のエクスポート方法の詳細には下記のチュートリアルをご参照ください。

抽出されたデータのエクスポート方法

f:id:satoshihirai1:20200213205909p:plain