Netmallの店から商品情報をスクレイピングする

ネットモールは、全国で中古品を扱うハードオフコーポレーションの公式総合中古通販サイトです。家電・オーディオ・パソコン・テレビ・デジカメ・時計・楽器・スマートフォンなど全国の中古商品を毎日更新するショッピングWebサイトです。

スクレイピングツールの概要

ScrapeStormは、AIを使用した視覚的なWebスクレイピングツールです。プログラミングが必要なく、ほぼすべてのWebサイトからデータを抽出できます。強い機能を持って、使いやすいです。 URLを入力だけで、自動的に抽出するデータと次のページボタンを識別できます。複雑なルール設定が必要ないし、ただクリックしてスクレイピングができます。

ScrapeStormにより、大量のWebデータを素早く正確的に取得できます。手動でデータ抽出が直面するさまざまな問題を完全に解決し、情報取得のコストを削減し、作業効率を向上させます。

抽出されたデータは下記のようにご覧ください。

Excel 2007へのエクスポート:

f:id:satoshihirai1:20200213211415p:plain

1.タスクを新規作成する

(1)NetmallのURLをコピーする

今回は、Netmallの店舗から商品情報をスクレイピングすることを紹介します。まず、店舗から探すページのURLをコピーしてください。

f:id:satoshihirai1:20200213211443p:plain

(2)スマートモードタスクを新規作成する

ソフトウェアのホムページ画面に新規作成できます。持っているタスクをインポートすることもできます。

詳細には下記のチュートリアルをご参照ください。

URLを正しく入力する方法

f:id:satoshihirai1:20200213211503p:plain

f:id:satoshihirai1:20200213211527p:plain

2.タスクを構成する

(1)ページボタンの識別

下記画像のようにソフトウェアは自動的にページボタンを識別できます。

ページボタンの設定詳細には下記のチュートリアルをご参照ください。

ページをめぐる方法

f:id:satoshihirai1:20200213211549p:plain

(2)詳細ページに行く

「詳細ページに行く」ボタンをクリックして、各店舗の商品画面に行きます。

下記のチュートリアルをご参照ください。

詳細ページのスクレイピング方法

f:id:satoshihirai1:20200213211621p:plain

(3)事前操作

目標商品のキーワードを入力して、各店舗の商品在庫を検索できます。右上の緑色ボタンをクリックして、事前操作機能を利用してください。操作ヒントに従って、入力コンポとクリックコンポを生成して保存します。

f:id:satoshihirai1:20200213211639p:plain

(4)リスト要素を選択

リスト要素を選択してください。詳細ページのページボタンを識別できますから、自動識別を失敗しても大丈夫になります。

f:id:satoshihirai1:20200213211711p:plain

(5)フィールドの追加と編集

フィールドの追加には、「フィールドを追加」ボタンをクリックして、画面に抽出する要素を選択、データが自動的に抽出されます。また、必要に応じてフィールドの名前の変更または削除、結合できます。

フィールドの設定の詳細には下記のチュートリアルをご参照ください。

抽出されたフィールドを配置する方法

f:id:satoshihirai1:20200213211734p:plain

3.タスクの設定と起動

(1)起動の設定

ソフトウェアは数多くの機能を提供します。必要に応じて、スケジュール、アンチブロック、自動エクスポート、画像のダウンロード、スピードブーストを設定できます。

スクレイピングタスクを配置する方法については、下記のチュートリアルをご参照ください。

スクレイピングタスクを配置する方法

f:id:satoshihirai1:20200213211755p:plain

(2)しばらくすると、データがスクレイピングされます。

f:id:satoshihirai1:20200213211819p:plain

4.抽出されたデータのエクスポートと表示

(1)エクスポートをクリックして、データをダウンロードしする

f:id:satoshihirai1:20200213211853p:plain

(2)必要に応じてエクスポートする形式を選択します。

ScrapeStormは、Excel、csv、html、txt、データベース、ローカルなどさまざまなエクスポート方法を提供します。ライトプラン以上のユーザーは、WordPressに直接投稿することもできます。

抽出結果のエクスポート方法の詳細には下記のチュートリアルをご参照ください。

抽出されたデータのエクスポート方法

f:id:satoshihirai1:20200213211915p:plain