日刊工業新聞からニュースをスクレイピングする

日刊工業新聞の電子版は、日刊工業新聞が紙面で提供している、およそ250件の記事を毎日閲覧することができます。機械、技術、情報通信、エネルギー、産業などの専門情報をご提供します。「日刊工業新聞 ONLINE(オンライン)」は、日刊工業新聞本紙のデジタル版やウェブメディア「ニュースイッチ」のニュースだけでなく、書籍や展示会、セミナーの情報などをサイトに集め、日刊工業新聞社の各コンテンツをユーザーがより分かりやすく、親しみやすくご利用いただけるポータルサイトです。

スクレイピングツールの概要

ScrapeStormは、AIを使用した視覚的なWebスクレイピングツールです。プログラミングが必要なく、ほぼすべてのWebサイトからデータを抽出できます。強い機能を持って、使いやすいです。 URLを入力だけで、自動的に抽出するデータと次のページボタンを識別できます。複雑なルール設定が必要ないし、1-clickでスクレイピングができます。

ScrapeStormにより、大量のWebデータを素早く正確的に取得できます。手動でデータ抽出が直面するさまざまな問題を完全に解決し、情報取得のコストを削減し、作業効率を向上させます。

抽出されたデータは下記のようにご覧ください。

Excel 2007へのエクスポート:

f:id:satoshihirai1:20200215163731p:plain

1.タスクを新規作成する

(1)URLをコピーする

今回はAIに関するニュースを例として、スクレイピング事例を紹介します。まず、日刊工業新聞からAIの検索結果ページのURLをコピーしてください。

f:id:satoshihirai1:20200215163752p:plain

(2)スマートモードタスクを新規作成する

ソフトウェアのホムページ画面に新規作成できます。持っているタスクをインポートすることもできます。

詳細には下記のチュートリアルをご参照ください。

URLを正しく入力する方法

f:id:satoshihirai1:20200215163815p:plain

f:id:satoshihirai1:20200215163830p:plain

2.タスクを構成する

(1)事前ログイン

日刊工業新聞の記事を読むのが会員登録が必要です。事前ログイン機能機能を利用して、ログインしてください。

f:id:satoshihirai1:20200215163848p:plain

(2)自動識別

ソフトウェアは自動的にリスト要素とページボタンを識別できます。今回の日刊工業新聞には識別成功になります。

ページボタンの設定詳細には下記のチュートリアルをご参照ください。

ページ分けの設定

f:id:satoshihirai1:20200215163933p:plain

(3)詳細ページの編集

詳細ページに行くと、記事内容が抽出できます。まず、「詳細ページに行く」ボタンをクリックしてください。そして、フィールドの追加をクリックして、記事本文を選択すると、情報がソフトウェアの表に追加します。また、必要に応じてフィールドの名前の変更または削除、結合できます。

フィールドの設定の詳細には下記のチュートリアルをご参照ください。

抽出されたフィールドを配置する方法

f:id:satoshihirai1:20200215163954p:plain

f:id:satoshihirai1:20200215164021p:plain

3.タスクの設定と起動

(1)起動の設定

ソフトウェアは数多くの機能を提供します。必要に応じて、スケジュール、アンチブロック、自動エクスポート、画像のダウンロード、スピードブーストを設定できます。

スクレイピングタスクを配置する方法については、下記のチュートリアルをご参照ください。

スクレイピングタスクを配置する方法

f:id:satoshihirai1:20200215164039p:plain

(2)しばらくすると、実行画面にデータのスクレイピングが見えます。

f:id:satoshihirai1:20200215164056p:plain

4.抽出されたデータのエクスポートと表示

(1)エクスポートをクリックして、データをダウンロードします。

f:id:satoshihirai1:20200215164116p:plain

(2)必要に応じてエクスポートする形式を選択します。

ScrapeStormは、Excel、csv、html、txt、データベース、ローカルなどさまざまなエクスポート方法を提供します。ライトプラン以上のユーザーは、WordPressに直接投稿することもできます。

抽出結果のエクスポート方法の詳細には下記のチュートリアルをご参照ください。

抽出されたデータのエクスポート方法

f:id:satoshihirai1:20200215164208p:plain