2018年1月4日星期四

Extract Reviews - Dealing with "Show More" Buttons

Product reviews are importance resources for both sellers and buyers. Sellers find about how their products are rated by users while buyers generally spend much time wading through pages of reviews in order to find out whether a product is worth buying. 
Many Octoparse users are extracting reviews on daily basis. One of the most frequently asked question is how to deal with "load more" button when it is required to make visible of the full review content instead of the first few lines.  
It is actually extremely easy to solve this problem in Octoparse: just make a loop to click those "load more" buttons one by one before extracting the reviews.

Let’s look at an example for Walmart (example URL):
Looking through the reviews on Walmart.com, you can easily spot the “Read More” button showing right below some of the reviews. 


What we need to do is really to have the program click open all the "Read more" button all together, so we'll have the complete version of all the reviews. Then, we'll proceed with an extract action for all the reviews. Follow the steps below, 
  • Drag a Loop Item into the workflow after opening the webpage in Octoparse
  • Choose "Single element" in Loop Mode
  • Enter the XPath of "Read More" button (//BUTTON[text()='Read more'])*
  • Click "Save"
*Notice the XPath used here only applies to this particular example. User should find out the suitable XPath to use for different webpages.  The selected XPath must be capable of locating all the "Read More" buttons on the page (click here to learn more about XPath)
  • Drag a Click Item into the Loop Item
  • Tick "Click items in the loop"
  • Tick "Load the page with AJAX" and select a proper AJAX timeout
  • Click "Save"

  • Next, make a loop list of all the review sections. 
  • Drag the review loop item out of first Loop item, then re-position it to right below the first loop
  • Click on "Extract Data" action, then click to extract any sub-elements (such as reviewer, review date, comment etc) from the first review section outlined in the built-in browser. 
  • Rename the data field if needed

In this way, Octoparse will click all the "Read More" button before extracting the reviews to make sure all reviews contents are captured completely. 

To learn more about scraping reviews, refer to these tutorials:


Author: The Octoparse Team

2017年12月13日星期三

Big Data: 70 Amazing Free Data Sources You Should Know for 2017

Every great data visualization starts with good and clean data. Most of people believe that collecting big data would be a rough thing, but it’s simply not true. There are thousands of free data sets available online, ready to be analyzed and visualized by anyone. Here we’ve rounded up 70 free data sources for 2017 on governmentcrimehealthfinancial and economic data,marketing and social mediajournalism and mediareal estatecompany directory and review, and more.
We hope you could enjoy this and save a lot time and energy searching blindly online.


Free Data Source: Government
  1. Data.gov: It is the first stage and acts as a portal to all sorts of amazing information on everything from climate to crime freely by the US Government.
  2. Data.gov.uk: There are datasets from all UK central departments and a number of other public sector and local authorities. It acts as a portal to all sorts of information on everything, including business and economy, crime and justice, defence, education, environment, government, health, society and transportation.
  3. US. Census Bureau: The website is about the government-informed statistics on the lives of US citizens including population, economy, education, geography, and more.
  4. The CIA World Factbook: Facts on every country in the world; focuses on history, government, population, economy, energy, geography, communications, transportation, military, and transnational issues of 267 countries.
  5. Socrata: Socratais a mission-driven software company that is another interesting place to explore government-related data with some visualization tools built-in. Its data as a service has been adopted by more than 1200 government agencies for open data, performance management and data-driven government.
  6. European Union Open Data Portal: It is the single point of access to a growing range of data from the institutions and other bodies of the European Union. The data boosts includes economic development within the EU and transparency within the EU institutions, including geographic, geopolitical and financial data, statistics, election results, legal acts, and data on crime, health, the environment, transport and scientific research. They could be reused in different databases and reports. And more, a variety of digital formats are available from the EU institutions and other EU bodies. The portal provides a standardised catalogue, a list of apps and web tools reusing these data, a SPARQL endpoint query editor and rest API access, and tips on how to make best use of the site.
  7. Canada Open Datais a pilot project with many government and geospatial datasets. It could help you explore how the Government of Canada creates greater transparency, accountability, increases citizen engagement, and drives innovation and economic opportunities through open data, open information, and open dialogue.
  8. Datacatalogs.org: It offers open government data from US, EU, Canada, CKAN, and more.
  9. U.S. National Center for Education Statistics: The National Center for Education Statistics (NCES) is the primary federal entity for collecting and analyzing data related to education in the U.S. and other nations.
  10. UK Data Service: The UK Data Service collection includes major UK government-sponsored surveys, cross-national surveys, longitudinal studies, UK census data, international aggregate, business data, and qualitative data.


Free Data Source: Crime
  1. Uniform Crime Reporting: The UCR Program has been the starting place for law enforcement executives, students, researchers, members of the media, and the public seeking information on crime in the US.
  2. FBI Crime Statistics: Statistical crime reports and publications detailing specific offenses and outlining trends to understand crime threats at both local and national levels.
  3. Bureau of Justice Statistics: Information on anything related to U.S. justice system, including arrest-related deaths, census of jail inmates, national survey of DNA crime labs, surveys of law enforcement gang units, etc.
  4. National Sex Offender Search: It is an unprecedented public safety resource that provides the public with access to sex offender data nationwide. It presents the most up-to-date information as provided by each Jurisdiction.


Free Data Source: Health
  1. U.S. Food & Drug Administration: Here you will find a compressed data file of the Drugs@FDA database. Drugs@FDA, is updated daily, this data file is updated once per week, on Tuesday.
  2. UNICEF: UNICEF gathers evidence on the situation of children and women around the world. The data sets include accurate, nationally representative data from household surveys and other sources.
  3. World Health Organisation:  statistics concerning nutrition, disease and health in more than 150 countries.
  4. Healthdata.gov: 125 years of US healthcare data including claim-level Medicare data, epidemiology and population statistics.
  5. NHS Health and Social Care Information Centre: Health data sets from the UK National Health Service. The organization produces more than 260 official and national statistical publications. This includes national comparative data for secondary uses, developed from the long-running Hospital Episode Statistics which can help local decision makers to improve the quality and efficiency of frontline care.


Free Data Source: Financial and Economic Data
  1. World Bank Open Data: Education statistics about everything from finances to service delivery indicators around the world.
  2. IMF Economic Data: An incredibly useful source of information that includes global financial stability reports, regional economic reports, international financial statistics, exchange rates, directions of trade, and more.
  3. UN Comtrade Database: Free access to detailed global trade data with visualizations. UN Comtrade is a repository of official international trade statistics and relevant analytical tables. All data is accessible through API.
  4. Global Financial Data: With data on over 60,000 companies covering 300 years, Global Financial Data offers a unique source to analyze the twists and turns of the global economy.
  5. Google Finance: Real-time stock quotes and charts, financial news, currency conversions, or tracked portfolios.
  6. Google Public Data Explorer: Google's Public Data Explorer provides public data and forecasts from a range of international organizations and academic institutions including the World Bank, OECD, Eurostat and the University of Denver. These can be displayed as line graphs, bar graphs, cross sectional plots or on maps.
  7. U.S. Bureau of Economic Analysis: U.S. official macroeconomic and industry statistics, most notably reports about the gross domestic product (GDP) of the United States and its various units. They also provide information about personal income, corporate profits, and government spending in their National Income and Product Accounts (NIPAs).
  8. Financial Data Finder at OSU: Plentiful links to anything related to finance, no matter how obscure, including World Development Indicators Online, World Bank Open Data, Global Financial Data, International Monetary Fund Statistical Databases, and EMIS Intelligence.
  9. National Bureau of Economic Research: Macro data, industry data, productivity data, trade data, international finance, data, and more.
  10. U.S. Securities and Exchange Commission: Quarterly datasets of extracted information from exhibits to corporate financial reports filed with the Commission.
  11. Visualizing Economics: Data visualizations about the economy.
  12. Financial Times: The Financial Times provides a broad range of information, news and services for the global business community.


Free Data Source: Marketing and Social Media
  1. Amazon API: Browse Amazon Web Services’Public Data Sets by category for a huge wealth of information. Amazon API Gateway allows developers to securely connect mobile and web applications to APIs that run on Amazon Web(AWS) Lambda, Amazon EC2, or other publicly addressable web services that are hosted outside of AWS.
  2. American Society of Travel Agents: ASTA is the world's largest association of travel professionals. It provides members information including travel agents and the companies whose products they sell such as tours, cruises, hotels, car rentals, etc.
  3. Social Mention: Social Mention is a social media search and analysis platform that aggregates user-generated content from across the universe into a single stream of information.
  4. Google Trends: Google Trends shows how often a particular search-term is entered relative to the total search-volume across various regions of the world in various languages.
  5. Facebook API: Learn how to publish to and retrieve data from Facebook using the Graph API.
  6. Twitter API: The Twitter Platform connects your website or application with the worldwide conversation happening on Twitter.
  7. Instagram API: The Instagram API Platform can be used to build non-automated, authentic, high-quality apps and services.
  8. Foursquare API: The Foursquare API gives you access to our world-class places database and the ability to interact with Foursquare users and merchants.
  9. HubSpot: A large repository of marketing data. You could find the latest marketing stats and trends here. It also provides tools for social media marketing, content management, web analytics, landing pages and search engine optimization.
  10. Moz: Insights on SEO that includes keyword research, link building, site audits, and page optimization insights in order to help companies to have a better view of the position they have on search engines and how to improve their ranking.
  11. Content Marketing Institute: The latest news, studies, and research on content marketing.


Free Data Source: Journalism and Media
  1. The New York Times Developer Network– Search Times articles from 1851 to today, retrieving headlines, abstracts and links to associated multimedia. You can also search book reviews, NYC event listings, movie reviews, top stories with images and more.
  2. Associated Press API: The AP Content API allows you to search and download content using your own editorial tools, without having to visit AP portals. It provides access to images from AP-owned, member-owned and third-party, and videos produced by AP and selected third-party.
  3. Google Books Ngram Viewer: It is an online search engine that charts frequencies of any set of comma-delimited search strings using a yearly count of n-grams found in sources printed between 1500 and 2008 in Google's text corpora.
  4. Wikipedia Database: Wikipedia offers free copies of all available content to interested users.
  5. FiveThirtyEight: It is a website that focuses on opinion poll analysis, politics, economics, and sports blogging. The data and code on Github is behind the stories and interactives at FiveThirtyEight.
  6. Google Scholar: Google Scholar is a freely accessible web search engine that indexes the full text or metadata of scholarly literature across an array of publishing formats and disciplines. It includes most peer-reviewed online academic journals and books, conference papers, theses and dissertations, preprints, abstracts, technical reports, and other scholarly literature, including court opinions and patents.


Free Data Source: Real Estate
  1. Castles: Castles are a successful, privately owned independent agency. Established in 1981, they offer a comprehensive service incorporating residential sales, letting and management, and surveys and valuations.
  2. Realestate.com: RealEstate.com serves as the ultimate resource for first-time home buyers, offering easy-to-understand tools and expert advice at every stage in the process.
  3. Gumtree: Gumtree is the first site for free classifieds ads in the UK. Buy and sell items, cars, properties, and find or offer jobs in your area is all available on the website.
  4. James Hayward: It provides an innovative database approach to residential sales, lettings & management.
  5. Lifull Homes: Japan’s property website.
  6. Immobiliare.it: Italy’s property website.
  7. Subito: Italy’s property website.
  8. Immoweb: Belgium's leading property website.


Free Data Source: Business Directory and Review
  1. LinkedIn: LinkedIn is a business- and employment-oriented social networking service that operates via websites and mobile apps. It has 500 million members in 200 countries and you could find the business directory here.
  2. OpenCorporates: OpenCorporates is the largest open database of companies and company data in the world, with in excess of 100 million companies in a similarly large number of jurisdictions. Our primary goal is to make information on companies more usable and more widely available for the public benefit, particularly to tackle the use of companies for criminal or anti-social purposes, for example corruption, money laundering and organised crime.
  3. Yellowpages: The original source to find and connect with local plumbers, handymen, mechanics, attorneys, dentists, and more.
  4. Craigslist: Craigslist is an American classified advertisements website with sections devoted to jobs, housing, personals, for sale, items wanted, services, community, gigs, résumés, and discussion forums.
  5. GAF Master Elite Contractor: Founded in 1886, GAF has become North America’s largest manufacturer of commercial and residential roofing (Source: Fredonia Group study). Our success in growing the company to nearly $3 billion in sales has been a result of our relentless pursuit of quality, combined with industry-leading expertise and comprehensive roofing solutions. Jim Schnepper is the President of GAF, an operating subsidiary of Standard Industries. When you are looking to protect the things you treasure most, here are just some of the reasons why we believe you should choose GAF.
  6. CertainTeed: You could find contractors, remodelers, installers or builders in the US or Canada on your residential or commercial project here.
  7. Companies in California: All information about companies in California.
  8. Manta: Manta is one of the largest online resources that deliver products, services and educational opportunities. The Manta directory boasts millions of unique visitors every month who search comprehensive database for individual businesses, industry segments and geographic-specific listings.
  9. EU-Startups: Directory about startups in EU.
  10. Kansas Bar Association: Directory for lawyers. The Kansas Bar Association (KBA) was founded in 1882 as a voluntary association for dedicated legal professionals and has more than 7,000 members, including lawyers, judges, law students, and paralegals.


Free Data Source: Other Portal Websites
  1. Capterra: Directory about business software and reviews.
  2. Monster: Data source for jobs and career opportunities.
  3. Glassdoor: Directory about jobs and information about inside scoop on companies with employee reviews, personalized salary tools, and more.
  4. The Good Garage Scheme: Directory about car service, MOT or car repair.
  5. OSMOZ: Information about fragrance.
  6. Octoparse: A free data extraction tool to collect all the web data mentioned above online.

Do you know some great data sources? Contact to let us know and help us share the data love.

More Related Sources:

2017年11月20日星期一

Octoparse:ノンプログラマーのためのスクレイピングツール



前回Octoparseというツールを紹介しそのツールの登録、ダウンロード、インストールデータ抽出など利用方法を紹介しました(前回の内容の詳細については、こちらご覧下さい。)今回Octoparseをもっと理解して頂くために、主な特長、具体例による使用方法および幾つかの拡張機能紹介します


目次
1.概要
5.まとめ


1.概要
Octoparse簡単かつ非常に視覚的に理解しやすいWebスクレイパーであり、あまりプログラミングの知識が無い人でも、Webからデータを収集して抽出することができます。

ブランド
Octoparse
顧客サポート
Facebookコミュニティ、電話、電子メール、Skype
価格
75ドル(無料バージョン提供)
試用期間
5日間(プロ
オペレーティングシステム
Windows XP, 7, 8, 9, 10
データエクスポート形式
CSV, Excel, Txt, Html, 
データベース (SqlServer, MySql, Oracle)
マルチスレッド
有り(無制限)
API(アプリケーションプログラミングインターフェース)
有り
スケジューリング
有り
クラウドサービス
有り


2.Octoparseの主な特長の紹介
(1)クリックとドラッグによる簡単なWebスクレイピング
Octoparse、全てのユーザーがWebスクレイピングを利用できるようなツールです。そのインターフェースは、ユーザーが非常に視覚的に理解しやすい操作画面のペイン(領域)となっています。基本的には、「クリック」、「ポイント」及び「ドラッグ」で、既存のWebサイトの98%をスクレイピングするのに非常に機能的なワークフローを作成できます。



(2)動的なWebサイトへの対応
より複雑なスクレイピングについて、例えば、データが相互交流型のWebサイト上でJavaScriptを使用して読み込まれるときOctoparseは下記の全ての場合において解決案を提供することができます。

ログイン後のスクレイピング
検索ベースの抽出
Ajax読み込まれたスクレイピングデータ
無限スクロール
Next」ボタンが無いページネーション
ネスト(入れ子)構造のドロップダウンメニュー
フォームへの記入
HTMLで非表示にされたキャプチャデータ
などなど。

Octoparseは全てのユーザーがデータをクローリングできるように設計されています。Octoparseに内蔵されているXPath及びRegExツールを利用することにより、開発者はもちろん、開発者以外の人でも、Webページ上の一つ一つの要素を簡単に完全照合できます。(直接拡張機能のページをご覧下さい。

(3)サポート
無料版を使用しているユーザーの場合、FacebookOctoparseグループヘルプを参照して下さいそのコミュニティのグループメンバーたちは熱心に協力して説明してくれると思いますまた、Octoparseサポートに連絡する方法もありますが対応に時間が掛かるかもしれません
有料版を使用しているユーザーの場合、Octoparseチーム優先的に対応し、電話電子メール及びSkypeを通じてサポートします。


3.具体例による使用方法の説明
上記では、Octoparse主な特長について簡単に紹介しましたここではさらに知りたい場合に備えて、シナリオを作成し、具体例を挙げて説明します。
あなた、自分が東京に引っ越してきたばかりの若い従業員だと想像してみて下さい。最初に解決すべきことは、賃貸アパート探すことですよね?賃貸アパートに関する情報はネット上にたくさんあるので、どの賃貸アパートに決めれば良いかわからないと思います。ここで、もし整理された賃貸アパートのリストがあれば、より簡単に比較することができますよね?Octoparseはそのような場合につ最良のツールになると思います。
suumo.jp不動産・賃貸住宅に関する最大の総合情報サイトで、投資新入社員および住宅需要のある人向けに多くの情報を提供しています。自分が、渋谷駅新宿駅原宿駅から15以内で、家賃が15以下のアパートを探していると仮定して、今からOctoparseスクレイピングてみましょう。

ステップ1Basic Information設定します。
Quick Startをクリックします。 New Task (Advanced Mode)クリックします。Basic Informationを完成させます。



ステップ2.内蔵されているブラウザで検索したいWebサイトに移動します。
内蔵されているWeb ブラウザに検索したいURLを入力します。➜ 「Go」をクリックしてサイトを開きます。
URLの例:


ステップ3.ページネーションを設定します。
「次へ」(ページネーションリンク)をクリックしますLoop click the element選びます。


ステップ4項目のリストを作成します。
Loop itemWorkflowにドラッグします。Variable list選びます。その下の「Variable list」の横にある空欄に、下記のXPathを貼り付けます。Saveをクリックします
XPath//div[@class='property_group']/divXPathの詳細についてはこちらをご覧下さい。)




ステップ5検索結果を抽出します。
タイトル部分を抽出します➜タイトルをクリックします。Extract text選びます。他のコンテンツも同じ方法で抽出することができます。


ステップ 抽出されたData Fieldの名前を修正します。
全てのData Fieldは抽出されると、自動的に名前が付けられます。名前を修正したい場合は、Field Name」をクリックして修正します。


ステップページネーションのXPathを修正します。
Octoparseで設定されたデフォルトのXPathでは、「次へ」という項目を正しく配置できないので、XPathを修正する必要があります。修正されたXPathは次の通りです。
//P[@class='pagination-parts']/A[contains(text(),'次へ')] XPathの詳細についてはこちらをご覧下さい。)


ステップ8.エクストラクタを実行します。
Nextクリックします。➜「Next」クリックします。➜「Local Extraction」をクリックします。➜「OK」をクリックしてコンピューター上でタスクを実行します。Octoparse、指定した全てのデータを自動的に抽出します


以上のステップが全部完了したら、下記のようなきちんと分類されたデータが得られます。



4.Octoparseの拡張機能の紹介
(1)Xpath及びRegEx(正規表現というツール) - ネクストレベルのWebスクレイピング
XPath正規表現複雑なWebスクレイピングするために必須の技術ですが、初心者が利用するのはそう簡単なことではありません。そこで、Octoparseチーム、正確なWebスクレイピングをするのに必要なXPathRegExについて、誰でも簡単に作れるように十分配慮されたツールを提供しています。

a.XPathツール


OctoparseXPathツールの画面4つのペイン(領域)で構成されています。

ペイン1:ブラウザのペイン。内蔵されているブラウザで検索したいURLを入力し、「Go」をクリックすると、Webページコンテンツ表示されます
ペイン2:ソースコードのペイン。Webページのソースコードが表示されます。
ペイン3:XPath設定のペイン選択肢チェックし幾つかのパラメーターを入力して、「Generate」をクリックするとXPathが作成されます
ペイン4:XPath結果のペインXPath作成された後、「Match」をクリックすると、現在のXPathWebページの要素を見つけているかどうかを確認できます

OctoparseXPathツールの詳細についてこちらご覧下さい。

b.RegEx(正規表現)ツール
正規表現とは、文字列内での文字の組み合わせを照合させるために用いられるパターンです。どんなスクレイピングシナリオでも、例えば、CSSセレクタやXPathがうまく動作しない場合でも、正規表現構文を使用して必要な情報をすぐに検索することができます。XPathツールと同様に、Octoparseには内蔵されているRegExツールがあります。このRegExツールがあれば、ユーザーは文字や文字列の一致に苦労する必要は無く、シンプルに幾つかの条件を入力するだけで、RegExは自動的に作成されます。



OctoparseRegExツールの詳細についてこちらご覧下さい。

c.データ再配置(再フォーマット)ツール
さて、欲しいデータをうまく抽出しましたが、そのデータは利用しやすい形式ではありません。例えば、日付の書式が間違っていたり、単語間に不要な空白があったり、不要な接頭辞や接尾辞が付いていたりする点です。そこで、Octoparseは内蔵されたデータの再配置ツールを使用して、簡単に必要なデータ変換をできるようにしました。サポートされている変換機能は次の8個になります。

Replace抽出したデータの文字列やキーワードを置換します。
Replace with regular expression特定の正規表現に一致するコンテンツを置換します。
Match with regular expression乱雑な単語の中から目的のキーワードを選び出します。
Trim spaces抽出したデータの前後の空白を削除します。
Add prefix抽出したデータの先頭に必要なもの(番号、文字、信号など)を追加します。
Add suffixデータの最後に何かを追加します。これは「Add prefix」とちょうど逆になります。
Re-format extracted date/time希望の日付や時刻の書式を設定し直します。
Html transcodingHTMLソースを抽出するときに、HTMLエンコードされた文字をエンコードされていないテキストにデコードします。

Octoparseにキャプチャされたデータの再配置の詳細についてこちらご覧下さい。

(2)クラウドサービス
Octoparse、ユーザーのスクレイピング技能をさらに強化するために有料版を使用しているユーザー向けに)クラウドサービスを提供しています。このクラウドサービス、次の4つのオプションが使用できます。

①スケジュール通りの自動データスクレイピング
ユーザーは、いつでも、たとえリアルタイムでも、スクレイピングを実行できるようにクローラーの予定を決めることができます。


②リアルタイム抽出のためのAPI経由での接続
RESTful APIに接続すると、抽出されたデータをリアルタイムなど任意の希望する頻度で取得できます。
IPブロッキングを防ぐIPローテーション
これまでに、Webサイトをよくスクレイピングする場面で、IPアドレスが使えなくなってWebサイトにアクセスできなくなって、ものすごくイライラしたことがありますか?ありますよね。例えば、ソーシャルプラットフォームや企業電話帳などの注目を集めるWebサイトからデータを抽出している場合は、特によく起こります。しかしOctoparseを使用すると、匿名のHTTPプロキシ・サーバーを何台も使い回してブロックされる可能性を最小限に抑えることにより、これらのWebサイトをスクレイピングすることができます。
データのデータベースへの自動エクスポート
OctoparseのクラウドサービスはSQLサーバー、MySQL及びOracleのデータベースへの自動エクスポートもサポートしています。ここ説明を読み、データベースをOctoparseに接続する手順に従って下さい。


5.まとめ
Octoparse機能豊富な視覚的に理解しやすいWebスクレイピングツールです。特に、ノンテクニカルユーザーが簡単にWebスクレイピングできるという点では、間違いなく支持できます。Octoparseのソフトウェアは、優秀かつ汎用性が高いので、ほとんどの動的なサイトをかなり簡単にスクレイピングできます。また、無制限のWebページのスクレイピングをサポートしている無料のプランが付いてこの価格なのも、明らかに「財布に優しい」です。以上のことから、Octoparseは、絶対に試す価値があります