R 網頁數據爬蟲1

来源:http://www.cnblogs.com/keyao/archive/2016/10/07/5935293.html
-Advertisement-
Play Games

For collecting and analyzing data. 【啟示】本處所分享的內容均是筆者從一些專業書籍中學習所得,也許會有一些自己使用過程中的技巧、心得、小經驗一類的,但遠比不上書中所講述的精彩翔實。只因自己在學習過程中深感在R爬蟲應用中互聯網可搜索的公開資源並不如其它知識豐富,特此稍 ...


For collecting and analyzing data.

【啟示】本處所分享的內容均是筆者從一些專業書籍中學習所得,也許會有一些自己使用過程中的技巧、心得、小經驗一類的,但遠比不上書中所講述的精彩翔實。只因自己在學習過程中深感在R爬蟲應用中互聯網可搜索的公開資源並不如其它知識豐富,特此稍作分享以供後來者鑒,也因此關於這一塊的內容不做原創聲明,歡迎朋友們一起交流學習、批評指正,以期共同進步。EMAIL:[email protected]

1.WHY R?

即使對於非專業人員而言,也多少耳聞目前的R在爬蟲應用的表現也遠不如其它軟體,R既非專業適合的軟體、而八爪魚一類的簡單應用也完全可以滿足我們這些"偶爾的用戶",那麼為什麼需要用R爬蟲呢?我認為每一個來搜索R爬蟲技巧的朋友都有自己的答案。

提醒幾個個優勢:

#1.FOR a software environment with a primarily statistical focus.

#2.there will be an amazing visual work.

#May be a complete set of operational procedures.

2.About basics.

we need threw ourselves into the preparation with some basic knowledge of HTML, XML and the logic of regular expressions and Xpath, BUT the operations are executed from WIHTIN R!

3.RECOMMENDATION

http://www.r-datacollection.com

4.A little case study.

#爬取電影票房信息
library(stringr)
library(XML)
library(maps)
#htmlParse()用來interpreting HTML
#創建一個object
movie_parsed<-htmlParse("http://58921.com/boxoffice/wangpiao/20161004",
                        encoding = "UTF-8")
#the next step:extract tables/data
#readHTMLTable() for identifying and reading out those tables
tables<-readHTMLTable(movie_parsed,stringsAsFactors=FALSE)
is.matrix(tables)
is.character(tables)
is.data.frame(tables)
is.list(tables)
#so we got an "list" format#

 

因為R對於中文的支持不是很好,所以碰到一些中文亂碼是正常的,所以我們需要more advanced text manipulation tools.(本例中出現了部分列信息的完全丟失是因為該網站的某些列的數據是以.png格式放置的。)

5.ABC's of...

For browsing the Web, there is a hidden standard behind the scenes that structures how information is displayed.

#HTML or the hypertext markup language

Not a dedicated data storage format, but usually contains the useful information. And in general HTML is used to shape the display of information.

#XML the extensible markup language or XML

The main purpose of XML is to storage data. Thus HTML documents are interpreted and transformed in to pretty-looking output by browsers, whereas XML is "just" data wrapped in user-defined tags. The user-defined tags make XML much more flexible for storing data than HTML. Both HTML and XML-style document offer natrual, often hierarchical, structures for data storage. 

(unfinished......)

#JSON or JavaScript Object Notation

基於JavaScript語言的輕量級的數據交換格式

#AJAX or "Asynchronous JavaScript and XML"

____________________________________________________________________________________________

HTTP R
XML/HTML XPath
JSON JSON parsers
AJAX Selenuim
Plain text                Regular expressions

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 題目鏈接 http://acm.hdu.edu.cn/showproblem.php?pid=5925 Problem Description TanBig, a friend of Mr. Frog, likes eating very much, so he always has dreams ...
  • 一、安裝VS2013,下載wpdpack,為VS2010配置WinpCap環境: ⑴首先在View中選擇Property Manager,然後展開工程,再展開Debug|Win32 ,接著右擊 Mircrosoft.Cpp.Win32.user選擇Properties(此處設置全局有效) ⑵之後分三 ...
  • 現在我們要做這麼一個媒體庫,用來存放CD和DVD。可以往媒體庫里添加CD和DVD,還可以列出來媒體庫里所有的CD和DVD。 我們用到了繼承的概念:CD是一個對象,DVD也是。兩者又有很多相似的地方,比方說都有名字,播放時間,評論,等等,為了以後便於管理和調試,我們做了一個父類叫Item,它下麵有兩... ...
  • 以現有的同類對象進行初始化類的對象,或者通過按值傳遞方式給函數傳遞對象,調用預設複製構造函數。 當賦值語句的左邊和右邊是同類類型的對象時,調用預設賦值運算符。 ...
  • iOS 10 新規定,在取用相機,相簿,聯絡資訊,麥克風需要在 Info.plist 加入指定的 key,否則閃退: Info.plist ...
  • Netbeans 8.2在這個國慶期間終於發佈了,其與PHP相關的新特性主要有: 支持PHP 7 詳見前面翻譯的一篇文章: "Netbeans 8.2將支持PHP 7" 編輯器功能增強 文檔好像沒有明確說明,我也還沒有發現。 PHP項目支持自定義註解 操作如下圖: 然後,當你在編寫代碼註解時,就可以 ...
  • C++類中的虛表結構是C++對象模型中一個重要的知識點,這裡咱們就來深入分析下虛表的在記憶體中的結構。 C++一個類中有虛函數的話就會有一個虛表指針,其指向對應的虛表,一般一個類只會有一個虛表,每個虛表有多個”插槽”,每個插槽存放一個虛函數的地址。插槽中的內容可以被覆蓋,子類如果重寫了父類中的虛函數, ...
  • 代碼如下: import java.util.Enumeration; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; import java.util.Properties; import j... ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...