东北真人麻将手机版

歡迎來到濟寧邁馳網絡科技有限公司官網!

濟寧GOOGLE推廣
您的當前位置: 首 頁 >> 新聞中心 >> 技術知識

分析爬網數據時 不要低估先進的過濾功能

發布日期:2016-07-27 作者: 點擊:

分析爬網數據時

不要低估先進的過濾功能

在幫助客戶處理主要算法更新/排除技術性SEO問題等問題的同時,經常審核大型網站。這幾乎總是需要一個徹底的網站抓取(通常在一個接觸的生命周期中幾次爬行)。搜索可能會在網站上發生破壞,切割和抓取數據集中分析非常重要。

 

通過良好的數據過濾,您通常會出現可能導致嚴重問題的頁面類型或子域。一旦出現,您可以大量分析這些領域,以更好地了解核心問題,然后解決需要修復的內容。

 

從爬蟲的角度來看,我已經在搜索引擎上覆蓋了我最喜歡的DeepCrawl和Screaming Frog上了。兩者都是出色的工具,我通常使用DeepCrawl進行企業爬網,同時使用Screaming Frog進行外科手術抓取。在我看來,使用DeepCrawl和Screaming Frog的組合是殺手,并且我經常在使用兩個工具時說1 + 1 = 3。

 

下面我將介紹幾個在兩個工具中使用過濾的示例,以便您能夠了解我所指的內容。通過過濾抓取數據,您將可以將網站的特定區域進行隔離和表示,以便進一步分析。一旦你開始這樣做之后,你就會磁環這樣的方式的。

可索引頁面

我們從一個基本但是很重要的過濾器開始。內容質量在多個層面上可能是非常有問題的,您絕對希望確保這些問題不存在于可索引頁面上。當Google從質量角度對網站進行評估時,需要考慮整個網站。

 

因此,當您在網站上出現問題時,可以通過可索引的URL過濾該列表,以便將您的分析集中在可能會損害網站質量的網頁上。而且并不是因為沒有被索引而忽略其他的URL!你也應該絕對照顧他們。請記住,用戶正在與這些頁面進行交互。在挖掘內容時,可以隔離編入索引的頁面。

對于那些喜歡正則表達式的人,這里有一個好消息。DeepCrawl支持高級過濾的正則表達式。 因此,您可以選擇一個過濾器,然后選擇“匹配正則表達式”或“不匹配正則表達式”來執行一些手術過濾。 順便說一句,真的有一個“不匹配正則表達式”過濾器來開始刪除要排除的URL,包括。

 

例如,讓我們通過使用管道字符來簡單地組合過濾器中的三個不同的目錄。管道字符在正則表達式中表示“或”。

或者,如何排除特定目錄,然后專注于僅以兩個或三個字符結尾的URL(這是在特定審計期間從內容角度認為是有問題的URL的實際示例):

或者,如何將頁面類型的正則表達式與字數混合,以通過頁面類型或目錄來識別真正的薄頁面? 這就是為什么過濾功能非常強大(節省時間)。

你得到的照片。您可以包含或排除您想要的任何類型的網址或模式。您可以對過濾器進行分層以磨練報告。對于大規模抓取進行聚焦是非常驚人的。

規范問題:響應首部

去年,有一篇關于如何檢查X-Robots-Tag以解決潛在危險的機器人指令(因為它們可以通過標題響應傳遞,并且肉眼看不見)的帖子。在大型網站上,這可能是非常險惡的,因為當表面看起來很好時,頁面可能會被錯誤地標記出來。

 

那么你也可以通過標題響應來設置rel規范。這可能會導致一些奇怪的問題(如果您不知道如何設置相關規范,可能會讓您感到瘋狂)。在某些情況下,您可以使用多個標準標簽(一個通過標題響應)并在html中設置一個)。當這種情況發生時,Google可以忽略所有規范的標簽,如他們的博文中解釋的關于rel規范的常見錯誤。

 

通過檢查“沒有有效的規范標簽的頁面”報告,然后通過rel相關的規范標題URL和rel規范的html URL進行過濾,可以顯示所有具有此問題的URL。然后,您可以挖掘開發團隊,以確定為什么發生在代碼方面。

在大規模爬行(如404s,500s和其他)中,您無疑會遇到爬網錯誤。只是知道返回錯誤的URL往往不夠好。您真的需要跟蹤網站上鏈接的位置。

 

你想要解決大規模的問題,而不僅僅是一次性的。為此,請從任何抓取錯誤報告(或非200報告)中的“發現”URL過濾。然后,您可以使用正則表達式來表達頁面類型和/或可能鏈接到返回爬網錯誤的頁面的目錄。

檢查AMP URL:rel鏈接

使用加速移動頁面(AMP)?要仔細檢查您通過html中rel = amphtml引用的URL,您可以檢查“所有rel鏈接”報告,并通過amphtml進行過濾。然后,您可以為“URL到”應用另一個過濾器,以確保這些是正在引用的真正的擴展名。再次,這只是一個簡單的例子,說明如何過濾可以揭示坐在表面下面的險惡問題。

在DeepCrawl中分析爬網數據時,我提供了幾個示例,您可以使用高級篩選方式進行操作。 但是當您要導出該數據時呢?由于您做了這么好的工作篩選,您絕對不想在導出時丟失已過濾的數據。

 

因此,DeepCrawl具有“生成已過濾的CSV”功能的強大選項。通過使用此功能,您可以輕松地導出過濾的數據與整個enchilada。然后,您可以進一步分析Excel或發送給您的團隊和/或客戶。

Screaming Frog過濾

對于Screaming Frog,過濾器不是很強大,但您仍然可以在UI中過濾數據。許多人不知道這一點,但在搜索框中支持正則表達式。因此,您可以使用DeepCrawl(或其他位置)中使用的任何正則表達式,以便在尖叫青蛙中按報告類型過濾網址。

 

例如,檢查響應代碼并希望按目錄快速檢查這些URL?然后使用管道字符來包含特定的頁面類型或目錄(或模式)。您會看到基于正則表達式的報告更改。

您可以利用預過濾的報告,然后對自己的過濾進行分層。 例如,您可以檢查具有較長標題的頁面,然后使用正則表達式過濾以開始浮雕特定頁面類型或模式。

過濾器適用于所有列! 因此,您可以對該特定報告中列出的任何列使用正則表達式。 例如,從包含規范網址標記的所有網址開始,然后我使用“noindex”表達包含元漫游標簽的網址。

 

如果一個URL是沒有索引的,那么它不應該包含規范的URL標簽(這兩個都相互抵觸)。 Rel規范告訴引擎哪些是索引的首選URL,而使用noindex的元機器人標簽告訴引擎不對URL進行索引。這是沒有意義的。 這只是一個簡單的例子,您可以在Screaming Frog中過濾。 注意:Screaming Frog有一個“規范錯誤”報告,但這是一個快速的方式來過濾UI中的表面問題。

 

從導出的角度來看,不幸的是不能僅導出已過濾的數據。但是,您可以快速將過濾的數據復制并粘貼到Excel中。誰知道,也許聰明的人在Screaming Frog將建立一個“導出過濾的數據”選項。

總結

        花費大量時間抓取網站和分析抓取數據,不能不強調過濾的力量。當您添加正則表達式支持時,您可以真正開始對數據進行切片和切割,以便潛在的問題出現。而且您可能越快遇到問題,您可以更快地解決這些問題。這對于具有數萬,數十萬甚至數百萬頁的大型網站尤其重要。所以繼續...過濾掉。

轉載請注明出處,全球貿易通-外貿電商學院http://edu.bossgoo.com/marketing/seo/341.html


本文網址:http://www.coahxu.tw/news/377.html

關鍵詞:

最近瀏覽:

相關產品:

相關新聞:

合作媒體

1528338726287599.png1528338736877165.png1528338745886501.png1528338755724081.png1528338764444479.png1528338886163884.png