9 Báo Cáo Dễ Bị Bỏ Lỡ Trong Screaming Frog Và Deepcrawl

Thảo luận trong 'Thủ thuật SEO' bắt đầu bởi cuongapple, 4 Tháng sáu 2016.

 

  1. cuongapple

    cuongapple

    Supper Mod

    Staff Member

    Tham gia ngày:
    4 Tháng bảy 2014
    Bài viết:
    993
    Đã được thích:
    100
    Điểm thành tích:
    43
    Giới tính:
    Nam
    Nghề nghiệp:
    Sinh viên
    Nơi ở:
    Hà Nội
    Diễn đàn SEO Việt Nam - Bạn đã khắc phục các vấn đề SEO trên một trang web hoặc thực hiện audit kỹ thuật SEO? Nếu vậy, hôm nay tôi sẽ đề xuất một báo cáo mạnh mẽ nhưng ít được biết đến trong 2 công cụ thu thập thông tin phổ biến.

    Tôi đã viết nhiều bài viết về cách sử dụng công cụ thu thập thông tin để giúp đỡ SEO. Dựa vào số lượng audit mà tôi đã hoàn thành, tôi muốn nói rằng bạn không bao giờ thực sự biết những gì đang xảy ra với một trang web lớn và phức tạp cho đến khi bạn crawl nó.

    [​IMG]

    Có 2 công cụ yêu thích của tôi đó là DeepCrawl và Screaming Frog. Cả 2 đều là những công cụ rất tuyệt vời với các tính năng có giá trị.

    Cả 2 công cụ đều cung cấp dữ liệu khá đa dạng nhưng tôi nhận thấy rằng có một số báo cáo mạnh mẽ và quan trọng mà nhiều người thường bỏ qua. Trong bài viết này, tôi sẽ đưa ra 9 báo cáo thường dễ dàng bị bỏ qua. Và bây giờ chúng ta hãy cùng bắt đầu tìm hiểu.

    Hidden Frog: dễ bỏ lỡ nhưng mạnh mẽ, báo cáo Screaming Frog

    Hầu hết các SEO biết rằng bạn cần phải chuyển hướng URL cũ với các URL mới khi thiết kế lại trang web hoặc migrate CMS. Nhưng tôi đã nhìn thấy quá nhiều người kiểm tra chuyển hướng 301 ban đầu và dừng nghiên cứu của họ.

    301 có thể dẫn đến một mã phản hồi 200 header, điều đó là rất tốt. Nhưng nó cũng có thể dẫn đến 404 mà điều này là không hề tốt chút nào. Hoặc nó có thể dẫn đến chuyển hướng 301 khác. Hoặc có thể nó sẽ dẫn đến một lỗi 500. Và đây là nơi báo cáo Redirect Chains trong Screaming Frog được tỏa sáng.

    Hãy đảm bảo rằng bạn kiểm tra hộp “Always Follow Redirects” trong cài đặt và sau đó crawl các URL cũ.

    [​IMG]

    Screaming Frog sẽ follow các chuyển hướng, sau đó cung cấp đường dẫn đầy đủ từ chuyển hướng ban đầu đến 200, 301, 302, 404, 500 và tương tự. Để export báo cáo, bạn phải click vào “Reports” trong menu chính và sau đó chọn Redirect Chains.

    [​IMG]

    Trong Excel, bạn sẽ thấy URL ban đầu được chuyển hướng và sau đó là các URL bạn đang chuyển hướng. Và nếu đó là URL thứ hai được chuyển hướng, bạn có thể follow chuỗi chuyển hướng. Điều này là cực kỳ quan trọng. Nếu 301 dẫn đến 404 thì bạn có thể mất đi thứ hạng và lưu lượng truy cập từ các trang đó. Điều này là không tốt.

    [​IMG]

    Nội dung không an toàn

    Nhiều trang web được chuyển sang HTTPS mà hiện tại Google đang gây áp lực lên nó. Khi bạn di chuyển đến HTTPS, có một số item để kiểm tra để đảm bảo việc di chuyển đang được xử lý đúng cách. Nếu bạn làm không đúng cách, bạn sẽ gặp một lỗi như thế này:

    [​IMG]

    Nhiều người không biết điều này nhưng Screaming Frog có một báo cáo được xây dựng trong đó cho thấy nội dung không an toàn. Một lần nữa, click vào "Reports”" trong menu chính và chọn "Insecure Content". Báo cáo sẽ liệt kê các nguồn nội dung không an toàn và có HTTPS URL được gửi đến.

    Khi bạn chạy báo cáo sau khi migrate tới HTTPS, bạn có thể export nó và gửi dữ liệu đến các nhà phát triển của bạn.

    [​IMG]

    Lỗi Canonical

    Thẻ URL canonical là một cách mạnh mẽ để đảm bảo rằng các công cụ tìm kiếm hiểu URL ưa thích của bạn. Điều này có thể giúp cắt giảm nội dung trùng lặp.

    Nhưng thẻ URL canonical cũng là một cách dễ dàng để tiêu diệt SEO với chỉ một dòng code. Tôi đã nhìn thấy nhiều thất bại về thẻ canonical trong những năm qua. Và trong trường hợp xấu nhất, nó có thể gây ra các vấn đề SEO lớn - ví dụ canonical toàn bộ một trang web vào trang chủ hoặc trỏ rel canonical đến các trang 404.

    Có nhiều cách để làm hỏng thẻ rel canonical nhưng vấn đề với SEO là nó tiềm ẩn ở bên dưới. Thẻ này là vô hình đối với mắt thường nhưng lại rất nguy hiểm. Vì vậy, Screaming Frog cung cấp một báo cáo “Canonical Errors” để giúp bạn hiển thị những vấn đề này một cách nhanh chóng. Chỉ cần vào menu "Reports” và chọn "Canonical Errors”.

    [​IMG]

    Sau khi export báo cáo, bạn sẽ nhìn thấy một lỗi canonical mà Screaming Frog thu nhặt trong quá trình crawl. Bạn có thể bị sốc trước những gì bạn tìm thấy. Tin tốt là bạn có thể gửi báo cáo cho nhóm dev của bạn để họ có thể tìm hiểu rõ lý do tại sao những lỗi này đang xảy ra và thực hiện những thay đổi cần thiết để sửa chữa các vấn đề cốt lõi.

    [​IMG]

    Đi sâu hơn với DeepCrawl

    Pagination-: trang đầu tiên

    Pagination là phổ biến trên các trang web quy mô lớn, đặc biệt là các trang web thương mại điện tử chứa các categories được lấp đầy với nhiều sản phẩm.

    Nhưng pagination cũng là một chủ đề khó hiểu đối với nhiều SEO, mà thường dẫn đến một thiết lập không đúng theo quan điểm kỹ thuật SEO.

    DeepCrawl 1.9 (phiên bản hiện tại) có chứa một số báo cáo cực kỳ có giá trị mà có thể giúp bạn săn lùng những vấn đề. Ví dụ, khi bạn đang thu thập một trang web lớn và phức tạp, pagination đôi khi có thể nằm sâu trong một trang web. Báo cáo “First Pages” sẽ cho bạn thấy những trang đầu tiên trong một pagination (URL có chứa một thẻ rel = "next"). Điều này có thể giúp bạn theo dõi các điểm khởi đầu cho nhiều trường hợp phân trang trên một trang web quy mô lớn.

    Bạn sẽ tìm thấy tập các báo cáo pagination trong DeepCrawl bằng cách nhấn vào tab "Content" và sau đó di chuyển đến dưới cùng của Content Report. Dưới đây là một ảnh chụp màn hình của báo cáo First Pages.

    [​IMG]

    Khi bạn tìm thấy pagination trong báo cáo First Pages, bạn có thể đào sâu hơn và tìm ra nếu pagination đã được thiết lập đúng. Các trang có phần liên kết với nhau? Rel next/prew có được sử dụng đúng cách? Điều gì xảy ra với rel canonical? Các trang có bị noindex?

    Bạn có thể tìm ra câu trả lời cho tất cả những câu hỏi này và nhiều hơn nữa. Nhưng một lần nữa, bạn cần phải tìm tất cả các trường hợp của pagination first. Đó là nơi mà báo cáo này sẽ giúp bạn.

    Pagination: các trang không được liên kết

    Phần tiếp theo đó là theo dõi các trang được bao gồm trong các thẻ rel next/prev nhưng không được liên kết với nhau trên trang web. Việc tìm những trang này có thể giúp phát hiện ra các vấn đề kỹ thuật SEO. Ví dụ, URL có thể chứa một thẻ rel next mà được liên kết đến các trang tiếp theo trong tập này. Các trang với rel=”next” và rel=”prev” phải được liên kết với cả các trang trước và sau.

    Nếu bạn tìm thấy thẻ rel next/prev mà các URL được liên kết với nhau nó có thể báo hiệu vấn đề tiềm ẩn hơn. Có thể cần phải loại bỏ code trên các trang. Cần phải có các liên kết đến các trang này nhưng chúng không được hiển thị trong code hoặc trên trang. Có thể đó không phải là một "next page" nhưng vẫn có một thẻ rel=”next” mà trỏ đến 404. Bạn sẽ không bao giờ biết những gì bạn sẽ tìm thấy cho đến khi bạn đào sâu hơn.

    [​IMG]

    Max Redirections

    Như tôi đã đề cập trước đó có một số chuyển hướng khá nhiều lần. Và khi điều đó xảy ra, nó sẽ gây ra vấn đề. Hãy nhớ rằng, bạn chỉ nên chuyển hướng một lần đến trang đích. Như John Mueller đã giải thích, nếu Google nhìn thấy nhiều hơn 5 lần chuyển hướng, nó có thể dừng lại và nó có thể cố gắng một lần nữa trong lần crawl tiếp theo.

    DeepCrawl cung cấp một báo cáo “Max Redirections” trong đó cung cấp tất cả các URL chuyển hướng nhiều hơn bốn lần. Đó là một cách tuyệt vời để dễ dàng xem và phân tích các URL đó. Và tất nhiên, bạn có thể sửa chữa những chuyển hướng chuỗi một cách nhanh chóng. Bạn có thể tìm thấy báo cáo Max Redirections trong DeepCrawl bằng cách click vào tab "Validation" và cuộn nó đến phần có nhãn "Other".

    [​IMG]

    Các trang với các thẻ hreflang

    Hreflang là một cách tuyệt vời để buộc các URL với nhiều ngôn ngữ với nhau. Sau đó Google có thể cung cấp phiên bản chính xác của trang trong SERPs dựa trên ngôn ngữ của người dùng.

    Nhưng dựa theo kinh nghiệm của tôi, tôi đã nhìn thấy có khá nhiều lỗi hreflang trong các cuộc audit. Ví dụ, bạn phải có các thẻ return trên các trang được tham chiếu bởi các trang khác. Vì vậy, nếu trang "en" của bạn tham chiếu đến trang "es" của bạn thì trang "es" cũng phải tham chiếu đến trang "en". Dưới đây là một ví dụ về lỗi “no return tags” hiển thị trong Google Search Console.

    [​IMG]

    Ngoài ra, có những cách khác có thể làm hỏng thẻ hreflang như cung cấp mã ngôn ngữ không chính xác. Do đó, bạn muốn biết tất cả các trang có chứa hreflang, bạn có thể đào sâu hơn để hiểu nếu những thẻ đó được thiết lập đúng.

    Trong DeepCrawl, có một số báo cáo để phân tích hreflang. Cơ bản nhất nhưng mạnh mẽ nhất là báo cáo “Pages with hreflang Tags”. Nó sẽ liệt kê tất cả các trang có chứa thẻ hreflang, cung cấp tất cả các thẻ được tìm thấy trên mỗi trang và cho biết chúng đang được cung cấp trong HTML của trang thông qua sitemaps XML. Bạn có thể tìm thấy báo cáo hreflang trong DeepCrawl bằng cách nhấn vào tab Validation” và cuộn đến phần có nhãn "Other".

    [​IMG]

    DeepCrawl 2.0 sẽ sớm được ra mắt

    Hiện tôi đang thử nghiệm phiên bản mới nhất trong phiên bản beta, phiên bản 2.0 và nó sắp được ra mắt. Nó sẽ có một số báo cáo mới và vô cùng giá trị. Bạn hãy nhớ rằng bạn không thể truy cập vào các báo cáo trong phiên bản hiện tại (1.9) nhưng bạn sẽ có thể nhìn thấy trong 2.0, nó sắp được ra mắt trong vài tuần tới.

    Disallowed JS/CSS

    Để Googlebot render một trang một cách chính xác, nó cần phải lấy các nguồn tài nguyên cần thiết (như CSS và JavaScript). Nếu các nguồn tài nguyên bị chặn bởi robots.txt thì Google sẽ không thể render trang một cách chính xác như một trình duyệt thông thường. Google giải thích rằng các nguồn tài nguyên bị chặn có thể gây tổn hại đến việc index các trang của bạn. Điều này là không tốt.

    Sử dụng Fetch as Google trong Google Search Console và chọn “fetch and render” là một cách tuyệt vời để kiểm tra cách Googlebot có thể render các trang cá nhân. Nó có thể kiểm tra 50.000 trang, 500.000 trang, 1.000.000 trang hoặc nhiều hơn? Vâng, báo cáo mới trong DeepCrawl 2.0 là một cách tuyệt vời để nhanh chóng xem những nguồn tài nguyên bị chặn trên một trang web. Sau đó, bạn có thể khắc phục những vấn đề một cách nhanh chóng.

    [​IMG]

    Nguồn tài nguyên HTTP trên HTTPS

    Có rất nhiều trang web được chuyển sang HTTPS nhưng cũng có rất nhiều trang web phục vụ nội dung không chính xác khi chuyển từ HTTP qua HTTPS (dẫn đến một lỗi nội dung không phù hợp). DeepCrawl 2.0 cho phép bạn thu thập dữ liệu với quy mô lớn. Khi bạn xác định nguồn tài nguyên HTTP được chuyển sang HTTPS, bạn có thể làm việc với các nhà phát triển để khắc phục các vấn đề.

    [​IMG]

    Các bước tiếp theo: Hãy chắc chắn rằng bạn sẽ kiểm tra các báo cáo này

    Bây giờ, bạn đã có 9 báo cáo để phân tích xa hơn với 2 công cụ Screaming Frog và DeepCrawl. Các báo cáo tôi đề cập trong bài viết này cung cấp những dữ liệu quan trọng có thể giúp bạn hiển thị các vấn đề kỹ thuật SEO. Vì vậy, hãy kiểm tra chúng để áp dụng cho trang web của bạn.

    Ghi nguồn
    PHP:
    www.thegioiseo.com

    Các bài viết mới cùng chuyên mục:

Chia sẻ trang này