Nếu thuật toán Penguin dùng để rà soát về vấn đề kỹ thuật của một website, thì thuật toán Panda sẽ tập trung vào chất lượng nội dung bài viết của bạn. Nếu không hiểu một số quy tắc của Panda, rất có thể website bạn sẽ bị dính án phạt và rớt top đấy. Vậy Google Panda là gì? Ở bài viết này, hãy cùng Minimo tìm hiểu về những điều cơ bản cần biết về thuật toán này nhé!
Google Panda là gì?
Ra mắt vào tháng 2/2011, Google Panda là một thuật toán về SEO của Google, với mục đích lọc ra và phạt những trang web có nội dung rác, nội dung copy hay những website kém nổi bật, từ đó thay đổi xếp hạng trên trang kết quả tìm kiếm SERP.
Thông qua thuật toán Panda, dần dần các website đã nhìn thấy được tầm quan trọng của việc tập trung vào chất lượng nội dung và trải nghiệm của người dùng.
Tại sao Google tạo ra thuật toán Panda?
Vào năm 2010, chất lượng kết quả tìm kiếm của Google ngày càng giảm sút do sự phát triển của mô hình Content Farm (content nhằm mục đích tăng xếp hạng website mà không tập trung vào nội dung). Có một số lời phàn nàn đã được đưa ra đối với cách xếp hạng này của Google.
Điển hình như vào tháng 1/2011, Business Insider đã đưa ra một bài báo có tiêu đề nói lên tất cả: Google’s Search Algorithm Has Been Ruined, Time to Move Back to Curation. (Tạm dịch: Thuật toán xếp hạng tìm kiếm của Google đã bị hủy hoại, đã đến lúc quản lý lại nó).
Hay trong một bài viết khác, họ đã đưa ra ý kiến rằng, bởi vì thuật toán của Google đánh giá nội dung phong phú và ổn định hơn là một nội dung chất lượng, do đó có nhiều trang web ký hợp đồng với hàng nghìn người làm việc tự do để viết nên hàng nghìn bài viết với nội dung thấp nhằm thực hiện chiến thuật giúp đẩy top trang web.
Ngoài ra, ReadWriteWeb cũng chỉ ra một điều là 2 Content Farm – Demand Media (của eHow Infamy) và Answers.com đã có một vị trí vững chắc trong 20 vị trí đầu ở Hoa Kỳ (được đo bằng công cụ comStore). Trong đó, Demand Media là một ví dụ điển hình về Content Farm khi sản xuất ra 7.000 nội dung mỗi ngày.
Công ty này hoạt động dựa trên một quy trình đơn giản: tạo ra rất nhiều nội dung thích hợp, chủ yếu là nội dung tẻ nhạt nhắm đến các công cụ tìm kiếm, sau đó lan truyền thông chúng qua trang mạng xã hội và kiếm thật nhiều tiền quảng cáo.
Có thể chính vì xuất hiện quá nhiều những ý kiến trái chiều về việc này, thuật toán Panda đã xuất hiện nhằm:
- Kiểm tra chất lượng về nội dung của website, loại bỏ nội dung rác, nội dung không đúng hay copy từ những trang khác.
- Giảm thứ hạng của các trang web chất lượng thấp trong Organic Search của Google.
- Tăng thứ hạng cho các trang web có nội dung chất lượng cao.
Những gì chúng ta biết được về thuật toán Panda
Trước khi triển khai thuật toán này, Singhal nói rằng Google đã gửi các bộ câu hỏi đến những người khác nhau nhằm đánh giá sự quan tâm của người dùng đối với chất lượng nội dung của một trang web.
Trong một cuộc phỏng vấn, họ đã phát triển thuật toán bằng cách so sánh kết quả các câu hỏi trong những câu trả lời của người tham gia khảo sát.
Singhal đã đưa ra 23 câu hỏi sau cho người tham gia khảo sát:
Bản gốc | Tạm dịch |
Would you trust the information presented in this article? | Bạn có tin tưởng những thông tin trong bài viết này? |
Is this article written by an expert or enthusiast who knows the topic well, or is it more shallow in nature? | Bài viết này có được viết bởi chuyên gian trong lĩnh vực hay không, hay nó chỉ là chia sẻ ở mức độ nông cạn? |
Does the site have duplicate, overlapping, or redundant articles on the same or similar topics with slightly different keyword variations? | Trang website có các bài viết trùng lặp hoặc dư thừa trên cùng chủ đề, các bài viết có tính chất tương tự nhau hay không? |
Would you be comfortable giving your credit card information to this site? | Bạn có cảm thấy thoải mái khi cung cấp thông tin thẻ tín dụng cho trang website này hay không? |
Does this article have spelling, stylistic, or factual errors? | Bài viết này có lỗi chính tả hay không? |
Are the topics driven by genuine interests of readers of the site, or does the site generate content by attempting to guess what might rank well in search engines? | Các chủ đề bài viết trên trang website có thực sự xuất phát từ nhu cầu của người đọc hay không. Hay chỉ biết với mục đích mong muốn được sắp xếp trên công cụ tìm kiếm? |
Does the article provide original content or information, original reporting, original research, or original analysis? | Bài viết có được liên kết dẫn chứng tới nội dung gốc hay các dẫn chứng nghiên cứu đầu tiên không? |
Does the page provide substantial value when compared to other pages in search results? | Bài viết có cung cấp thông tin kiến thức đáng kể hơn các bài viết tương tự khác trên internet không? |
How much quality control is done on content? | Có bao nhiêu người kiểm soát chất lượng trên nội dung này? |
Does the article describe both sides of a story? | Bài viết có được mô tả cả hai mặt của một câu chuyện hay không? |
Is the site a recognized authority on its topic? | Trang website có được các cơ quan có thẩm quyền công nhận về chủ đề đó không? |
Is the content mass-produced by or outsourced to a large number of creators, or spread across a large network of sites, so that individual pages or sites don’t get as much attention or care? | Nội dung được sản xuất hàng loạt hoặc được thuê với số lượng lớn người tạo ra chúng? |
Was the article edited well, or does it appear sloppy or hastily produced? | Bài viết có được chỉnh sửa hay không? Nó có được xuất bản vội vàng cẩu thả hay không? |
For a health-related query, would you trust information from this site? | Đối với thông tin bài viết liên quan đến sức khoẻ bạn có tin tưởng vào bài viết trên trang web này không? |
Would you recognize this site as an authoritative source when mentioned by name? | Bạn có nhận ra trang website này là một nguồn có thẩm quyền được đề cập theo tên hay không? |
Does this article provide a complete or comprehensive description of the topic? | Bài viết này có cung cấp mô tả đầy đủ hoặc toàn diện về chủ đề không? |
Does this article contain insightful analysis or interesting information that is beyond obvious? | Bài viết này có chứa những phân tích sâu sắc hoặc thông tin thú vị vượt quá mức hiển nhiên không? |
Is this the sort of page you’d want to bookmark, share with a friend, or recommend? | Đây có phải là loại trang bạn muốn đánh dấu, chia sẻ với bạn bè hoặc giới thiệu không? |
Does this article have an excessive amount of ads that distract from or interfere with the main content? | Bài viết này có quá nhiều quảng cáo làm xao lãng hoặc cản trở nội dung chính không? |
Would you expect to see this article in a printed magazine, encyclopedia, or book? | Bạn có muốn thấy bài viết này trên tạp chí in, bách khoa toàn thư hoặc sách không? |
Are the articles short, unsubstantial, or otherwise lacking in helpful specifics? | Các bài viết có ngắn gọn, không có nội dung hay thiếu thông tin cụ thể hữu ích không? |
Are the pages produced with great care and attention to detail vs. Less attention to detail? | Các trang được tạo ra có sự cẩn thận và chú ý đến từng chi tiết hay không? |
Would users complain when they see pages from this site? | Người dùng có phàn nàn khi họ xem các trang từ trang này không? |
Hầu hết các SEOer đều kết luận rằng Panda hoạt động bằng cách sử dụng máy móc để đưa ra dự đoán chính xác về cách con người đánh giá chất lượng nội dung. Nhưng vẫn còn nhiều thắc mắc rằng những tín hiệu nào sẽ được tích hợp vào thuật toán này để xác định chất lượng của trang web.
Panda và Google EEAT
Vào năm 2012, Google đã giới thiệu về EAT – nguyên tắc chất lượng tìm kiếm tập trung vào Chuyên môn (Expertise), Quyền hạn (Authority) và Độ tin cậy (Trustworthiness).
Đến năm 2022, Google đã bổ sung thêm 1 chữ E (Experience) để tạo thành EEAT.
Kể từ năm 2018, những Marketer dần tập trung vào những nguyên tắc này. Giống như Panda, những nguyên tắc này tập trung vào chất lượng nội dung và trải nghiệm người dùng, với trọng tâm là tránh:
- Nội dung mỏng và không có thông tin.
- Thiếu nguồn có thẩm quyền.
- Nội dung không đáng tin cậy và các liên kết có vấn đề.
Những nguyên nhân nào khiến trang website bị dính án phạt Panda?
Nội dung mỏng, ít thông tin (Thin Content)
Có thể hiểu ý nghĩa của Thin Content chính là content ngắn và có chất lượng thấp, với những lỗi cơ bản sau:
- Nội dung copy từ những bài viết khác.
- Nội dung không cung cấp thông tin hữu ích cho người đọc.
- Chủ đề không đồng nhất, mỗi bài viết có nội dung không liên quan đến lĩnh vực chính của website.
Trùng lặp nội dung (Duplicate Content)
Duplicate Content xảy ra ở những trang web ngoài, hoặc trên chính website của bạn, có nghĩa là có nhiều trang nhưng chỉ chứa cùng một nội dung, hoặc sự thay đổi trong nội dung giữa các trang không lớn.
Google tính trùng lặp về nội dung theo:
- Nội dung từng trang
- Thẻ Meta Description
- Thẻ Heading
- Code HTML
- Khung giao diện
- Khung design mặc định của website (Ví dụ: bài viết chữ quá ít nhưng khung design lại lớn)
Nội dung có chất lượng thấp
Đây là trường hợp phạt những website có nội dung chất lượng thấp, thiếu thông tin chuyên sâu, truyền tải sơ sài, không phân tích kỹ càng, ít mở rộng chủ đề.
Website không có độ tin tưởng cao, thiếu Authority
Panda sẽ phạt những nội dung được tạo ra bởi các nguồn không được xác minh về Entity, thiếu thẩm quyền (Authority), thiếu độ tin cậy (Trust) cho người dùng.
Content Farm
Như Minimo đã đề cập ví dụ ở bên trên, Content Farm là hình thức các website spam nội dung, nhồi nhét thật nhiều từ khóa nhằm mục đích tăng thứ hạng từ khóa trên công cụ tìm kiếm.
Website có rất nhiều nội dung quảng cáo
Hầu hết các website này được tạo ra nhằm kiếm tiền từ việc đặt banner quảng cáo, trong đó có rất ít nội dung cung cấp giá trị cho người đọc.
Lỗi Schema
Google đưa ra quy định rõ ràng về việc những gì bạn khai báo trên schema phải giống với những gì người dùng thấy trên website của bạn.
Xào nội dung (Spin Content)
Đây là hành vi trộn nội dung của một bài viết nhằm tạo ra một bài viết mới. Hình thức này được Google xem như là nội dung rác.
Keyword Cannibalization
Keyword Cannibalization là hiện tượng xung đột từ khóa giữa các trang trong cùng một website. Bạn có thể hiểu đơn giản hơn là, một truy vấn tìm kiếm nhưng có 2 bài viết khác nhau của cùng một website được xếp hạng tìm kiếm trên Google. Khi Google Panda ghé vào trang web của bạn, nó sẽ ưu tiên quan sát những trang được tối ưu tốt nhất.
Dính án phạt của Google Panda sẽ có những dấu hiệu nào?
Organic Traffic giảm dần
Khi Google Panda bắt đầu phạt website của bạn, traffic sẽ không giảm chạm đáy ngay lập tức như Penguin, mà nó sẽ giảm theo thời gian. Do đó, trong khoảng thời gian đầu, bạn sẽ không nhận ra vấn đề. Nhưng dần dần, sự giảm sút traffic ngày càng nghiêm trọng, kéo theo hàng loạt những hậu quả khác cho website của bạn.
Khi trang web của bạn xuất hiện tình trạng trùng lặp nội dung số lượng ít, Panda sẽ không phạt ngay lập tức. Nhưng nếu con số ấy lên đến 20-30%, Panda sẽ kéo traffic của bạn xuống.
Traffic giảm một nửa
Website của bạn đang hoạt động rất tốt. Bỗng một ngày nào đó, website mất đi một nửa traffic. Đó chính là dấu hiệu của Google Panda. Cần lưu ý đến số lượng traffic của website để nhận biết và sửa lỗi kịp thời khi bị dính án phạt của Google Panda.
Bạn cũng có thể sử dụng Webmaster Tool. Đây là cách giúp bạn nhận được thông tin và những cảnh báo cần thiết từ Google liên quan đến Website để bạn có thể khắc phục kịp thời. Có thể bạn sẽ nhận được thông báo của Google khi bị phạt Panda thông qua Webmaster Tool.
Cách khôi phục website khi dính án phạt của Google Panda
Tối ưu hóa nội dung
Chất lượng nội dung chính là yếu tố hàng đầu quyết định bạn có dính án phạt của Panda hay không. Chính vì vậy, cần tập trung sản xuất những nội dung có ích cho người đọc, loại bỏ những content kém chất lượng và hạn chế việc copy nội dung từ trang web khác.
Thông thường, Panda sẽ đánh giá chất lượng toàn bộ trang web bằng cách xem xét một lượng lớn các trang bên trong và điều chỉnh thứ hạng cho phù hợp. Khi bạn tìm thấy phần nội dung kém chất lượng trên một URL đã bị Panda phạt, bạn có thể thử cách sau:
- Nếu phần content đó còn kém và có thể cải thiện: hãy viết lại nó.
- Nếu content đó quá tốt và không gặp bất kỳ phàn nàn nào của khách hàng: gắn nội dung đó là Noindex.
Bên cạnh cách xóa đi những nội dung dính án phạt Panda, bạn cũng có thể thử thêm nhiều nội dung chất lượng vào bài viết.
Lưu ý, số lượng từ không phải là yếu tố đánh giá một bài viết chất lượng. Có rất nhiều trang có ít nội dung chính, nhưng Google cho rằng trang này đủ chất lượng và vẫn đánh giá cao. Số từ chỉ cần truyền tải đủ nội dung cho truy vấn của người dùng là được.
Ngoài tối ưu nội dung content trong bài viết, bạn cũng phải chú ý tối ưu các thẻ H2-H6, tối ưu hình ảnh đính kèm và những yếu tố khác trong bài viết.
Nâng cao chất lượng tổng thể của website
Chất lượng tổng thể cũng nên được quan tâm trong việc thoát khỏi án phạt của Website. Bạn cần phải cải thiện các yếu tố trải nghiệm người dùng (UX) như: cắt giảm những banner quảng cáo vô nghĩa, xóa bỏ những form gây rối mắt,… Tất nhiên người dùng sẽ không thích click vào những trang chỉ chứa toàn quảng cáo và không có nhiều nội dung hữu ích bên trong.
Ngoài ra, những trang Affiliate hay trang “Made For AdSense” thường dễ bị dính phạt Panda hơn những trang khác. Không phải Google nhắm mục tiêu cụ thể đến những trang web đó, nó chỉ bị phạt với lý do đơn giản: không cung cấp được nội dung độc đáo và hấp dẫn.
Sử dụng kỹ thuật Noindex và thẻ Canonical
Noindex là trạng thái không lập chỉ mục một trang, giúp Google hiểu rằng bạn không muốn người dùng truy cập vào trang đó.
Thẻ Canonical là thẻ HTML thể hiện nội dung gốc của bài viết đó. Giúp Google phân biệt được đâu là page chính, đâu là page phụ.
2 công cụ giúp bạn sửa án phạt Panda
Copy Scape
Đây là một công cụ trả phí, giúp bạn theo dõi những nội dung mà bạn đã copy từ trang khác hoặc nội dung bạn bị trang khác copy. Khi bạn tìm thấy nội dung copy, cần sửa chữa ngay để tránh rủi ro phạt Panda.
Siteliner
Đây cũng là một công cụ tốn phí. Với chức năng tìm kiếm nội dung copy dựa trên gốc domain của bạn, công cụ sẽ báo chỉ số phần trăm giống nhau giữa các bài.
Kết luận
Mặc dù Google vẫn chưa áp dụng Panda như một thuật toán cốt lõi, nhưng đây vẫn là một hình phạt của Google dành cho website cố tình spam nội dung. Do đó, để không ảnh hưởng xấu đến website của bạn, nên tối ưu hóa nội dung để không bị Panda “dòm ngó” đến.
Tài liệu tham khảo
A Complete Guide to the Google Panda Update: 2011-21
Another step to reward high-quality sites