Đây là một khái niệm mình thấy khá ít người nhắc đến trong ngành SEO, và mình nghĩ rằng nó là một thứ cực kỳ quan trọng, đặc biệt là trong thời điểm EEAT lên ngôi như hiện nay. Nếu bạn đang muốn tìm hướng phát triển cho Website của mình, bài viết này sẽ giúp được bạn.
Nhắc nhở nhẹ, bài này mang tính học thuật nhiều lắm, mình sẽ cố gắng giải nghĩa một cách đơn giản và thú vị nhất cho bạn hình dung.
Miền tri thức (Knowledge Domains) là gì?
Miền tri thức là những website có chuyên môn trong một ngành nghề, lĩnh vực. Miền tri thức đáp ứng tốt một truy vấn cụ thể, đại diện cho một thực thể duy nhất, giao diện riêng, và phục vụ phân khúc người dùng xác định, nhằm tạo ra một mô hình làm hài lòng khách hàng/độc giả mà họ nhắm đến.
Miền tri thức là miền được xác định có một chuyên môn, nghiệp vụ cụ thể.
Mình sẽ lấy ví dụ thế này.
Trong miền tri thức về tiền, tỷ lệ thoát cao là một điều tốt, giao diện xấu cũng không phải là vấn đề (ngược lại với đa số website thông tin cần phải giữ chân người dùng càng lâu càng tốt và UX/UI phải đẹp). Đơn giản bởi vì đa số người dùng chỉ cần vào đó để xem tỷ giá hiện tại và họ sẽ thoát ra, vậy là đã thỏa mãn người dùng. Miền tri thức về tiền không cần phải ráng giữ người dùng trong đó quá lâu hoặc phải có một cái layout website cực kỳ sang trọng, tất cả mọi thứ họ cần làm đó là đưa ra tỷ giá nhanh và chính xác nhất.
Tương tự,
Miền tri thức về phim, những bài viết blog review phim dài 2000 chữ kể toàn bộ nội dung là không cần thiết. Người dùng chỉ cần vào đó để bấm nút “play” xem phim, tốc độ nhanh không cần chờ, tốc độ cập nhật tập phim mới nhanh chóng, vậy là đã thỏa mãn người dùng.
Mỗi một ngành nghề riêng sẽ có những nhu cầu người dùng khác nhau, nỗi đau khác nhau, và việc của chúng ta là tìm hiểu những nỗi đau, nhu cầu đó để thỏa mãn họ một cách nhanh nhất và tuyệt vời nhất (cứ tưởng tượng giống như bạn đang làm ngành dịch vụ CSKH, nhưng mà đang làm trên website thôi).
Đối với các miền tri thức, Google hoặc các công cụ tìm kiếm khác có thể dễ dàng phân loại website là “nhà xuất bản nội dung” hay “nhà cung cấp dịch vụ” dựa trên chuyên môn, tính thẩm quyền (authority) và độ phủ (coverage), cùng với những dữ liệu khác trong suốt lịch sử thành lập web. Các trang web miền tri trức này có lợi thế hơn trong việc được xuất hiện trong kết quả tìm kiếm khi có một truy vấn được thực hiện.
Vậy, làm sao để trở thành miền được đánh giá là miền tri thức có chuyên môn cao?
Câu trả lời đó là, sử dụng Vector đại diện. Google sử dụng Vector đại diện Website để xác định tính Chuyên môn (Expertise) và Thẩm Quyền (Authority) của một Website, điều này được nói đến trong một thuật toán phân loại Website của Google.
Mình sẽ cùng nhau tìm hiểu vấn đề này ở bên dưới,
Google sử dụng Vector đại diện Website để phân loại trang Web
Google có nói rằng Google sử dụng Vector đại diện để xác định một website dựa trên những chức năng được tìm thấy trên website đó. Bạn có thể đọc bằng sáng chế về Vector của Google được xuất bản ngày 10.8.2018 tại đây.
Nếu tài liệu đó quá phức tạp, vậy thì hãy để mình giải thích.
Google sẽ tổng hợp tất cả những Website trong lĩnh vực, “hệ thống phân loại website” sẽ phân tích những chức năng được tìm thấy trên những website này để tìm ra những điểm chung và gọi nó là “vector đại diện”, sau đó, Google chấm điểm các “vector đại diện” này và dùng các Vector đại diện này để phân loại cho những Website mới, Website khác nằm ngoài tập hợp ban đầu.
Ngoài việc phân loại dựa trên ngành nghề kinh doanh, chủ đề, Google còn chia nhỏ hơn thành các hạng mục dựa trên trình độ chuyên môn:
For instance, the website classifications may include the first category of websites authored by experts in the knowledge domain, e.g., doctors, the second category of websites authored by apprentices in the knowledge domain, e.g., medical students, and a third category of websites authored by laypersons in the knowledge domain.
Tại đây, Google phân trình độ chuyên môn thành 3 nhóm: chuyên gia (bác sĩ), tập sự (sinh viên ngành y) và người không có chuyên môn.
Điều này là hoàn toàn hợp lý và cũng đã được thể hiện ở trong tài liệu Search Quaylity Guideline khi có nói đến E-E-A-T (experience, expertise, authority và trustworthiness).
Trong Guideline đó Google có nói rõ rằng:
- Lời khuyên về y tế có điểm E-A-T cao nên được đưa ra bởi những người hoặc tổ chức y tế có chuyên môn hoặc được công nhận
- Bài viết về y tế muốn có điểm E-A-T cao phải được chỉnh sửa, xem xét và cập nhật thường xuyên.
Ngoài ra, Guideline còn đưa ra ví dụ bài như thế nào là không phải từ người có chuyên môn.
Có những trang web, diễn đàn đang phục vụ cho một nhóm người cụ thể. Chia sẻ kinh nghiệm cá nhân là một dạng hình thức của “chuyên gia” cá nhân (everyday expertise). Lấy ví dụ, các mom tham gia diễn đàn Webtretho thường xuyên chia sẻ với nhau về cách có nhiều sữa theo trải nghiệm cá nhân (cái mà các mom đang là chuyên gia dựa vào trải nghiệm), đây không phải là một lời khuyên về y tế. Lời khuyên về y tế (khác với lời khuyên từ trải nghiệm cá nhân) nên đến từ các bác sĩ hoặc chuyên gia sức khỏe.
Quay trở lại với thuật toán phân loại, thuật toán này phân loại các website thành từng nhóm miền tri thức cụ thể, sau đó lại tiếp tục phân loại theo chuyên môn của từng nhóm đó. Quy trình cụ thể như sau:
- Nhận dữ liệu từ những “đại diện”(A) và “điểm chất lượng của đại diện A” (B) dùng làm thang đo chất lượng.
- Chạy phân loại nhóm trang web thứ nhất, việc phân loại dựa trên điểm chất lượng dưới ngưỡng đầu tiên. (B1 < Ngưỡng 1)
- Chạy phân loại nhóm trang web thứ hai, việc phân loại dựa trên điểm chất lượng trên ngưỡng thứ hai và lớn hơn ngưỡng thứ nhất. ( Ngưỡng 1 < Ngưỡng 2 < B2)
- Tạo một đại diện tổng hợp đầu tiên (A1) của các trang web được phân loại trong lần chạy phân loại đầu tiên.
- Tạo một đại diện tổng hợp thứ hai (A2) của các trang web được phân loại trong lần chạy phân loại thứ hai.
- Nhận một đại diện của một trang web khác (A3)
- Xác định sự khác biệt giữa đại diện tổng hợp đầu tiên (A1) và đại diện của trang web khác (A3).
- Xác định sự khác biệt giữa đại diện tổng hợp thứ hai (A2) và và đại diện của trang web khác (A3).
- Dựa trên dữ liệu về sự khác biệt ở trên, hãy phân loại trang web kia (Web cho dữ liệu đại diện A3) là một trong những trang web thuộc nhóm thứ nhất, trang web thuộc nhóm thứ hai hoặc là trang web thứ ba không được phân loại là trang web thứ nhất hoặc trang web thứ hai.
Note: Yên tâm, lần đầu đọc mình cũng lú giống như cảm giác của bạn hiện tại. Đọc thêm vài lần nữa là ổn thôi
Ưu điểm của phương pháp phân loại Vector đại diện trang web này là gì?
Google có thể lựa chọn, tìm kiếm dữ liệu dễ dàng từ những trang web đã được phân loại, giúp giảm tài nguyên máy tính cần thiết để tìm kiếm kết quả trong dữ liệu index, cụ thể:
- Giảm dung lượng lưu trữ cho các kết quả tìm kiếm tiềm năng, chỉ cần lưu trữ những dữ liệu từ những trang web được phân loại cụ thể.
- Giảm việc phải phân tích hàng loạt các website để trả kết quả tìm kiếm, chỉ cần giới hạn tìm kiếm từ những trang web được phân loại cụ thể.
- Giảm băng thông mạng được sử dụng để cung cấp kết quả tìm kiếm từ thiết bị thực hiện hành vi.
- Cải thiện các trang kết quả tìm kiếm bằng cách ưu tiên những website đã được phân loại cụ thể.
- Sử dụng các đặc điểm đã học được từ các trang web hiện có để phân loại các trang web chưa từng thấy mà không yêu cầu nhập dữ liệu để phân loại.
- Giúp phát hiện các trang web có nhiều khả năng đáp ứng các truy vấn tốt hơn nhờ vào các dữ liệu đã phân loại trước đó.
- Nhờ vào Vector đại diện, những đặc điểm phân loại không còn bị giới hạn bởi các đặc điểm chỉ có thể nhận biết được bởi con người, các đặc điểm phân loại này được đã mở rộng bằng cách chạy phân tích trang web.
Nói tóm lại, việc phân loại Website từ những mẫu số có sẵn giúp Google tiết kiệm được tài nguyên, chỉ vậy thôi. Và câu chuyện của chúng ta nên là tìm ra được những “mẫu số chung” này, để mô phỏng lại trên chính Website của mình. Nhờ vào đó chỉ cần một lượng nhỏ tài nguyên sử dụng, Google sẽ xếp Website chúng ta vào trong nhóm những Website được phân loại uy tín.
Vậy tìm mẫu số chung bằng cách nào?
Vector phân loại trang web được hình thành như thế nào?
Bằng sáng chế nói rằng, hệ thống phân loại Vector đại diện trang web có thể sử dụng bất kỳ phương pháp thích hợp nào để phân loại, không có giới hạn, điều này giúp Google có tính linh hoạt trong việc phân loại Website.
Tuy nhiên, bằng sáng chế cũng có liệt kê ra một vài yếu tố được sử dụng để làm Vector phân loại, bao gồm:
- Text trong website
- Hình ảnh
- Text của Website khác, ví dụ như backlink
- …
Ngoài ra, Dữ liệu đầu vào để thực hiện phân loại có thể là:
- Vị trí của các từ khóa, ví dụ từ “bảo hiểm” thường nằm gần từ “nhân thọ”, “Onpage” thường nằm gần “tối ưu hóa”,…
- Các cụm từ cụ thể trong một chuyên ngành.
- Mối tương quan giữa 2 website A-B, dựa vào việc đo lường sự khác biệt và đo lường sự tương đồng để phân loại.
Phân loại bằng điểm chất lượng:
- Để đáp ứng các ngưỡng khác nhau trong từng lĩnh vực ngành khác nhau.
- Có thể chấm điểm chuyên môn cho 1 kiến thức cụ thể.
- Để phân loại trang web có nhiều chuyên môn khác nhau.
- Để dễ dàng chọn các trang web đáp ứng tốt truy vấn cho từng lĩnh vực kiến thức cụ thể.
Điểm chất lượng trong quá trình phân loại có thể là thước đo của:
- Tính thẩm quyền
- Khả năng đáp ứng của website đối với một truy vấn thuộc lĩnh vực cụ thể
Các nhãn (Label) được sử dụng trong Vector đại diện trang web
Việc phân loại website có thể yêu cầu sử dụng nhãn (label). Nhãn được xác định:
- Có thể là các ký tự chữ cái, số hoặc là sự kết hợp của hai hoặc nhiều ký tự này.
- Có thể nêu rõ loại thực thể của Website được gắn nhãn, chẳng hạn đây là tổ chức phi lợi nhuận hay tổ chức vì lợi nhuân.
- Có thể hiển thị một ngành nghề cụ thể của Website được gắn nhãn, chẳng hạn đây là Website thuộc ngành bảo hiểm, ngành marketing,..
- Có thể nêu rõ trình độ chuyên môn của tác giả của trang web, chẳng hạn như là Tiến sĩ, Thực tập sinh hay người thường,
- Cũng có thể là điểm số phân loại đại diện cho trang web
Đúc kết ý chính
- Text, hình ảnh, và link của một website chính là cách website đó được phân loại.
- Điểm chất lượng của một website được phân loại có thể cho biết tính thẩm quyền của website đó trong một lĩnh vực cụ thể.
- Nhãn được sử dụng để phân loại trang web có thể bao gồm thông tin về thực thể tổ chức đằng sau, ngành nghề kinh doanh và chuyên môn người đã tạo ra trang web.
- Một trang web có thể bao gồm nhiều chuyên môn thuộc nhiều lĩnh vực ngành khác nhau