Google xếp hạng một website như thế nào?

cong-cu-tim-kiem-hoat-dong-nhu-the-nao

Bạn đang bắt đầu tìm hiểu về SEO website trên Google? Bạn đã sáng suốt khi bắt đầu tìm hiểu cơ chế hoạt động của công cụ tìm kiếm này. Bởi “Biết địch biết ta, trăm trận trăm thắng”. Chỉ khi bạn nắm rõ được cơ chế hoạt động của công cụ tìm kiếm này, bạn mới có thể SEO website một cách thật hiệu quả.

Trước khi đi vào những giải thích cụ thể về cơ chế hoạt động của Google, chúng ta hãy cũng xem qua một video clip của Matt Cutts – Cựu trưởng nhóm Google Webspam, giải thích về cơ chế hoạt động của công cụ tìm kiếm Google.

Matt Cutts nói gì về cơ chế hoạt động của Google?


Video của Matt Cutts – trưởng nhóm Google Webspam, giới thiệu về quá trình tìm kiếm và xử lý thông tin của Google Search

Qua video này, chúng ta thấy được Google có 3 bộ phận riêng biệt tham gia vào cấu thành nên kết quả cho bảng xếp hạng kết quả tìm kiếm (SERP) mà chúng ta vẫn thường xem, bao gồm:

  • Crawling & Indexing – Thu thập và lập chỉ mục dữ liệu
  • Algorithms – Thuật toán xếp hạng website
  • Fighting spam – Chống spam

3 bộ phận này sẽ đảm nhiệm 3 công đoạn khác nhau trong quá trình đưa một website lên bảng xếp hạng kết quả tìm kiếm của Google. Để tìm hiểu rõ hơn về quy trình hoạt động của 3 công đoạn này, trước tiên chúng ta hãy cùng đi vào tìm hiểu quá trình thu thập và lập chỉ mục dữ liệu website: – Crawling & Indexing.

Thu thập dữ liệu và lập chỉ mục

crawling-and-indexing

Để có một kết quả tìm kiếm như bạn vẫn thường thấy trên SERP, Google đã phải thực hiện cả một quá trình rất dài trước đó, bắt đầu từ việc thu thập thông tin và lập chỉ mục cho hàng nghìn tỷ trang web trên mạng internet.

Công việc này được thực hiện bằng những công cụ có tên gọi là “trình thu thập thông tin website” hay các con bot của Google hoặc Crawlers. Về bản chất, trình thu thập thông tin là một phần mềm có khả năng hoạt động độc lập, có nhiệm vụ thu thập dữ liệu về nội dung và liên kết trên trang và đem những thông tin đó về cho máy chủ tìm kiếm của Google.

Công cụ được biết đến nhiều nhất và có thể hoạt động nhiều nhất đó là Googlebot. Giống như một con vật bò trườn, Googlebot sẽ lần lượt bò trường qua tất cả các nội dung trên trang web, chui và tất cả các liên kết có mặt trên trang, cho đến khi không còn đi tiếp được nữa, để có thể thu thập chi tiết các dữ liệu về trang web đó, xem những trang này đang nói về nội dung gì, có bao nhiêu trang đang trỏ tới và trỏ đi từ trang này.

Từ đó, quá trình này được đặt tên là Crawling – bò trườn theo nghĩa sinh động hóa cách thu thập thông tin của Googlebot.

Quá trình thu thập dữ liệu – Crawling

Quá trình này sẽ được bắt đầu với một danh sách các url từ các lần thu thập thông tin trước đó hoặc từ sitemaps – sơ đồ cấu trúc website mà các quản trị viên đã gửi đến Google. Sau đó, từ những trang web này, Googlebot sẽ truy cập các trang web khác có liên kết đến trang web này. Những trang web mới hoặc có sự cập nhật về nội dung sẽ được Google đặc biệt chú ý,

Trình thu thập dữ liệu này cũng đồng thời xác định website nào cần thu thập dữ liệu , cùng với số lần thu thập thông tin cần thiết, hay biên độ thu thập thông tin cùng với số lượng trang web cần thiết phải thu thập thông tin những trang web này. Những số liệu này hoàn toàn được tạo một cách tự động và không có sự can thiệp của con người.

Quá trình lập chỉ mục dữ liệu website – Indexing

Các dữ liệu thu được từ quá trình crawl website sau đó sẽ được thu thập về máy chủ Google và tiến hành index –lập chỉ mục dữ liệu. Xuất phát từ góc nhìn về việc Internet giống như một thư viện công cộng với hàng nghìn tỷ cuốn sách khác nhau và ngày càng được tăng lên về số lượng, Google đã đưa ra cho mình ý tưởng về việc thu thập và xử lý dữ liệu của những website này.

Về cơ bản, công cụ tìm kiếm này sẽ mã hóa dữ liệu dưới dạng text và đánh chỉ mục chúng để có thể lưu lại và trích xuất dễ dàng như khi chúng ta đọc một mục lục của một cuốn sách. Những chỉ mục nãy sẽ bao gồm một số thông tin như các từ khóa cùng vị trí của chúng trên trang. Để khi người dùng tìm kiếm một từ khóa nào đó, công cụ này sẽ chỉ việc tìm kiếm theo từ khóa và trích xuất kết quả một cách dễ dàng với thời gian ngắn nhất.

Tuy nhiên, những mã hóa này có thể trở lên phức tạp hơn khi Google muốn người dùng sẽ nhận được một kết quả tìm kiếm đa dạng nhất với nhiều loại hình nội dung liên quan đến truy vấn tìm kiếm của bạn như hình ảnh, video,.. hay thậm chí là một vị trí địa danh trên Google Maps.

Vậy, khi người dùng tìm kiếm một truy vấn nào đó, làm thể nào để công cụ tìm kiếm quyết định xem website bạn có được xếp hạng cao hơn các website khác hay không? Tất cả sẽ được giải thích trong phần tiếp theo : Algorithms – Thuật toán xếp hạng website.

Algorithms – Thuật toán xếp hạng website

google-algorithm

Để quyết định một trang web có giá trị về nội dung hay không đến với người dùng, Google đã phải sử dụng rất nhiều các tiêu chí xếp hạng khác nhau. Hiện tại, Google đang có khoảng hơn 200 các tiêu chí khác nhau để xác định giá trị của một trang web. Các tiêu chí này giống như những bộ lọc giúp sàng lọc những trang web có giá trị về nội dung từ hàng triệu các trang khác cùng nói về truy vấn của người dùng.

Về bản chất, các tiêu chí này chính là những thuật toán và công thức được xây dựng lên thành một quy trình nhất định để đem lại một trả lời tốt nhất cho mỗi truy vấn tìm kiếm của người dùng. Những tiêu chí này được dựa trên một số các thông tin của trang web như các từ, cụm từ, (từ khóa), độ phổ biến của website (backlink), độ uy tín của tên miền, pagerank,…

Để tránh hiện tượng spam kết quả tìm kiếm, Google đã và đang cố gắng giữ bí mật về những tiêu chí xếp hạng này. Tuy nhiên, vì là thuật toán được có tác dụng ngay đến thứ hạng của một website, nên theo thời gian, một số các tiêu chí này dần được các SEOer khám phá ra. Ví dụ như mật độ từ khóa trên trang, số lượng và chất lượng của backlink,…

Tình trạng spam vì thế mà bắt đầu trở nên ngày một phổ biến hơn. Để khắc phục tình trạng spam này, Google đã thành lập một đội chuyên phòng chống spam: Google Webspam team để thực hiện một bước quan trọng thứ 3 – bước cuối cùng trong việc cấu thành nên bảng xếp hạng kết quả tìm kiếm: Fighting spam – Chống spam

Fighting spam – Chống spam

Fighting-spam-google

Theo thống kê của Google, có hàng triệu trang web được tạo ra mỗi ngày chỉ vì mục đích spam, và hoàn toàn vô ích đối với người dùng. Để chống lại cơn bão spam này, Google phải thành lập một nhóm các kỹ sư hàng đầu để làm sao có thể lọc được trang spam này mà không làm ảnh hưởng đến các website khác.

Giải pháp cho tình trạng này hiện giờ của Google đó là sử dụng các thuật toán chống spam như Google Panda và Google Penguin, đồng thời kết hợp với việc đánh giá thủ công (đánh giá bằng sức người) về tình trạng spam của một website. Tình trạng spam đã suy giảm đáng kể từ ngày đầu tiên bước chống spam này được triển khai.

Một số các thủ thuật spam mà Google đã phát hiện được như: nhồi nhét từ khóa, mua backlink, hidden text, doorway,… Những hiện tượng này chưa phải là tất cả những thủ thuật spam của các SEOer hiện nay và đang trở nên ngày một tinh vi hơn, khó phát hiện hơn. Vì vậy Google đã phải có một nhóm riêng để đánh giá website, nhằm đem lại một kết quả tìm kiếm thân thiện nhất cho người dùng.

Những website bị xác định là spam có thể bị giảm thứ hạng kết quả tìm kiếm ngay lập tức hoặc không được xếp hạng. Và sau đó, các website này có thể được đưa vào danh sách các website cần theo dõi, bị theo dõi bới một kỹ sư của Google hoặc phải chịu một số các hình phạt trực tiếp về ranking của Google.

Bạn có thể tìm hiểu thêm về Google Panda và Google Penguin tại đây.

Lời kết

Trên đây là những giái thích cơ bản của vietmoz.com về cơ chế hoạt động của Google và cách Google xếp hạng một website. Bạn có thể tìm hiểu thêm các cách để có một thứ hạng cao trên Google qua bài viết tìm hiểu về SEO – Tối ưu hóa công cụ tìm kiếm (search engine optimization) là gì?

Thông tin tham khảo thêm

Bạn có thể tự học SEO thông qua các hướng dẫn của Trung tâm Đào tạo SEO Vietmoz, hoặc tham khảo Khóa học SEO của VietMoz để được hệ thống hóa các kiến thức một cách bài bản.

Nguồn: www.vietmoz.com
Bản quyền thuộc về Trung tâm SEO VietMoz
Vui lòng không copy khi chưa được sự đồng ý của tác giả.

Trả lời

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *