File Robots.txt Là Gì

     

Đã lúc nào bạn hình dung làm sao một robot của phương pháp tìm kiếm có thể phân tích dữ liệu của một website để index (lập chỉ mục) không?

Bạn đang tải một trang web Wordpress? Đôi lúc bạn muốn Googlebot cấp tốc index trang web của khách hàng hoặc ko index một trang ví dụ nào đó? Vậy làm phương pháp nào bây giờ?

Tôi hoàn toàn có thể lập tức trả lời cho bạn: chế tạo ra file robots.txt cho WordPress ngay và luôn! Để đọc về file robots.txt và cách thức tạo, tôi sẽ mang đến cho bạn bài viết cực ích sau đây.

Bạn đang xem: File robots.txt là gì

Bài viết này sẽ lý giải cho bạn:

Hiểu rõ định nghĩa file robots.txt là gì?Cấu trúc cơ bạn dạng của một file robots.txtCó những xem xét nào khi tạo thành lập robots.txt WordPressTại sao phải cần robots.txt cho website của bạnCách chế tạo lập 1 file hoàn chỉnh cho website của bạn

Bắt đầu tìm hiểu nhé!


File robots.txt là gì?

File robots.txt là một trong tập tin văn phiên bản đơn giản tất cả dạng .txt. Tệp này là 1 phần của Robots Exclusion Protocol (REP) chứa một đội nhóm các tiêu chuẩn chỉnh Web quy định phương pháp Robot web (hoặc Robot của các công thế tìm kiếm) thu thập dữ liệu bên trên web, truy hỏi cập, index ngôn từ và hỗ trợ nội dung đó cho người dùng.


*
Tìm đọc về robots.txt lập chỉ mục mang đến website của bạn

REP cũng bao hàm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn những công cố của Google xử lí các liên kết. (ví dụ: Follow tốt Nofollow link).

Trên thực tế, tạo robots.txt Wordpress giúp các nhà cai quản trị website linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của phương pháp Google Index một vài phần nào kia trong trang của mình.

Cú pháp của file robots.txt

Các cú pháp được xem như là ngôn ngữ riêng của những tập tin robots.txt. Bao gồm 5 thuật ngữ phổ cập mà bạn sẽ bắt gặp trong một tệp tin robots.txt. Chúng bao gồm:

User-agent: Phần này là tên của những trình thu thập, truy vấn dữ liệu web. (ví dụ: Googlebot, Bingbot,…)Disallow: Được sử dụng để thông tin cho những User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 mẫu Disallow.Allow (chỉ áp dụng cho bọ search kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy vấn một trang hoặc thư mục con. Tuy nhiên các trang hoặc các thư mục nhỏ của nó có thể không được phép.

Pattern – Matching

Trên thực tế các tệp tin robots.txt Wordpress khá phức hợp để rất có thể chặn hoặc chất nhận được các nhỏ bot vày chúng chất nhận được sử dụng tính năng Pattern-Matching để bao hàm một loạt những tùy chọn của URL.

Tất cả các công núm của Google cùng Bing chất nhận được sử dụng 2 biểu thức bao gồm để xác minh các trang hoặc thư mục nhỏ mà SEO hy vọng loại trừ. Nhì kí trường đoản cú này là dấu hoa thị (*) và cam kết hiệu đô la ($).

* là kí tự thay mặt đại diện cho bất kì chuỗi kí tự làm sao – có nghĩa là nó được áp dụng cho mọi nhiều loại Bots của các công núm Google.$ là kí tự khớp cùng với phần cuối của URL.

Định dạng cơ phiên bản của file robots.txt

Tệp robots.txt có định dạng cơ bạn dạng sau:

User-agent:Disallow:Allow:Crawl-delay:Sitemap:Tuy nhiên, chúng ta vẫn hoàn toàn có thể lược bỏ những phần Crawl-delay và Sitemap. Đây là format cơ phiên bản của robots.txt Wordpress trả chỉnh. Tuy vậy trên thực tế thì file robots.txt đựng nhiều dòng User-agent và nhiều chỉ thị của người tiêu dùng hơn.

Chẳng hạn như những dòng lệnh: Disallow, Allow, Crawl-delay, … Trong tệp tin robots.txt, các bạn chỉ định cho nhiều bé bot khác nhau. Từng lệnh hay được viết cá biệt cách nhau vày 1 dòng.

Trong một tệp tin robots.txt Wordpress bạn cũng có thể chỉ định các lệnh cho những con bot bằng phương pháp viết liên tiếp không bí quyết dòng. Tuy nhiên trong trường thích hợp một tệp tin robots.txt có rất nhiều lệnh so với 1 một số loại bot thì khoác định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

File robots.txt chuẩn

Để chặn tất cả các web Crawler không được thu thập bất kì tài liệu nào bên trên website bao hàm cả trang chủ. Chúng ta hãy áp dụng cú pháp sau:

User-agent: *Disallow: /Để có thể chấp nhận được tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao hàm cả trang chủ. Họ hãy sử dụng cú pháp sau:

User-agent: *Disallow: Để chặn trình thu thập, kiếm tìm kiếm thông tin của Google (User-agent: Googlebot) không tích lũy bất kì trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Họ hãy thực hiện cú pháp sau:

User-agent: GooglebotDisallow: /example-subfolder/Để ngăn trình thu thập thông tin của Bing (User-agent: Bing) tránh tích lũy thông tin trên trang ví dụ tại www.example.com/example-subfolder/blocked-page. Bọn họ hãy áp dụng cú pháp sau:

User-agent: BingbotDisallow: /example-subfolder/blocked-page.html

Ví dụ đến file robots.txt chuẩn

Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:

User-agent: *Disallow: /wp-admin/Allow: /Sitemap: https://www.example.com/sitemap_index.xmlTheo bạn, cấu tạo file robots.txt có ý nghĩa sâu sắc như gắng nào? Để tôi giải thích. Điều này chứng tỏ bạn có thể chấp nhận được toàn bộ các công cầm cố của Google theo link www.example.com/sitemap_index.xml để tìm tới file robots.txt và phân tích. Thuộc index toàn thể các dữ liệu trong những trang trên website của công ty ngoại trừ trang www.example.com/wp-admin/.

Đừng quên đăng ký học chơi ngay 3 ngày miễn phí tổn khóa Entity Mastermind – Năng cấp kĩ năng SEO giúp đỡ bạn X10 Organic Traffic sau 6 tháng.


*

Tại sao bạn phải tạo tệp tin robots.txt?

Việc tạo nên robots.txt mang lại website góp bạn kiểm soát việc truy cập của những con Bots mang đến các khoanh vùng nhất định trên trang web. Với điều này rất có thể vô cùng nguy khốn nếu các bạn vô tình không đúng một vài thao tác khiến cho Googlebot chẳng thể index website của bạn. Mặc dù nhiên, vấn đề tạo file robots.txt vẫn thiệt sự hữu dụng bởi những lí do:

Giữ một trong những phần của trang ở chế độ riêng tưGiữ những trang kết quả tìm tìm nội bộ không hiển thị trên SERPChỉ xác định trí của SitemapNgăn các công cố gắng của Google Index một số trong những tệp khăng khăng trên trang web của công ty (hình ảnh, PDF, …)Dùng lệnh Crawl-delay để setup thời gian. Điều này vẫn ngăn bài toán máy chủ của người sử dụng bị quá mua khi những trình tích lũy dữ liệu tải những nội dung cùng một lúc.

Nếu bạn không muốn ngăn những Web Crawler tiến hành thu thập dữ liệu tự website thì bạn hoàn toàn không nên tạo robots.txt.


*

Những tinh giảm của file robots.txt

1. Một vài trình chuẩn y tìm kiếm không cung cấp các lệnh trong tệp robots.txt

Không buộc phải công nắm tìm tìm nào cũng sẽ hỗ trợ các lệnh trong tệp robots.txt, vậy yêu cầu để bảo mật dữ liệu, cách tốt nhất bạn nên làm là đặt mật khẩu cho các tệp riêng tứ trên máy chủ.

2. Từng trình tài liệu có cú pháp phân tích tài liệu riêng

Thông thường so với các trình tài liệu uy tín đã tuân theo quy chuẩn của những lệnh vào tệp robots.txt. Nhưng mỗi trình tìm kiếm sẽ có cách giải trình dữ liệu khác nhau, một số trình sẽ không còn thể hiểu được câu lệnh thiết lập trong tệp robots.txt. Vậy nên, những web developers phải nắm rõ cú pháp của từng công cụ tích lũy dữ liệu bên trên website.

3. Bị tệp robots.txt ngăn nhưng Google vẫn rất có thể index

Cho dù trước đó bạn đã chặn một URL trên website của bản thân nhưng URL đó vẫn còn xuất hiện thêm thì bây giờ Google vẫn rất có thể Crawl và index mang đến URL kia của bạn.

Bạn cần xóa URL kia trên website nếu như nội dung bên phía trong không quá quan trọng để bảo mật thông tin cao nhất. Chính vì nội dung vào URL này vẫn rất có thể xuất hiện khi ai kia tìm kiếm bọn chúng trên Google.

Một số xem xét khi sử dụng tệp robots.txt

Việc chỉ định các lệnh mang lại từng User-agent là không yêu cầu thiết, chính vì hầu hết những User-agent đều từ 1 công cầm cố tìm tìm và rất nhiều tuân theo một quy tắc chung.Tuyệt đối không được dùng file robots.txt để chặn các dữ liệu riêng tứ như thông tin người tiêu dùng vì Googlebot sẽ vứt qua các lệnh trong tệp robots.txt nên kĩ năng bảo mật ko cao.Để bảo mật dữ liệu đến website cách tốt nhất có thể là dùng mật khẩu riêng cho các tệp hoặc URL ko muốn truy cập trên website. Tuy nhiên, bạn tránh việc lạm dụng những lệnh robots.txt vị đôi khi hiệu quả sẽ không cao như hy vọng muốn.

File robots.txt hoạt động như núm nào?

Các nguyên lý tìm kiếm có 2 trách nhiệm chính:

Crawl (cào/ phân tích) dữ liệu trên website để mày mò nội dungIndex ngôn từ đó để thỏa mãn nhu cầu yêu cầu cho những tìm tìm của fan dùng
*
Công nỗ lực tìm kiếm bao gồm 2 trọng trách chính: Crawl và Index

Để crawl được tài liệu của trang web thì các công cụ sẽ đi theo các liên kết từ trang này mang lại trang khác. Cuối cùng, nó tích lũy được dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl tài liệu này còn được nghe biết với tên không giống là “Spidering”.

Sau lúc tới một trang web, trước khi spidering thì các con bot của cách thức Google vẫn tìm những file robots.txt Wordpress. Nếu nó tra cứu thấy được 1 tệp robots.txt thì nó đang đọc tệp đó đầu tiên trước khi tiến hành quá trình tiếp theo.

File robots.txt sẽ chứa những thông tin về cách các chính sách của Google nên tích lũy dữ liệu của website. Tại đây các con bot này sẽ được hướng dẫn thêm các thông tin ví dụ cho quy trình này.

Nếu tệp robots.txt ko chứa bất kì chỉ thị nào cho các User-agent hoặc nếu khách hàng không chế tạo ra file robots.txt mang lại website thì những con bots đang tiến hành tích lũy các thông tin khác trên web.

File robots.txt nằm nơi đâu trên một website?

Khi chúng ta tạo website WordPress, nó sẽ auto tạo ra một file robots.txt để ngay bên dưới thư mục gốc của server.

Ví dụ, ví như site của khách hàng đặt trong thư mục gốc của showroom buoidienxanhha.com, bạn sẽ có thể truy cập file robots.txt ở đường truyền buoidienxanhha.com/robots.txt, kết quả thuở đầu sẽ giống như như sau:

User-agent: *Disallow: /wp-admin/Disallow: /wp-includes/Như tôi vẫn nói sinh hoạt trên, phần sau User-agent: vết * tức là quy tắc được vận dụng cho mọi nhiều loại bots bên trên khắp chỗ trên website. Vào trường thích hợp này, file này vẫn nói mang đến bots biết là bọn chúng không được phép vào trong tệp tin thư mục wp-admin với wp-includes. Rất phải chăng phải không, bởi vì 2 thư mục này chứa tương đối nhiều file tin tức nhạy cảm.

Hãy nhớ đây là một file ảo, vì chưng WordPress tự cấu hình thiết lập mặc định khi cài đặt và không chỉnh sửa được (mặc cho dù nó vẫn hoạt động). Thường xuyên thì, địa điểm file robots.txt WordPress chuẩn được đặt trong folder gốc, thường được call là public_html cùng www (hoặc tên website). Với để sản xuất file robots.txt mang đến riêng bạn thì bạn cần tạo một file new để thay thế sửa chữa file cũ để trong thư mục nơi bắt đầu đó.


*

Ở phần hông dưới, tôi đã hướng dẫn các bạn nhiều cách để tạo new file robots.txt đến WordPress rất dễ dàng dàng. Dẫu vậy trước tiên, hãy phân tích về những quy tắc các bạn nên thực hiện trong file này.

Làm nuốm nào để khám nghiệm website có file robots.txt không?

Nếu các bạn đang băn khoăn không biết website của bản thân có tệp robots.txt không. Hãy nhập Root tên miền của bạn, tiếp đến thêm /robots.txt vào thời gian cuối URL. Ví như bạn không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo ra robots.txt đến Wordpress rồi. Rất đơn giản! Tương tự, chúng ta có thể kiểm tra website của tôi buoidienxanhha.com gồm tạo tệp tin robots.txt hay không bằng phương pháp như trên:

Nhập Root tên miền (buoidienxanhha.com) > chèn /robots.txt vào cuối (kết trái là buoidienxanhha.com/robots.txt) > nhấn Enter. Cùng đợi kết quả là biết tức thì thôi!


*
Cách chất vấn File robots.txt

Quy tắc nào nên được bổ sung vào trong tệp tin robots.txt WordPress?

Cho mang đến nay, tất cả đều cách xử trí một luật lệ tại một thời điểm. Tuy thế nếu bạn có nhu cầu áp dụng những quy tắc khác biệt cho những bot khác biệt thì sao?

Bạn chỉ cần thêm từng cỗ quy tắc trong phần khai báo User-agent cho từng bot.

Ví dụ: Nếu bạn có nhu cầu tạo một quy tắc vận dụng cho toàn bộ các bot cùng một quy tắc khác chỉ áp dụng cho Bingbot, chúng ta có thể thực hiện nay như sau:

User-agent: *Disallow: /wp-admin/User-agent: BingbotDisallow: /Ở đây, toàn bộ các bot có khả năng sẽ bị chặn truy cập / wp-admin / tuy vậy Bingbot có khả năng sẽ bị chặn tróc nã cập tổng thể trang website của bạn.


3 giải pháp tạo tệp tin robots.txt Wordpress solo giản

Nếu sau thời điểm kiểm tra, bạn phân biệt website của chính mình không tất cả tệp robots.txt hay đơn giản dễ dàng là ai đang muốn thay đổi tệp robots.txt của mình. Hãy xem thêm 3 biện pháp tạo robots.txt cho Wordpress dưới đây:

1. áp dụng Yoast SEO

Bạn rất có thể chỉnh sửa hoặc tạo thành file robots.txt cho Wordpress trên chính Wordpress Dashboard với vài ba bước đơn giản. Đăng nhập vào trang web của bạn, khi đăng nhập vào bạn sẽ thấy đồ họa của trang Dashboard.

Xem thêm: Cách Hiện Thanh Tìm Kiếm Google Trên Android, Cách Đặt Tiện Ích Thanh Google Trên Android

Nhìn phía phía bên trái màn hình, click vào SEO > Tools > file editor.


Tính năng file editor đang không xuất hiện thêm nếu WordPress của người sử dụng vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Do thế hãy kích hoạt chúng trải qua FTP (File Transfer Protocol – Giao thức truyền tập tin).

Lúc này các bạn sẽ thấy mục robots.txt và .htaccess file – đây là nơi giúp cho bạn tạo tệp tin robots.txt đấy.

*
Điều chỉnh và tạo ra file robots.txt trực tiếp trên Yoast SEO

2. Qua cỗ Plugin All in One SEO

Hoặc chúng ta có thể sử dụng cỗ Plugin All in One SEO để sản xuất file robots.txt WordPress nhanh chóng. Đây cũng là một plugin app cho WordPress – Đơn giản, dễ dàng sử dụng.

Để chế tác file robots.txt WordPress, chúng ta phải cho giao diện thiết yếu của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active đến mục robots.txt

Lúc này, trên bối cảnh sẽ xuất hiện thêm nhiều nhân kiệt thú vị:


Và khi đó, mục robots.txt sẽ xuất hiện thêm như một tab bắt đầu trong thư mục khủng All in One SEO. Bạn có thể tạo lập cũng giống như điều chỉnh file robots.txt Wordpress tại đây.


Tuy nhiên, cỗ plugin này còn có một chút biệt lập so với Yoast SEO tôi vừa kể ở trên.

All in One SEO làm mờ đi tin tức của file robots.txt rứa vì các bạn được sửa đổi file như giải pháp Yoast SEO. Điều này hoàn toàn có thể khiến các bạn hơi bị động một chút ít khi sửa đổi file robots.txt Wordpress. Tuy nhiên, tích cực mà nói, nguyên tố này sẽ giúp đỡ bạn tinh giảm thiệt hại mang lại website của mình. Đặc biệt một vài Malware bots sẽ gây nên hại đến website mà các bạn không ngờ tới.

3. Tạo thành rồi upload file robots.txt qua FTP

Nếu bạn không thích sử dụng plugin để tạo nên file robots.txt Wordpress thì tôi có 1 cách này cho bạn – Tự chế tạo file robots.txt bằng tay cho Wordpress của mình.


Bạn chỉ mất vài ba phút để tạo ra file robots.txt Wordpress này bằng tay. áp dụng Notepad hoặc Textedit để tạo thành mẫu tệp tin robots.txt Wordpress theo Rule tôi đã giới thiệu ở đầu viết. Kế tiếp upload file này qua FTP không cần áp dụng plugin, quy trình này rất dễ dàng không tốn bạn vô số thời gian đâu.

Một số nguyên tắc khi tạo thành file robots.txt

Để được các con bot tra cứu thấy thì các file robots.txt Wordpress đề nghị được đặt trong số thư mục cấp tối đa của trang web.Txt rõ ràng chữ hoa với chữ thường. Chính vì như vậy tệp phải được lấy tên là robots.txt. (không bắt buộc Robots.txt tuyệt robots.TXT, …)Không nên đặt /wp-content/themes/ xuất xắc /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở những công ráng nhìn nhận đúng đắn về giao diện blog tốt website của bạn.Một số User-agent chọn lựa cách bỏ qua các file robots.txt chuẩn chỉnh của bạn. Điều này khá phổ biến với các User-agent bất thiết yếu như: Malware robots (bot của những đoạn mã độc hại)Các trình Scraping (quá trình tự thu thập thông tin) add Email các tệp robots.txt thông thường có sẵn với được công khai trên web. Bạn chỉ cần thêm /robots.txt vào cuối bất cứ Root Domain nhằm xem những chỉ thị của website đó. Điều này có nghĩa là bất kì ai cũng thấy những trang bạn có nhu cầu hoặc không muốn crawl. Vị vậy đừng sử dụng những tệp này nhằm ẩn thông tin cá nhân của tín đồ dùng.

Một số xem xét khi áp dụng file robots.txt

Hãy đảm bảo an toàn rằng bạn không chặn bất kỳ nội dung hoặc phần nào trên trang web mà bạn có nhu cầu Google index.

Các link trên sản phẩm công nghệ chặn bởi vì việcrobots.txt sẽ không còn được các bot theo dõi. Trừ khi các link này còn có liên kết với các trang khác (các trang không xẩy ra chặn vì chưng robots.txt, Meta Robots,…). Trường hợp không, các tài nguyên được liên kết hoàn toàn có thể sẽ không được tích lũy và lập chỉ mục.

Link juice sẽ không được truyền từ những trang bị chặn đến những trang đích. Chính vì thế nếu mong dòng mức độ mạnh link juice truyền qua những trang này thì các bạn hãy sử dụng một phương thức khác thay do tạo robots.txt WordPress.

Không nên áp dụng file robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) mở ra trong công dụng SERP. Chính vì trang web đựng thông tin cá thể này rất có thể liên kết với tương đối nhiều trang web khác. Vày đó các con bot sẽ vứt quá các chỉ thị của tệp robots.txt trên Root domain hay trang chủ của bạn, nên website này vẫn hoàn toàn có thể đượclập chỉ mục.

Nếu bạn muốn chặn trang web này khỏi các kết quả tìm kiếm, hãy thực hiện một cách thức khác thay do tạo file robots.txt mang lại WordPress như dùng mật khẩu bảo vệ giỏi Noindex Meta Directive. Một vài công vậy tìm kiếm có không ít User-agent. Chẳng hạn, Google thực hiện Googlebot cho những tìm tìm miễn giá tiền và Googlebot-Image cho các tìm tìm hình ảnh.

Hầu hết những User-agent từ cùng một giải pháp đều theo đúng một quy tắc. Vì thế bạn không yêu cầu chỉ định các lệnh đến từng User-agent. Mặc dù việc làm này vẫn rất có thể giúp bạn kiểm soát và điều chỉnh được bí quyết Index câu chữ trang web.

Các pháp luật tìm tìm sẽ tàng trữ nội dung file robots.txt WordPress. Tuy vậy nó vẫn thường cập nhật nội dung trong bộ nhớ cache tối thiểu một lần một ngày. Giả dụ bạn chuyển đổi tệp cùng muốn update tệp của chính bản thân mình nhanh hơn vậy thì hãy thực hiện ngay tác dụng Gửi của Trình chất vấn tệp robots.txt.

Câu hỏi thường chạm chán về robots.txt

Dưới đây là một số câu hỏi thường gặp, rất có thể là đa số thắc mắc của công ty về robots.txt bây giờ:

Kích thước tối đa của file robots.txt là bao nhiêu?

500 kilobyte (khoảng).

File robots.txt Wordpress nằm ở chỗ nào trên website?

Tại vị trí: domain.com/robots.txt.

Làm cách nào để sửa đổi robots.txt WordPress?

Bạn có thể thực hiện nay theo cách thủ công bằng tay hoặc áp dụng một trong nhiều plugin WordPress SEO như Yoast cho phép bạn chỉnh sửa robots.txt tự WordPress backend.

Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?

Google đang không lúc nào thấy lệnh Noindex bởi vì nó quan trọng Crawl tài liệu trang.

Tôi sử dụng cùng một tệp robots.txt cho những trang web. Tôi hoàn toàn có thể dùng một URL đầy đủ thay cho một đường dẫn kha khá được không?

Không, các lệnh vào tệp robots.txt (ngoại trừ mã Sitemap:) chỉ áp dụng cho những đường dẫn tương đối.

Làm giải pháp nào để tôi rất có thể tạm xong xuôi toàn bộ hoạt động thu thập dữ liệu website của mình?

Bạn có thể tạm hoàn thành toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã tác dụng HTTP 503 cho rất nhiều URL, bao hàm cả tệp robots.txt. Các bạn không nên biến hóa tệp robots.txt nhằm chặn vận động thu thập dữ liệu.

Làm nuốm nào để chặn tất cả các website Crawler?

Tất cả bạn cần làm là truy vấn Settings > Reading và chọn ô kề bên tùy chọn tìm kiếm Engine Visibility.


*
Tick lựa chọn “Discourage search engines from indexing this site” để chặn tất cả các website crawler index site của bạn

Khi đã làm được chọn, WordPress thêm mẫu này vào tiêu đề của website của bạn:

meta name="robots" content="noindex,follow"WordPress cũng đổi khác file robots.txt của trang web của khách hàng và thêm rất nhiều dòng này:

User-agent: *Disallow: /Những mẫu yêu cầu các robot (các website crawler) ko index các trang của bạn. Mặc dù nhiên, nó hoàn toàn nhờ vào vào việc những công ráng tìm kiếm gật đầu đồng ý yêu mong này hay bỏ qua mất nó.

Chặn trình thu thập, kiếm tìm kiếm tin tức của Google:

Để ngăn trình thu thập, kiếm tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập ngẫu nhiên trang nào gồm chứa chuỗi URL www.example.com/example-subfolder/. Các bạn hãy sử dụng cú pháp sau:

User-agent: GooglebotDisallow: /example-subfolderChặn trình thu thập thông tin của Bing:

Bạn hãy sử dụng cú pháp sau:

User-agent: BingbotDisallow: /example-subfolder/blocked-page.html

Robots.txt, Meta robot và X-robot không giống nhau như cố gắng nào?

Đầu tiên, robots.txt là 1 trong tệp văn bạn dạng trong khi Meta robot cùng X-robot là các Meta Directives. Quanh đó ra, tác dụng của 3 các loại Robot này cũng hoàn toàn khác nhau.

Meta Robot là các đoạn mã cung ứng hướng dẫn mang đến trình thu thập thông tin về cách tích lũy dữ liệu hoặc lập chỉ mục nội dung trang web.


Nó được để vào phần của trang web và trông giống như:

X-robot là một trong những phần của tiêu đề HTTP được gửi từ máy chủ web. Không giống hệt như thẻ meta robots, thẻ này không được đặt trong HTML của một trang (tức phần của trang web).


X-Robots được sử dụng để ngăn những công chũm tìm kiếm lập chỉ mục các loại tệp ví dụ như hình hình ảnh hoặc PDF, ngay cả đối với các tệp chưa phải HTML.

Bất kỳ lệnh nào cần sử dụng được vào thẻ meta robots cũng có thể được chỉ định là 1 trong những X-Robots.

Bằng cách cho phép bạn điều hành và kiểm soát cách những loại tệp rõ ràng được lập chỉ mục, X-Robots hỗ trợ sự linh hoạt hơn thẻ Meta robots và tệp robots.txt.

Việc chế tác file robots.txt ra lệnh cho bài toán Index toàn bộ trang website hoặc thư mục. Trong những khi đó thì Meta robot cùng X-robot rất có thể ra lệnh cho việc Index ở cấp độ trang riêng lẻ.

Xem thêm: Marketing 4P Marketing Là Gì ? Yếu Tố Nào Quan Trọng Nhất Trong 4P?

Kết luận

Bây giờ mang lại lượt các bạn rồi đấy! chúng ta đã biết file robots.txt là gì chưa? Đã soát sổ xem website của bản thân mình đã bao gồm file robots.txt giỏi chưa. Tạo lập và chỉnh sửa file robots.txt Wordpress theo ý của khách hàng nhằm cung cấp các bé bot của biện pháp tìm kiếm thu thập dữ liệu và index trang web của người sử dụng nhanh chóng.

Nếu sau thời điểm đọc xong bài viết chi huyết này mà bạn vẫn cảm thấy khó hiểu, bạn hoàn toàn có thể suy xét đăng ký khóa huấn luyện hay chương trìnhđào tạo SEOtại GTV nhé!

Chúc các bạn thành công!

Đọc tiếp:

Bạn cảm thấy hoang mang lo lắng với lượng kỹ năng và kiến thức SEO liên tục trên mạng như hiện nay? Một khoá học SEO bài bản có lộ trình rõ ràng, chuyên nghiệp hóa sẽ cùng chúng ta vượt qua cơn nhức đầu này!