6 công dụng của file robots.txt trong SEO

6 công dụng của file robots.txt trong SEO

Robots.txt là một file đặt trên hosting. Nó dùng để cấp quyền lập chỉ mục cho bọ công cụ tìm kiếm.

Khi dùng file robots.txt, bạn cần cẩn trọng. Vì nếu điều chỉnh sai, mọi thành quả SEO sẽ đổ sông đổ bể.

Nếu dự án của bạn nhỏ, và bạn không biết chắc chắn mình đang làm gì, tốt nhất, bạn không nên dùng file robots.txt. Cứ để mọi thứ tự nhiên như thế. Blog của Quang cũng không dùng file robots.txt.

Tuy nhiên, với những dự án lớn, đặc biệt là e – comerce, việc sử dụng file robot.txt gần như là bắt buộc. File robots.txt giúp bọ Google index trang web của bạn hiệu quả hơn, chống đối thủ dò quét backlink, cũng như hạn chế nội dung trùng lặp rất thường gặp khi SEO cho lĩnh vực e-comerce.

Bài viết này, TranHaIT sẽ giới thiệu tới bạn một số cách sử dụng file robots.txt phổ biến nhất hiện nay.

1. CHẶN BỌ TRONG QUÁ TRÌNH SETUP HỆ THỐNG

Trong quá trình thiết kế website (thiết kế giao diện, cài đặt plugin, xây dựng cấu trúc trang web), mọi thứ còn rất bừa bộn. Bạn nên chặn bọ Google, để nó không index những nội dung chưa hoàn thiện mà bạn không mong muốn.

Để chặn bọ Google, bạn khai báo file robot.txt như sau:

User-agent: *
Disallow: / 

Nếu dùng WordPress, có một cách chặn dễ làm hơn. Bạn vào phần Settings / Reading / Search Engine Visibility, chọn ô Discourage search engines from indexing this site là xong.

Lưu ý quan trọng: Cách cấu hình file robot.txt như trên, bạn chỉ được dùng trong khi setup hệ thống. Nếu trang web đang ổn định, bạn nghịch ngu chèn mã trên vào file robots.txt là xong phim. Vì khi đó, bạn đã chặn bọ Google index trang web.

 

2. CHÈN SITEMAP

Sitemap giống như một tấm bản đồ để bọ Google khám phá trang web của bạn. Nếu số lượng index của trang web quá lớn mà trang web không có sitemap, bọ Google có thể sẽ không đủ tài nguyên (crawl budget) để quét hết trang web của bạn. Từ đó, Google có thể sẽ không index được một số nội dung quan trọng.

Một trang web có thể có nhiều hơn một sitemap (ví dụ như sitemap bài viết, sitemap hình ảnh, sitemap tin tức…). Bạn nên dùng một phần mềm để tạo sitemap cho trang web, rồi sau đó khai báo các đường dẫn sitemap đó vào trong file robots.txt.

Nếu dùng WordPress, Yoast SEO đã tự động tạo sitemap cho bạn. Với mã nguồn non-WordPress, bạn có thể dùng Screaming Frog / Website Auditor để quét, và tạo sitemap thay thế cho Yoast SEO.

Ví dụ: Hãy xem anh Hoàng, Team Ba Phải chèn file sitemap vào file robots.txt như thế nào:

User-agent: *
Sitemap:  https://teambaphai.com/sitemap.xml

Bạn có thể xem chi tiết tại đây.

User-agent: *
Sitemap: https://dichvuseonhanh.com/sitemap.xml

 

3. CHẶN BỌ CHECK BACKLINK

Hiện tại ở Việt Nam, ba công cụ check backlink phổ biến nhất là Ahrefs, Majestic và Moz. Bọ của chúng có tên tương ứng là AhrefsBot (Ahrefs), mj12bot (Majestic) và rogerbot(Moz).

Để không cho đối thủ dùng công cụ để phân tích backlink của bạn, bạn có thể chặn bọ của chúng trong file robots.txt.

Ví dụ, bạn muốn chặn bọ của Ahrefs, cú pháp như sau:

User-agent: AhrefsBot
Disallow: / 

Hãy xem cách phòng thủ của Sen Đỏ. Họ chặn bọ của Ahrefs, Majestic, Moz và thêm 4 con bọ khác. Bạn xem tại đây.

User-agent: *
Disallow: /adminseller/
Disallow: /errors/
Disallow: /catalogsearch/
Disallow: /vas/sendoshop/
Disallow: /index.php/
User-agent: rogerbot
Disallow:/
User-agent: mj12bot
Disallow:/
User-agent: dotbot
Disallow:/
User-agent: exabot
Disallow:/
User-agent: gigabot
Disallow:/
User-agent: AhrefsBot
Disallow: /
User-agent: BacklinkCrawler
Disallow: /
Sitemap: https://www.sendo.vn/sitemaps/sitemaps.xml.gz

Ngoài ra, trên thế giới còn có nhiều công cụ check backlink khác. Bạn có thể xem các con bọ đó, do bạn Cao Tú tổng hợp tại đây.

user-agent: AhrefsBot
disallow: / 

User-agent: SiteExplorer
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: duggmirror
Disallow: /

User-agent: Slurp
Disallow: /

User-agent: Gigabot
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ActiveTouristBot
Disallow: /

User-agent: USyd-NLP-Spider
Disallow: /

User-agent: RAMPyBot
Disallow: /

User-agent: MMCrawler
Disallow: /

User-agent: aipbot
Disallow: /

User-agent: ichiro
Disallow: /

User-agent: MyEngines-Bot
Disallow: /

User-Agent: KFSW-Bot
Disallow: /

User-agent: NimbleCrawler
Disallow: /

User-agent: genieBot
Disallow: /

User-agent: MouseBOT
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: SBIder
Disallow: /

User-agent: stalker
Disallow: /

User-agent: DataSpear
Disallow: /

User-agent: thumbshots-de-bot
Disallow: /

User-agent: LocalcomBot
Disallow: /

User-agent: Findexa
Disallow: /

User-agent: iCCrawler
Disallow: /

User-agent: ObjectsSearch
Disallow: /
 
User-agent: KnowItAll
Disallow: /

User-agent: yacy
Disallow: /

User-agent: dcbspider
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: cfetch
Disallow: /

User-agent: FindLinks
Disallow: /

User-agent: BecomeBot
Disallow: /

User-agent: Moni
Disallow: /

User-agent: Georgios
Disallow: /

User-agent: CydralSpider
Disallow: /

User-agent: HooWWWer
Disallow: /

User-agent: JemmaTheTourist
Disallow: /

User-agent: btbot
Disallow: /

User-agent: Yahoo-MMAudVid
Disallow: /

User-agent: IRLbot
Disallow: /

User-agent: baiduspider
Disallow: /

User-agent: Amfibibot
Disallow: /

User-agent: gridBOT
Disallow: /

User-agent: sna
Disallow: /

User-agent: TAMU_CS_IRL_CRAWLER
Disallow: /

User-agent: NPT
Disallow: /

User-agent: BruinBot
Disallow: /

User-agent: ZipppBot
Disallow: /

User-agent: Jetbot
Disallow: /

User-agent: Molbsy
Disallow: /

User-agent: PhpDig
Disallow: /

User-agent: mirago
Disallow: /

User-agent: GoForIt.com
Disallow: /

User-agent: GoForIt
Disallow: /

User-agent: Download Ninja
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: larbin
Disallow: /

User-agent: appie
Disallow: /

User-agent: Yahoo-MMCrawler
Disallow: /

User-agent: libwww
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: sohu-search
Disallow: /

User-agent: heritrix
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: Fetch
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: linko
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: RPT-HTTPClient
Disallow: /

User-agent: Dumbot
Disallow: /

User-agent: Cowbot
Disallow: /

User-agent: SuperGet
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Szukacz
Disallow: /

User-agent: antibot
Disallow: /

User-agent: NaverBot
Disallow: /

User-agent: IconSurf
Disallow: /

User-agent: Speedy
Disallow: /

User-agent: NPBot
Disallow: /

User-agent: TutorGig
Disallow: /

User-agent: Searchspider
Disallow: /

User-agent: Lachesis
Disallow: /

User-agent: VSE/1.0
Disallow: /

User-agent: QuepasaCreep
Disallow: /

User-agent: Gigabot
Disallow: /

User-agent: Haste
Disallow: /

User-agent: NetResearchServer
Disallow: /

User-agent: Nutch
Disallow: /

User-agent: NutchOrg
Disallow: /

User-agent: grub-client
Disallow: /

User-agent: Spider_ Monkey
Disallow: /

User-agent: IXE Crawler
Disallow: /

User-agent: CoolBot
Disallow: /

User-agent: Zao
Disallow: /

User-agent: backlink-check.de
Disallow: /

 

Lưu ý: Muốn chặn triệt để bọ Ahrefs / Majestic / Moz… , bạn cần chặn hai đầu nhé. Ví dụ như moneysite của bạn có 200 domain trỏ về, trong đó có 10 domain là vệ tinh của bạn.

Khi đó, bạn cần chặn bọ Ahrefs / Majestic / Moz… trên money site và cả trên 10 vệ tinh kia nhé. Vì nếu chỉ chặn một đầu (moneysite), bọ Ahrefs / Majestic / Moz…. vẫn có thể dò ra được backlink đó.

4. CHẶN BỌ ĐỘC HẠI

Ngoài bọ check backlink, còn một số loại bọ độc hại khác.

Ví dụ như, Amazon, gã khổng lồ của ngành e-commerce thế giới, phải chặn một con bọ có tên là EtaoSpider.

Trích đoạn file robot.txt của Amazon:

User-agent: EtaoSpider
Disallow:  /

EtaoSpider, chính là bọ của Alibaba. Nó được thiết kế, để quét và sao chép nội dung tự động từ Amazon (xem chi tiết tại https://www.amazon.com/robots.txt).

Cuộc chiến của Amazon và Alibaba, diễn ra ngay trên cách cấu hình file robots.txt của họ.

Ngoài EtaoSpider, còn có những con bọ được thiết kế chuyên dụng chỉ dùng để đi copy nội dung người khác (như Zealbot, MSIECrawler, SiteSnagger, WebStripper, WebCopier…), hoặc gửi quá nhiều / quá nhanh request tới máy chủ ( như fast, wget, NPBot, grub-client…), từ đó làm hao phí băng thông và tài nguyên hệ thống.

Bạn có thể tham khảo danh sách những con bọ đó, và lí do chặn chúng tại đây.

5. CHẶN THƯ MỤC NHẠY CẢM

Mã nguồn trang web, thông thường có thư mục nhạy cảm, chẳng hạn như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache….

Bạn không nên cho bọ tìm kiếm index những nội dung này, vì khi đó, nội dung của chúng sẽ bị public trên internet. Hacker có thể moi được thông tin từ chúng, để tấn công hệ thống của bạn.

Dưới đây là mẫu file robots.txt WordPress mặc định bạn có thể sử dụng :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Tuy nhiên, nhược điểm của file robots.txt là nó chặn được bọ robot, nhưng lại để lộ đường dẫn URL chứa thông tin quan trọng. Do đó, bạn cần chỉnh lại file .htaccess / nginx để chặn truy cập bất thường của con người tới những file này.

Nếu là người dùng phổ thông, tốt nhất, bạn nên nói bên hosting backup dữ liệu tự động cho bạn định kỳ hàng tuần. Lỡ có biến thì còn đường mà đỡ.

 

6. CHẶN BỌ TRONG THƯƠNG MẠI ĐIỆN TỬ

Trong thương mại điện tử, có một số tính năng đặc thù cho người dùng như:

– Đăng ký tài khoản
– Đăng nhập tài khoản
– Giỏ hàng
– Lịch sử giao dịch
– Sở thích người dùng (wishlist)
– Thanh tìm kiếm nội bộ
– So sánh giá (price)
– Sắp xếp thuộc tính (giá từ cao tới thấp, hàng bán chạy, kí tự A&B….)
– Lọc thuộc tính (nhà sản xuất, màu sắc, giá tiền, dung lượng…)
– Các sản phẩm không còn bán nữa (đi kèm với 301 redirect)

Những chức năng đó không thể thiếu với người dùng, nhưng thường tạo ra nội dung trùng lặp trong SEO, và không có bất kỳ nội dung liên quan gì để hỗ trợ cho việc SEO từ khóa. Do đó, bạn có thể chặn index các đường dẫn này file robots.txt.

Trong file robot.txt, bạn dùng thêm dấu * (thay thế một chuỗi ký tự bất kỳ) và $ (định dạng file, ví dụ như .doc, .pdt, .ppt, .swf…, dùng ở cuối câu) để chặn các file tương ứng.

Ví dụ, đây là đường dẫn điện thoại Iphone, sort theo giá từ cao tới thấp của Cell Phones  như sau:
https://cellphones.com.vn/mobile/apple/iphone-2017.html…

Bạn thấy trong đường dẫn có đoạn ký tự ?dir=asc, dùng để sort theo giá. Đường dẫn này sẽ tạo ra nội dung trùng lặp cho trang web. Do đó, Cell Phones đã chặn chức năng sort theo giá đó trong file robots.txt như sau:

User-agent: * 
Disallow: /*?dir=asc

File robots.txt của Cell Phones, bạn xem tại đây.

## robots.txt for Magento Community and Enterprise
 
## GENERAL SETTINGS
 
## Enable robots.txt rules for all crawlers
User-agent: *
 
## Crawl-delay parameter: number of seconds to wait between successive requests to the same server.
## Set a custom crawl rate if you're experiencing traffic problems with your server.
# Crawl-delay: 30
 
## Magento sitemap: uncomment and replace the URL to your Magento sitemap file
# Sitemap: http://www.example.com/sitemap/sitemap.xml
 
## DEVELOPMENT RELATED SETTINGS
 
## Do not crawl development files and folders: CVS, svn directories and dump files
Disallow: /CVS
Disallow: /*.svn$
Disallow: /*.idea$
Disallow: /*.sql$
Disallow: /*.tgz$
 
## GENERAL MAGENTO SETTINGS
 
## Do not crawl Magento admin page
Disallow: /admin/
Disallow: /index.php/admin/
 
## Do not crawl common Magento technical folders
Disallow: /app/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /lib/
Disallow: /pkginfo/
Disallow: /shell/
Disallow: /var/
 
## Do not crawl common Magento files
Disallow: /api.php
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /get.php
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /README.txt
Disallow: /RELEASE_NOTES.txt
 
## MAGENTO SEO IMPROVEMENTS
 
## Do not crawl sub category pages that are sorted or filtered.
Disallow: /*?dir*
Disallow: /*?dir=desc
Disallow: /*?dir=asc
Disallow: /*?limit*
Disallow: /*?limit=all
Disallow: /*?mode*
Disallow: /*?price*
Disallow: /*?manufacturer*
Disallow: /*?operating_system*
Disallow: /*?id*
Disallow: /?changestore*
Disallow: /*?loaisp*
Disallow: /*?model_dienthoai_mtb*
Disallow: /*?storage*
Disallow: /*?sim_card*
Disallow: /*?screen_size*
Disallow: /*?phone_accessory_brands*
Disallow: /*?battery_capacity*
Disallow: /*?chieu_dai_cap*
Disallow: /*?sound_capacity*
Disallow: /*?tinh_nang*
Disallow: /order/warranty/*

Allow: *?v=*
Allow: /sforum/*?utm_source=*
 
## Do not crawl 2-nd home page copy (example.com/index.php/). Uncomment it only if you activated Magento SEO URLs.
Disallow: /index.php/
 
## Do not crawl links with session IDs
Disallow: /*?SID=
 
## Do not crawl checkout and user account pages
Disallow: /checkout/
Disallow: /onestepcheckout/
Disallow: /customer/
Disallow: /customer/account/
Disallow: /customer/account/login/
 
## Do not crawl seach pages and not-SEO optimized catalog links
Disallow: /catalogsearch/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
 
## SERVER SETTINGS

## Do not crawl common server technical folders and files
Disallow: /cgi-bin/
Disallow: /cleanup.php
Disallow: /apc.php
Disallow: /memcache.php
Disallow: /phpinfo.php
 
## IMAGE CRAWLERS SETTINGS
 
## Extra: Uncomment if you do not wish Google and Bing to index your images
# User-agent: Googlebot-Image
# Disallow: /
# User-agent: msnbot-media
# Disallow: /

## Cellphones Sitemap 
Sitemap: https://cellphones.com.vn/sitemap.xml

 

Khi cấu hình file robots.txt cho trang thương mại điện tử, bạn cần nhờ sự hỗ trợ của bên lập trình web. Họ hiểu được ý nghĩa của từng chức năng, và sẽ giúp bạn tìm đúng cú pháp để bạn chặn trong file robot.txt.

Chúc bạn thành công!

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *