Back to Question Center
0

Semalt παρέχει συμβουλές για το πώς να ασχοληθεί με Bots, αράχνες και Crawlers

1 answers:

Εκτός από τη δημιουργία φιλικών διευθύνσεων URL μηχανής αναζήτησης , το αρχείο .htaccess επιτρέπει στους υπεύθυνους ιστού να εμποδίζουν συγκεκριμένα bots να έχουν πρόσβαση στην ιστοσελίδα τους. Ένας τρόπος για να αποκλείσετε αυτά τα ρομπότ είναι μέσω του αρχείου robots.txt. Ωστόσο, ο Ross Barber, ο Semalt Διαχειριστής επιτυχίας πελατών, δηλώνει ότι έχει δει μερικά crawlers να αγνοούν αυτό το αίτημα. Ένας από τους καλύτερους τρόπους είναι να χρησιμοποιήσετε το αρχείο .htaccess για να τους σταματήσετε από την ευρετηρίαση του περιεχομένου σας.

Τι είναι αυτά τα bots;

Πρόκειται για ένα είδος λογισμικού που χρησιμοποιείται από μηχανές αναζήτησης για τη διαγραφή νέου περιεχομένου από το διαδίκτυο για λόγους ευρετηρίασης.

Εκτελούν τα ακόλουθα καθήκοντα:

  • Επισκεφθείτε τις ιστοσελίδες στις οποίες έχετε συνδέσει
  • Ελέγξτε τον κώδικα HTML για σφάλματα
  • Αποθηκεύουν τις ιστοσελίδες στις οποίες συνδέεστε και βλέπετε ποιες ιστοσελίδες συνδέονται με το περιεχόμενό σας
  • Δείχνουν το περιεχόμενό σας

Ωστόσο, ορισμένα bots είναι κακόβουλα και αναζητούν στον ιστότοπό σας διευθύνσεις ηλεκτρονικού ταχυδρομείου και φόρμες που συνήθως χρησιμοποιούνται για την αποστολή ανεπιθύμητων μηνυμάτων ή ανεπιθύμητων μηνυμάτων. Άλλοι ακόμη ψάχνουν για παραθυράκια ασφαλείας στον κώδικα σας.

Τι χρειάζεται για να αποκλείσετε τις crawlers ιστού;

Πριν χρησιμοποιήσετε το αρχείο .htaccess, πρέπει να ελέγξετε τα ακόλουθα:

1. Ο ιστότοπός σας πρέπει να εκτελείται σε διακομιστή Apache. Σήμερα, ακόμη και εκείνες οι εταιρίες φιλοξενίας ιστού μισή αξιοπρεπή στη δουλειά τους, σας δίνουν πρόσβαση στο απαιτούμενο αρχείο.

2. Θα πρέπει να έχετε πρόσβαση σε εσείς τα ακατέργαστα αρχεία καταγραφής διακομιστών του ιστότοπού σας, ώστε να μπορείτε να εντοπίσετε ποια bots έχουν επισκεφθεί τις ιστοσελίδες σας.

Σημειώστε ότι δεν υπάρχει τρόπος να μπορέσετε να αποκλείσετε όλα τα βλαβερά bots εκτός και αν τα μπλοκάρετε όλα αυτά, ακόμα και αυτά που θεωρείτε χρήσιμα. Νέα bots έρχονται κάθε μέρα, και τα παλαιότερα τροποποιούνται. Ο πιο αποτελεσματικός τρόπος είναι να εξασφαλίσετε τον κώδικα σας και να δυσκολευτείτε να σας στείλουν spam οι βόμβοι .

Εντοπισμός bots

Οι Μποτς μπορούν είτε να αναγνωριστούν από τη διεύθυνση ΙΡ είτε από το "User String Agent", το οποίο στέλνουν στις κεφαλίδες HTTP. Για παράδειγμα, η Google χρησιμοποιεί το "Googlebot."

Μπορεί να χρειαστείτε αυτή τη λίστα με 302 bots αν έχετε ήδη το όνομα του bot που θα θέλατε να κρατήσετε μακριά χρησιμοποιώντας το .htaccess

Ένας άλλος τρόπος είναι να κατεβάσετε όλα τα αρχεία καταγραφής από το διακομιστή και να τα ανοίξετε χρησιμοποιώντας ένα πρόγραμμα επεξεργασίας κειμένου. βοήθεια από τον οικοδεσπότη Ιστού σας .

Αν ξέρετε ποια σελίδα επισκέφθηκε ή η ώρα της επίσκεψης, είναι ευκολότερο να έρθετε με ένα ανεπιθύμητο bot. Θα μπορούσατε να αναζητήσετε το αρχείο καταγραφής με αυτές τις παραμέτρους.

Μία φορά, έχετε σημειώσει ποια bots πρέπει να μπλοκάρει. μπορείτε να τα συμπεριλάβετε στο αρχείο .htaccess. Λάβετε υπόψη ότι το κλείδωμα του bot δεν αρκεί για να το σταματήσει. Μπορεί να επανέλθει με μια νέα διεύθυνση IP ή όνομα.

Πώς να τους μπλοκάρει

Κατεβάστε ένα αντίγραφο του αρχείου .htaccess. Δημιουργήστε αντίγραφα ασφαλείας εάν απαιτείται.

Μέθοδος 1: αποκλεισμός από IP

Αυτό το απόσπασμα κώδικα αποκλείει το bot χρησιμοποιώντας τη διεύθυνση IP 197.0.0.1

Παραγγελία Deny, Allow

Απαγορεύεται από το 197.0.0.1

Η πρώτη γραμμή σημαίνει ότι ο διακομιστής θα μπλοκάρει όλα τα αιτήματα που ταιριάζουν με τα πρότυπα που έχετε ορίσει και θα επιτρέψουμε σε όλους τους άλλους.

Η δεύτερη γραμμή λέει στον διακομιστή να εκδώσει μια σελίδα 403: απαγορευμένη

Μέθοδος 2: Αποκλεισμός από παράγοντες χρήστη

Ο ευκολότερος τρόπος είναι να χρησιμοποιήσετε τον κινητήρα επανεγγραφής Apache

RewriteEngine Ενεργοποίηση

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Η πρώτη γραμμή εξασφαλίζει την ενεργοποίηση της μονάδας επανεγγραφής. Η δεύτερη γραμμή είναι η προϋπόθεση για την οποία ισχύει ο κανόνας. Το "F" στη γραμμή 4 λέει στον διακομιστή να επιστρέψει ένα 403: Απαγορευμένο ενώ το "L" σημαίνει ότι αυτός είναι ο τελευταίος κανόνας.

Στη συνέχεια, ανεβάστε το αρχείο .htaccess στο διακομιστή σας και αντικαταστήστε το υπάρχον. Με το χρόνο, θα χρειαστεί να ενημερώσετε την IP του bot. Σε περίπτωση που κάνετε σφάλμα, μεταφορτώστε το αντίγραφο ασφαλείας που κάνατε.

November 29, 2017
Semalt παρέχει συμβουλές για το πώς να ασχοληθεί με Bots, αράχνες και Crawlers
Reply