Back to Question Center
0

Web Scraping: Καλό και κακό Bots - Semalt Επεξήγηση

1 answers:

Οι μποτς αντιπροσωπεύουν σχεδόν το 55% της συνολικής κίνησης στο διαδίκτυο. Αυτό σημαίνει ότι το μεγαλύτερο μέρος της επισκεψιμότητας του ιστότοπού σας προέρχεται από τα bots του Διαδικτύου και όχι από τα ανθρώπινα όντα. Ένα bot είναι η εφαρμογή λογισμικού που είναι υπεύθυνη για την εκτέλεση αυτοματοποιημένων εργασιών στον ψηφιακό κόσμο. Τα bots τυπικά εκτελούν επαναλαμβανόμενα καθήκοντα με μεγάλη ταχύτητα και είναι κατά κανόνα ανεπιθύμητα από τα ανθρώπινα όντα. Είναι υπεύθυνοι για τις μικροσκοπικές εργασίες που συνήθως θεωρούμε δεδομένες, συμπεριλαμβανομένης της ευρετηρίασης των μηχανών αναζήτησης, της παρακολούθησης της υγείας του ιστότοπου, της μέτρησης της ταχύτητάς του, της ενεργοποίησης των API και της προσέλκυσης του περιεχομένου ιστού. Τα bots χρησιμοποιούνται επίσης για την αυτοματοποίηση του ελέγχου ασφαλείας και τη σάρωση των ιστότοπων σας για την εύρεση ευπαθειών, την άμεση αποκατάστασή τους.

Εξερευνώντας τη διαφορά μεταξύ του καλού και του κακού bots:

Τα bots μπορούν να χωριστούν σε δύο διαφορετικές κατηγορίες, καλές bots και κακά bots. Τα καλά bots επισκέπτονται τους ιστότοπούς σας και βοηθούν τις μηχανές αναζήτησης να ανιχνεύουν διάφορες ιστοσελίδες. Για παράδειγμα, το Googlebot ανιχνεύει πολλές ιστοσελίδες στα αποτελέσματα Google και βοηθά στην ανακάλυψη νέων ιστοσελίδων στο διαδίκτυο. Χρησιμοποιεί αλγόριθμους για να αξιολογήσει ποια ιστολόγια ή ιστοτόπους θα πρέπει να ανιχνεύονται, πόσο συχνά πρέπει να γίνεται ανίχνευση και πόσες σελίδες έχουν αναπροσαρμοστεί μέχρι στιγμής. Τα κακά bots είναι υπεύθυνα για την εκτέλεση κακόβουλων εργασιών, συμπεριλαμβανομένης της απόσπασης ιστότοπων, σχολίων spam και επιθέσεων DDoS. Αντιπροσωπεύουν πάνω από το 30% της συνολικής κίνησης στο Διαδίκτυο..Οι χάκερ εκτελούν τα κακά bots και εκτελούν διάφορες κακόβουλες εργασίες. Σαρώνουν τα εκατομμύρια σε δισεκατομμύρια ιστοσελίδες και στοχεύουν να κλέψουν ή να ξύνουν το περιεχόμενο παράνομα. Επίσης καταναλώνουν το εύρος ζώνης και αναζητούν συνεχώς plugins και λογισμικό που μπορούν να χρησιμοποιηθούν για να διεισδύσουν στις ιστοσελίδες και τις βάσεις δεδομένων σας.

Ποια είναι η ζημιά;

Συνήθως, οι μηχανές αναζήτησης βλέπουν το περιεχόμενο που έχει υποστεί ξήρανση ως το διπλό περιεχόμενο. Είναι επιβλαβές για τις ταξινομήσεις μηχανών αναζήτησής σας και τις γρατζουνιές θα αρπάξει τις τροφές σας RSS για την πρόσβαση και την αναδημοσίευση του περιεχομένου σας. Κερδίζουν πολλά χρήματα με αυτήν την τεχνική. Δυστυχώς, οι μηχανές αναζήτησης δεν έχουν εφαρμόσει τρόπο να ξεφορτωθούν τα κακά bots. Αυτό σημαίνει ότι αν το περιεχόμενό σας αντιγραφεί και επικολληθεί τακτικά, η κατάταξη του ιστοτόπου σας καταστρέφεται μέσα σε λίγες εβδομάδες. Οι μηχανές αναζήτησης τιμωρούν τους ιστότοπους που περιέχουν διπλό περιεχόμενο και δεν αναγνωρίζουν ποιος ιστότοπος δημοσίευσε για πρώτη φορά ένα περιεχόμενο.

Δεν είναι όλα τα αποξεστικά ιστού κακά

Πρέπει να παραδεχτούμε ότι η απόξεση δεν είναι πάντα επιβλαβής και κακόβουλη. Είναι χρήσιμο για τους ιδιοκτήτες ιστοτόπων όταν θέλουν να μεταδώσουν τα δεδομένα σε όσο το δυνατόν περισσότερα άτομα. Για παράδειγμα, οι κυβερνητικοί χώροι και οι ταξιδιωτικές πύλες παρέχουν χρήσιμα στοιχεία για το ευρύ κοινό. Αυτός ο τύπος δεδομένων είναι συνήθως διαθέσιμος μέσω των API και χρησιμοποιούνται αποξεστήρες για τη συλλογή αυτών των δεδομένων. Σε καμία περίπτωση δεν είναι επιβλαβές για τον ιστότοπό σας. Ακόμη και όταν ξύσετε αυτό το περιεχόμενο, δεν θα βλάψει τη φήμη της επιχείρησής σας στο διαδίκτυο.

Ένα άλλο παράδειγμα αυθεντικής και νόμιμης απόσχισης είναι οι χώροι συγκέντρωσης όπως οι πύλες κράτησης ξενοδοχείων, οι χώροι εισιτηρίων συναυλιών και τα καταστήματα ειδήσεων. Τα bots που είναι υπεύθυνα για τη διανομή του περιεχομένου αυτών των ιστοσελίδων λαμβάνουν δεδομένα μέσω των API και τα ξύνουν σύμφωνα με τις οδηγίες σας. Σκοπός τους είναι να κατευθύνουν την κυκλοφορία και να αντλούν πληροφορίες για τους υπεύθυνους των webmasters και τους προγραμματιστές.

December 14, 2017
Web Scraping: Καλό και κακό Bots - Semalt Επεξήγηση
Reply