Pourquoi ces sites clonent-ils mon contenu et comment puis-je les arrêter?


14

Je cherchais donc l'un de mes propres sites Web sur Google: http://www.botlibre.com

et à ma grande surprise trouvé quelques clones de mon site Web, comme:

http://83waystowasteyourtime.adidas.com

et:

http:// mediaiq.astral.comm

Ma question est:

  1. Pourquoi créent-ils des clones de mon site Web? Une sorte de schéma de référencement ou quoi? Quel gain pourraient-ils obtenir?
  2. Comment ont-ils une URL sur adidas.comet astral.comm? Je suppose que ce n'est pas Adidas qui prépare mon contenu.
  3. Comment puis-je fermer ces sites et empêcher les gens de voler mon contenu? (sur Tomcat)

copyscape.com Semble être une bonne ressource pour trouver du contenu dupliqué, c'est ainsi que j'ai trouvé quelques copies de mon site.
Kzqai

Réponses:


17

D'accord. C'est plutôt étrange, mais pas aussi tragique que vous ne le pensez.

Je ne sais pas quel serait le gain. Cela n'a absolument aucun sens pour moi de savoir pourquoi quelqu'un ferait cela. Je ne vois aucun avantage pour le pirate informatique. La bonne nouvelle est que le visiteur accède à votre site. Cependant, il y aura un succès d'un point de vue SEO, donc vous voulez résoudre ce problème rapidement.

Votre site, je suppose, n'est pas sur un serveur partagé, donc si vous accédez à votre site par l'adresse IP, cela fonctionnera toujours. J'ai testé cela et ça le fait.

83waystowasteyourtime.adidas.com et mediaiq.astral.com sont des sous-domaines utilisant un ancien hack qui permet à quiconque de créer un sous-domaine pour tout domaine sans méfiance. Vous pouvez lire à ce sujet ici: http://www.techrepublic.com/blog/it-security/watch-out-for-dns-sub-domain-hijacking/ Il y a plus de sites si vous piratez le DNS du sous-domaine Google .

Voici la bonne nouvelle. Ce ne sont pas des clones ou des copies de votre site, ils sont votre site. Chaque sous-domaine pointe spécifiquement vers votre adresse IP.

Vous pouvez faire:

> dig 83waystowasteyourtime.adidas.com any

et

> dig mediaiq.astral.comm any

sur n'importe quel ordinateur Linux pour voir.

Vous pouvez probablement lutter contre cela, mais je ne sais pas quelle méthode fonctionnera:

En supposant que vous avez installé Apache, vous pouvez modifier votre fichier .htaccess dans votre répertoire racine Web et insérer le code suivant.

Ajoutez ce qui suit en haut du fichier pour activer le moteur de réécriture.

RewriteEngine On

Blocage par l'hôte:

RewriteCond %{HTTP_HOST} ^83waystowasteyourtime\.adidas\.com$ [NC]
RewriteRule .* - [F,L]

--ou--

Blocage par référent:

RewriteCond %{HTTP_REFERER} ^83waystowasteyourtime\.adidas\.com$ [NC]
RewriteRule .* - [F,L]

Vous voudrez les tester et nous dire lequel fonctionne. S'il vous plaît. Il se peut que nous devions chercher une autre méthode.

Bien sûr, vous pouvez modifier la règle de réécriture et les rediriger directement vers votre site, avec:

RewriteRule .* http://www.botlibre.com [R=301,L]

--ou--

Envoyez-les en enfer (humour) avec:

RewriteRule .* http://www.hell.com [R=301,L]

... qui est un vrai site. Mais vous leur transmettriez le problème.

Je recommande de les bloquer.

Comme @Martijn l'a mentionné dans son commentaire et cela vaut la peine d'être préservé, vous pouvez avoir des liens canoniques par page pour vous protéger. Dans ce cas, le lien pointerait vers la page sur laquelle se trouve le lien. C'est plus de travail, mais cela semble être une bonne idée de nos jours.

<link rel="canonical" href="http://www.example.com/booger-eating-tyrants" />

De plus, vous pouvez contacter les propriétaires du domaine parent et les laisser vous rejoindre dans la bataille:

Adidas.com

Admin Name: Albert Pedraz
Admin Organization: adidas AG
Admin Street: Adi-Dassler-Strasse 1
Admin City: Herzogenaurach
Admin State/Province:
Admin Postal Code: 91074
Admin Country: DE
Admin Phone: +49.9132844584
Admin Email: adidas@role.noris.net

Tech Name: noris.net Hostmaster
Tech Organization: noris network AG
Tech Street: Thomas-Mann-Str. 16-20
Tech City: Nuernberg
Tech State/Province:
Tech Postal Code: 90471
Tech Country: DE
Tech Phone: +49.91193520
Tech Fax: +49.9119352100
Tech Email: hostmaster@noris.net

Astral.com

Admin Name: Van Tu Duong
Admin Organization: Bell Media Inc.
Admin Street: 9 Channel Nine Court,
Admin City: Scarborough
Admin State/Province: Ontario
Admin Postal Code: M1S 4B5
Admin Country: CA
Admin Phone: +1.5148702477
Admin Phone Ext:
Admin Fax:
Admin Fax Ext:
Admin Email: trademarks@bell.ca

Tech Name: Van Tu Duong
Tech Organization: Bell Media Inc.
Tech Street: 9 Channel Nine Court,
Tech City: Scarborough
Tech State/Province: Ontario
Tech Postal Code: M1S 4B5
Tech Country: CA
Tech Phone: +1.5148702477
Tech Phone Ext:
Tech Fax:
Tech Fax Ext:
Tech Email: trademarks@bell.ca

3
Et ajoutez un en-tête 301 à votre site, et ajoutez une étiquette canonique à vos pages pour que les moteurs de recherche connaissent l'original. Autant prendre cela à votre avantage :)
Martijn

@Martijn Merci pour le commentaire! J'ai mis à jour la réponse avec un exemple de lien canonique. Cela devrait aider les gens à l'avenir.
closetnoc

Merci pour la grande info. Dans quel fichier dois-je mettre "RewriteCond" exactement? Aussi une réponse à la question n ° 1, pourquoi? quel avantage en retirent-ils?
James

1
@James J'ai mis à jour la réponse. J'ai répondu à la question 1, mais c'était plus bas dans ma réponse et probablement facilement raté. Je l'ai déplacé vers le haut et je l'ai développé un peu. J'ai également ajouté quel fichier et où le trouver - en supposant Apache (c'est le code Apache). Je ne connais plus du tout IIS. Cela fait plus d'une décennie que je n'ai rien fait avec IIS. Rappelez-vous, je ne sais pas quel ensemble de code fonctionne, mais je soupçonne plutôt que la version% {HTTP_REFERER} est correcte. Veuillez tester et nous faire savoir quels sont les résultats. Encore une fois, en supposant Apache.
closetnoc

Désolé, j'utilise Tomcat, une idée de comment faire cela sur Tomcat?
James
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.