La detección de scrapers para determinar el contenido original de un sitio

Uno de los retos que tienen más presentes los buscadores es la detección de contenido original y duplicado en la Red y lo que resulta todavía más difícil, discernir cual es el genuino para aplicarle su valor correspondiente. Google, según un artículo publicado en su Blog, nos desvela su preocupación por el asunto de los [...]

  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Add to favorites
  • LinkedIn
  • Meneame
  • MySpace
  • Ping.fm
  • Technorati
  • Twitter
  • Wikio
  • BarraPunto
  • Bitacoras.com
  • Live
  • MSN Reporter
  • Reddit
  • Yahoo! Bookmarks

Martes, 10 Junio 2008 | por Luis A. Serrano | Categoría: Posicionamiento

Uno de los retos que tienen más presentes los buscadores es la detección de contenido original y duplicado en la Red y lo que resulta todavía más difícil, discernir cual es el genuino para aplicarle su valor correspondiente. Google, según un artículo publicado en su Blog, nos desvela su preocupación por el asunto de los scrapers (sitios Web que copian todo su contenido de otros sitios) y como trabajan sobre este asunto.

Por cierto el término traducido literalmente es algo así como excavadora o rascador. Según Sven Naumann, del departamento de calidad de Google, son conscientes de la preocupación que genera entre Webmasters que su trabajo sea reconocido por otros sitios que no son los originales por lo que están implantando procesos de fltracción que determinen en los resultados de búsqueda una clasificación limpia. Un robo en toda regla que inclumple gravemente las Directrices para Webmasters.

Un trabajo complejo que pasa por elaborar mecanismos que decidan si un contenido se ha duplicado de forma voluntaria o involuntaria y en que grado. Por ejemplo es el uso de idiomas, según, Deftly, otro ingeniero de la casa, no es determinado por los algoritmos de Google como duplicado.

También se aconseja que Webmasters participen siguiendo una serie de consejos que ayuden a los robots a discernir ese contenido original de uno duplicado. Entre las pautas a seguir destacan:

  • Use robots.txt para limpiar resultados de búsqueda que no aporten valo añadido al sitio (categorías, páginas para imprimir, etc)
  • Redirecciones 301 (redirección permanente) para sitios modificados
  • Use de forma coherente los vínculos internos
  • Usar dominios de primer nivel superior siempre que sea posible
  • Incluir un enlace hacia el artículo original en las sindicaciones
  • Hacer uso de la herramienta “establecer dominio preferido” que encontrará en las herramientas para Webmasters
  • Evitar publicación de coletillas que hagan alusión a páginas vacias o semivacias
  • Si cree que su sitio está considerado como duplicado, pese a tener un contenido eminentemente original, denúncielo en las herramientas para Webmasters.

Vanessa Fox, de Google, argumenta que un sitio no es penalizado cuando se sospecha que pueda ser contenido duplicado ni tampoco entra en el índice complementario ¿todavía existe?

También sería interesante que Google aportara información sobre temas duplicados para que los usuarios pudieran de alguna forma defenderse al respecto aportar pruebas adicionales para determinar la originalidad de las páginas.

Todo lo dicho anteriormente es lógico. Pensemos en un caso real. Por ejemplo una librería virtual que incluye miles de páginas Webs con libros y un contenido eminentemente duplicado porque contiene el mismo nombre, descripción del producto, índice, etc. El buscador tendrá cientos de librerías con la misma información y deberá decidir cual es la original, por tanto en este caso, lo lógico sería que la editorial que tiene los derechos de la obra se erigiera como original y le otorgaran un valor añadido sobre las demás.

Lo dicho, éste parece ser un tema prioritario para buscadores así que para nosotros ambién. Continuaremos indagando sobre la detección de estos piratas de internet o scrapers.

  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Add to favorites
  • LinkedIn
  • Meneame
  • MySpace
  • Ping.fm
  • Technorati
  • Twitter
  • Wikio
  • BarraPunto
  • Bitacoras.com
  • Live
  • MSN Reporter
  • Reddit
  • Yahoo! Bookmarks

También puede interesarte ...

Tags: , ,

Deja un comentario