Depuración de resultados por detección y valoración de contenido duplicado

Sabemos que si un buscador es más eficaz que otro tiene que tener unos resultados de búsqueda tan depurados que el visitante logre encontrar aquello que busca en el menor tiempo posible, esto quiere decir en las primeras páginas de resultados. Leyendo un interesante artículo de Bill Slawski en su Blog hemos aprendido algo más acerca […]

Lunes, 25 febrero 2008 | por | Categoría: Posicionamiento

Sabemos que si un buscador es más eficaz que otro tiene que tener unos resultados de búsqueda tan depurados que el visitante logre encontrar aquello que busca en el menor tiempo posible, esto quiere decir en las primeras páginas de resultados.

Leyendo un interesante artículo de Bill Slawski en su Blog hemos aprendido algo más acerca de los planteamientos futuros de buscadores en relación con una patente que ha adquirido Google y que combina novedosas técnicas para encontrar contenido duplicado y filtrarlo convenientemente.

No es la primera vez que abordamos este tema y las incógnitas que nos suscita. Saber discernir el contenido duplicado en la red pasa por encontrar su autoría, conocer lo que el autor propone hacer con sus derechos, otorgarles la importancia por encima de copias piratas y no permitidas, etc. En el caso de informaciones comerciales, fichas de productos, catalogos, etc, hasta el momento parece que se valoraba la fecha de expansión en buscadores y su autoría. Si sabemos que no sirve de nada posicionar un producto los primeros si luego no reunimos otros privilegios para el buscador que nos ayude a mantenernos en un posicionamiento óptimo. Vamos que vamos quedando relegados en los resultados de búsqueda rápidamente por debajo de nuestros competidores.

Tratamiento de documentos cercanos a la duplicidad

El buscador deberá discernir y tratar la información cuidadosamente en función del análisis que haga de la misma teniendo en cuenta factores como la originalidad, tipo de copia, derechos de autor

  • Nos encontramos con el mismo texto publicado en diferentes soportes (html, pdf, doc, xls, texto plano …) o en soportes para impresión o enfocados a teléfonos móviles.
  • Compartir noticias y artículos en fuentes RSS publicadas en Blogs y otro tipo de Webs.
  • Utilización de páginas “espejo” con fines transparentes como intentar evitar demores de carga de Webs o facilitar el uso en condiciones adversas.
  • Detección de páginas que han violado los derechos de autor
  • Publicación del mismo contenido repetidamente en el mismo sitio Web

Los recientes esfuerzos de Google para combatir el contenido duplicado

El año pasado algunos empleados de Google hicieron un buen trabajo relacionado con el tema de conjuntos de procesos para la detección de duplicados y formas de valorarlos. Detección de Proximidad para la web duplicados Rastreo (pdf).

En el mencionado documento uno de los procesos descritos en detalle fue desarrollado por Moses Charikar, un profesor de Princeton, que trabajó para Google en el pasado, Moses Charikar, y que fue el inventor de una patente comprada por Google el pasado año en la que se hace referencia a una serie de métodos en relación con el tema de la duplicidad de contenidos.

  • Encontrar archivos similares en una gran Red
  • Huellas digitales en documentos
  • Copiar mecanismos de detección de documentos digitales
  • Agrupación sintáctica en la Web
  • Similitud de técnicas de estimación de redondeos en algoritmos
  • Similitud con el sistema de búsqueda de estructuras de datos compactos
  • Métodos par la identificación de documentos versioneados y plagiados

 La conclusión de estos estudios ha sido que ninguno de los algoritmos está funcionando perfectamente para ayudar a encontrar duplicidad de pares en el mismo sitio Web pero si logra una alta precisión y acerca lo que podría incorporarse a las nuevas técnicas de Google en su continua mejora en su buscador.

Como conclusión Bill Slawski apunta que el proceso descrito en esta nueva patente no introduce un nuevo método de identificación de contenido duplicado pero si aporta un nuevo enfoque en cuanto a su métodos de detección. ¿Quién sabe si estas técnicas se utilizarán definitivamente por los ingenieros de Google para aportar más transparencia al buscador?

También puede interesarte ...

Tags: , , ,

Deja un comentario