Se limitan a informar de lo mismo que pone la noticia: que han actualizado el spider, pero no cómo lo han hecho para ahorrar el 25% de ancho de banda, si mediante compresión (con Apache2, por ejemplo, los elementos pueden enviarse comprimidos en gzip) o reduciendo la frecuencia de actualización de elementos normalmente no actualizados (imágenes, archivos pdf).
En fin, si alguien sabe de algún enlace más explicativo, por favor que lo ponga.
Quizá ahora (si es que no lo hacía ya antes) envía en la petición HTTP información de la última versión que vio de la página actual, así el servidor puede responderle con un código de estado 304 [w3.org], indicando que la página no se ha modificado.
Por otra parte, bienvenida sea la modificación si mejora al robot, que en mi blog [rinzewind.org] tiene él solito casi 50.000 visitas en lo que va de mes, frente a las pocas menos de 20.000 del robot de Google.
Leyendo con atención el anuncio de Yahoo dice "25% reduction in the number of requests and bandwidth consumed by the crawler" lo cual deja claro que la mejora no se debe a la compresión, que ya habrán hecho hace bastante tiempo.
Para reducir el número de solicitudes sólo recuerdo ahora mismo dos opciones (quizá haya más y si a alguien se le ocurre alguna que por favor lo comente) tales como eliminar solicitudes repetidas, en el caso de URLs dominio.com, www.dominio.com, www.dominio.com/index.php, etc y tener en cuenta los códigos de respuesta 301.
La otra opción es optimizar los algoritmos de predicción de actualizaciones tanto para documentos html, pdf (que no olvidemos que pueden ser dinamicos), xml, imagenes, etc. basándose en el historial de modificaciones anteriores, más que en el tipo de documento, ya que de todos estos los hay desde los que se actualizan cada pocos segundos hasta los que no han variado su contenido en los últimos años.
El enlace no explica mucho
(Puntos:1, Informativo)En fin, si alguien sabe de algún enlace más explicativo, por favor que lo ponga.
Re:El enlace no explica mucho
(Puntos:2)( http://rinzewind.org/ | Última bitácora: Sábado, 30 Julio de 2005, 17:57h )
Por otra parte, bienvenida sea la modificación si mejora al robot, que en mi blog [rinzewind.org] tiene él solito casi 50.000 visitas en lo que va de mes, frente a las pocas menos de 20.000 del robot de Google.
Las penas del Agente Smith [rinzewind.org]
Re:El enlace no explica mucho
(Puntos:2, Informativo)( http://ramonantonio.net/ )
Leyendo con atención el anuncio de Yahoo dice "25% reduction in the number of requests and bandwidth consumed by the crawler" lo cual deja claro que la mejora no se debe a la compresión, que ya habrán hecho hace bastante tiempo.
Para reducir el número de solicitudes sólo recuerdo ahora mismo dos opciones (quizá haya más y si a alguien se le ocurre alguna que por favor lo comente) tales como eliminar solicitudes repetidas, en el caso de URLs dominio.com, www.dominio.com, www.dominio.com/index.php, etc y tener en cuenta los códigos de respuesta 301.
La otra opción es optimizar los algoritmos de predicción de actualizaciones tanto para documentos html, pdf (que no olvidemos que pueden ser dinamicos), xml, imagenes, etc. basándose en el historial de modificaciones anteriores, más que en el tipo de documento, ya que de todos estos los hay desde los que se actualizan cada pocos segundos hasta los que no han variado su contenido en los últimos años.