¿Eres un webmaster en alguna de las siguientes situaciones?
- ¿Deseas obtener un listado de todas tus páginas indexadas por Google?
- ¿Deseas conocer tus páginas con determinado PageRank?
- ¿Estás estudiando a tu competencia y quieres conocer el PR de sus páginas?
- ¿O quizás deseas conocer tus páginas que NO están indexadas por Google?
Entonces, este programa puede serte muy útil.
prsitios es un script en Bash escrito para usar en sistemas GNU/Linux que te permitirá conocer toda esta información con una simple instrucción en línea de comandos.
prsitios ha sido escrito por Ismael Fanlo (ifanlo@superalumnos.net ), es de dominio público y hace uso de diferentes componentes:
- el navegador de Internet en modo texto Lynx , distribuido bajo licencia GNU GPL.
- el script Perl de dominio público page_rank.pl, de John Walker , que a su vez, utiliza
- el módulo Perl WWW::Google::PageRank, de Yuri Karaban , software libre distribuido bajo Licencia Artística y/o GNU GPL.
El funcionamiento del script es bien sencillo:
- mediante el navegador Lynx efectua una búsqueda site:dominio.com en Google
- dado que el número de resultados máximo devuelto por Google es de 100, se repite la búsqueda para páginas siguientes hasta obtener el número de resultados deseados, con el límite de 1.000 que es el máximo número de resultados que ofrece el comando site: de Google.
- el script obtiene exclusivamente las URLs de las páginas indexadas, filtrando enlaces adicionales ("translate this page", etc).
- asimismo, si no deseas obtener resultados de los subdominios, el script se encargará de filtrarlos.
- alternativamente obtiene todas las páginas de un archivo sitemap del dominio.
- el script carga las URLs obtenidas en cualquiera de los dos casos y realiza dos tareas
- en primer lugar, comprueba si está indexada la página
- seguidamente obtiene su PageRank, filtrando las de PR inferior al que determines opcionalmente. Se ha introducido un factor de retardo para evitar que Google banee la IP por acceso automatizado a sus servicios.
- finalmente, se mostrarán los resultados por pantalla o se almacenarán en el fichero determinado por ti.
Dadas mis limitaciones como programador, estoy seguro de que otros pueden mejorar su codificación o funcionalidades.
Por ejemplo, la primera mejora que se me ocurre es modificarlo para que acepte una lista de dominios, no tan sólo uno como hasta ahora. Otra mejora, dada la limitación de los 1000 resultados que ofrece el comando site: de Google, será leer las URLs desde el archivo sitemap del sitio.
Aunque no estás obligado, dado el dominio público con que se publica prsites, si efectúas modificaciones o mejoras te agradeceré me las envíes a ifanlo@superalumnos.net
REQUISITOS
En primer lugar, necesitas tener el navegador Lynx instalado en tu PC. Puedes comprobarlo con la siguiente instrucción:
$ lynx --version
Que yo sepa, Lynx está incluído en todas las distribuciones GNU/Linux, así que si no lo tienes instalado no tienes más que utilizar los repositorios de tu distribución para localizarlo e instalarlo.
En distribuciones basadas en Debian (Ubuntu, etc...) para instalarlo bastará con ejecutar como root:
# apt-get install lynx
o, en Ubuntu, como usuario:
$ sudo apt-get install lynx
Información adicional la puedes encontrar en esta página de información sobre Lynx
prsitios también hace uso de page_rank.pl, el script escrito en Perl por John Walker y que está incluido en este mismo paquete.
El software page_rank.pl puede usarse también como un programa CGI para obtener el PageRank de una URL desde un formulario web. Las instrucciones las encontraras en el archivo index.html que se acompaña.
Estas mismas instrucciones son las que encontrarás disponibles en el sitio original de page_rank.pl
INSTALACIÓN
Para instalar prsitios basta con descomprimir el archivo que lo contiene,
$ tar xvf prsitios.tar.gz
y se creará un directorio de nombre prsitios que contiene el script y sus auxiliares, incluido un LEERME_prsitios con toda la ayuda e instrucciones de uso
cámbiate a ese directorio,
$ cd prsitios
asegúrate de que el script prsitios tiene permisos de ejecución,
$ cd ls -l prsitios
debe mostrar algo parecido a
-rwxr-xr-x 1 usuario usuario 5372 2008-08-11 07:20 prsitios
si no es así, puedes asignarle permisos de ejecución,
$ chmod +x prsitios
y ya no tienes más que ejecutar el programa,
$ ./prsitios dominio.com
para que prsitios entre en acción y te muestre un listado de los 100 primeros resultados de site:dominio.com con su respectivo PageRank.
Sigue los enlaces al pie para conocer más sobre prsites y sobre cómo puedes disfrutar de sus beneficios aunque seas usuario de Windows...
... todavía!
Adjunto | Tamaño |
---|---|
prsitios_1.3.tar.gz | 23.05 KB |
- Versión para impresión
- Añadir nuevo comentario
- 14432 lecturas
Comentarios recientes
hace 5 años 33 semanas
hace 5 años 37 semanas
hace 5 años 37 semanas
hace 5 años 39 semanas
hace 5 años 50 semanas
hace 6 años 9 semanas
hace 6 años 18 semanas
hace 6 años 25 semanas
hace 7 años Un día
hace 7 años Un día