Parsing de resultados Google

Antes de que se me olvide, aunque no tiene nada que ver con el post, buceando (como siempre) he encontrado esto:

http://www.forat.info/2008/12/16/cuatro-libros-electronicos-de-lujo-en-formato-pdf/

Seguro que a más de uno os viene bien.

Entre dolor de espalda y estrés, de la cama a la silla, y viceversa. Me he puesto ha investigar sobre parsing de cadenas, todo empezó hace unas horas continuando con la peripecia de la migración.

He dejado de lado el tema Joomla, posiblemente me ponga en breve a desarrollar mi propio CMS (un ex-alumno y buen amigo me ha pasado un proyectito con la integración del actual fckeditor en php+mysql y lo tengo calentito), y para cosas rápidas usaré WordPress que parece que se queja menos.

Pero migrando la galeria fotográfica que tengo en otro dominio (todo es ahorrar gastos con los recortes en educación), resulta que la tenía implementada en tecnología Microsoft, nada menos que en ASP 3.0 (que tiempos aquellos), y utilizaba no una base de datos sino XML del de la época para almacenar los post de los familiares.

Total que empezando la aventura con PHP+XML, para reutilizar el máximo cerebro posible, ando la tarde liado buscando una solución para bajarme todos los pdf de esta dirección:

site:http://rua.ua.es/dspace/bitstream/10045/13363/

Si metéis ese churro en Google, veréis que no arroja muchos resultados, puedo descargarlos manualmente, el reto es hacer un script linux que se chupe el código fuente de los resultados de Google, aisle las URL a los PDF y los descargue con wget, de paso que luego apague la máquina.

Que pereza, estoy viejo. Me he pasado un par de manpages al Kindle (tr, grep, sed y awk) y me voy a la cama a refrescar las expresiones regulares y esos grandes desconocidos de Linux, eso sí: en Inglés.

Si a alguien se le ocurre algo que escriba.

To be continued…

PD: otia, no me había fijado pero (Content View Hits : 30919) Total el dominio lo tengo 2 años y 5 meses. Parece que la gente me sigue, pues joer mandarme algún correo cuando pregunto cosas! Ser recíprocos! Que a mí cuando me pedís apuntes os los doy, y luego cuando yo pido me arrepiento de haberlo hecho por las respuestas tan absurdas que algunos dan…puto orgullo

1/mar/2012 Se podía!
sed 's/\(http:\/\/rua[^ ]*pdf\)[^ ]*/\^\1/g' churro.txt | tr -s "^" "\n" | grep http| sed 's/\ .*//g' |sort -u

Linux que grande eres!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.