Tiago Madeira

Códigos aleatórios Dicas Futilidades Software Livre

Script para baixar documentos do Issuu no GNU/Linux

Tive necessidade de baixar um documento do Issuu. Segue um script simples que escrevi para baixar as páginas, convertê-las para PDF e mesclá-las. Ele não tem checagem de erros, mas pode ser útil para mais pessoas:

#!/bin/bash

if [ $# -lt 1 ]; then
    echo "Uso: $0 <endereco_do_documento_no_issuu>"
    exit
fi

tmp=$(mktemp -d)

echo "Baixando pagina HTML..."
wget -q "$1" -O $tmp/html

pageCount=$(cat $tmp/html | grep -o '"pageCount":[0-9]*' | sed 's/.*://')
model=$(cat $tmp/html | grep 'image_src' | sed 's/.*href="//; s/".*//')
title=$(cat $tmp/html | grep '<title>' | sed 's/.*<title>//; s/<\/title>.*//')

echo "-> Encontrado documento de $pageCount paginas"
echo "-> Primeira pagina: $model"

for i in $(seq 1 $pageCount); do
    download=$(echo $model | sed "s/page_1/page_$i/")
    echo "Baixando pagina ${i}..."
    wget -q "$download" -O "$tmp/page_${i}.jpg"
done

echo "Convertendo paginas JPG -> PDF..."
for i in $(ls $tmp/*.jpg); do
    convert "$i" "${i}.pdf"
done

echo "Mesclando paginas..."
gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile="${title}.pdf" $tmp/page_*.pdf
rm -rf $tmp

echo "-> Pronto: '${title}.pdf'"

O script requer Bash, wget, GhostScript e ImageMagick. A maioria das distribuições de Linux já tem esses aplicativos, mas por via das dúvidas cheque se você tem o ImageMagick instalado.

Download do script: issuu_download.sh (932 bytes)

Para instalar, é só baixar o arquivo, torná-lo executável e movê-lo para alguma pasta do seu $PATH:

$ wget https://tiagomadeira.com/wp-content/uploads/2014/09/issuu_download.sh
$ chmod +x issuu_download.sh
$ sudo mv issuu_download.sh /bin

Para usar, é só digitar:

$ issuu_download.sh <endereco_do_documento>

Comentários

Eduardo De Santana Medeiros Alexandre

Eu tentei o seguinte site, que funcionou: http://www.robsonmartins.com/inform/issuu/

wesley

utilizei o codigo acima realizei o download conforme,gerou um arquivo pdf,porem abriu com erro! criei uma copia com extenção para html e depois abriu como pagina html no site do provedor que no caso por mais estranho que seja direcionava para meu descktop kk (e algo lógico e confuso)fui até o arquivo de extenção .pdf e abriu no browser e baixei o arquivo e deu certo!foi uma volta estranha mas o arquivo ficou sem erros !foi pura intuição!quem sabe essa dica sirva pra alguém!

Rogério

eu usei o site e baixou completo, se falhar, tentem outra vez que dá certo. Muito bom o link: http://www.robsonmartins.com/inform/issuu/

Javier Viñal

It is better to add a big numer (like 1000) to the page number in the downloaded file name, in order to keep the pages in order in the resulting pdf.

Leonardo

esse script não tá funfando bem. pois a ordenação das páginas fica inversa. isso foi corrigido nesse script: http://www.kurtsik.org/blog/?p=1068 essa dica é válida: “O script requer Bash, wget, GhostScript e ImageMagick. A maioria das distribuições de Linux já tem esses aplicativos, mas por via das dúvidas cheque se você tem o ImageMagick instalado.” e no final do processo o arquivo vai para a pasta download.

Alex

Quando preciso baixar do issu, utilizo o site: http://www.robsonmartins.com/inform/issuu/ Sempre funcionou para mim.

Obrigado! Seu comentário foi enviado e será publicado quando for aprovado.

Infelizmente ocorreu um erro ao enviar seu comentário.