[交流] 哪位仁兄有兴趣研究下google books 的下载？

有个人已经搞出来了，来自网上读书论坛，theworld能否透过插件形式做出呢？

以下是软件介绍：

本软件的原理，就是模拟人使用IE等浏览器看的过程，从服务器下载有预览的每一页，保存到本地、使用方法很简单，你从google books上搜某本书，打开页面，然后运行下载器，在提示窗口里输入那本书的url，或者只输入这个url里边的12位像乱码一样的book ID，或者浏览到以前下载的某本书的保存目录，程序会从中找到book ID。然后下载器就会抓取这本书的页面，分析内容，找到有预览的每一页的信息，然后再去抓每一页。把能抓的都抓下来之后（图像文件，通常为jpeg或png格式），保存到以书名命名的一个目录里。下载完成后，下载器会把这些图像文件合并到一个大pdf文件，并且生成以原书的页码命名的书签（个别书，由于google没有提供title，不能生成书签）。
软件比较大（接近8M），因为pdf库很大
注意事项：
1. 只能下载 books.google.***上标明了“有限预览”的书
2. 不同的书，google books提供了不同比例的预览，比如有的计算机书，80%的页都能预览；但社科的书，可能只有10%有预览。本软件只能下载允许预览的页面。
3. google books对于每个用户（准确的说，是IP）每天“浏览”量做了限制，以前是50多页，现在似乎增加到了100多页。每次下载，超过这个值，就不能再下载了，这时候有3种办法：
(1) 过半天再下载；
(2) 换ip（如adsl重新拨号）。
(3) 在达到限制后出现的提示对话框中，选择不同的google 站点或使用代理。
4. 每次看一本书时，在可以预览的页里，google books会随机删掉一些页，所以本次没有下载的页，下次可能就能下载了。一本书，我一般会反复下载4、5次，才能下全。也可以用上面3.3的办法，换国家的域名试试。
5. 已下载的书的保存目录里，有一个xxxxxxxx.log文件，xxxxxxxx就是book ID. 程序启动时，浏览到此目录就可获取book ID。

下载地址（请右键另存）：
http://www.psychoanalyze.cn/googlebook.rar
运行后，会提示8位机器号

掉到地上的食物  3秒内还能吃
掉到泥巴里的食物  3秒内还能吃
掉到煤堆里的食物  3秒内还能吃
掉到砒霜里的食物  3秒内还能吃
掉到氰化钾里的食物  3秒内还能吃
掉到马桶里面的食物任何時候都不能吃

needed

管理员

Rank: 20

UID: 10253
帖子: 3334
精华: 0
贡献: 20
推广: 0
有效BUG: 0
来自: 江门·中国
注册时间: 2006-4-28

2^#

发表于 2008-8-31 07:29 | 只看该作者

光猪啊..
以前不是写过么..

天下无不散之筵席.

世界之窗浏览器开发计划

TOP

返回列表

[交流] 哪位仁兄有兴趣研究下google books 的下载？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]