• 欢迎访问彩红网,3D模型下载,平面素材,网站源码,ppt模板下载,专利检索,设计软件下载,cad图纸下载
  • 赞助本站:点击进入
  • 彩红网原论坛网址:点击进入
  • 赞助本站:点击进入

百度文库下载工具

明确几点:
1:不能下载付费文档。 也就是需要付人民币的,都不行。
2:其实说白了,就是把可以预览的 word 部分给整理出来,变成 doc 格式。
3:如果 word 里面都是图片的。已经遇到过这种情况了,现在还不能支持。是不是图片,用鼠标在百度文库页面划拉一下就知道了,不能被选中的就是图片。(其实也是可以整出来的,但是偶有点懒。。。现在没动力)

其实我的诉求很简单 ,就是把 word 文件下载下来,不要求格式完全正确,但是要八九不离十。

为啥不用冰点文库?

主要是因为冰点是先导出 pdf,然后扫描出 txt,文字识别有可能会错误,还有就是用 word 打开 txt 文档还是有字体,颜色等丢失,pdf 本身编辑又不方便。还有就是总是要设置我的首页。。。。。

特意做了这样的一个小工具,共享给大家。有很多地方还可以继续优化,可是做的非常累,给大家看看有没有人喜欢,有人喜欢的话,偶就继续再做做。

偶本身不是做界面出身的,因为要给大家使用,还强行去学了一个界面,搞得丑的自己都不想要,大家克服一下吧。

界面逻辑,就一个按钮(实在是不会写界面),空白框里面输入百度文库地址,点击提交。

文档下载到当前目录下的 download 文件夹里面,无论啥文件,下载号以后都叫 test.doc,自己注意重命名,不然会覆盖。 (下个版本加上自动命名吧)

还有就是偶用 python 做的,不知道为啥 python3.7 打包出来文件好大好大,要 37.6MB,我也很崩溃呀,如果是我自己看到这样的大小,我也以为是病毒呀,可是确实就是这么大,这里面没有任何广告,后门 。。。。。

界面后面故意留了个 command 窗口,是因为不会做进度条,下载时有信息都是直接输出到 command 窗口的。大家要是不希望回头我去学怎么做个进度条出来。。。。

当前可以做到的是:

1:仅仅支持 DOC 格式,虽然 pdf,txt 格式不难,但是还没有时间去做。

2:这个工具可以做到的就是 doc 文件格式文本下载,字体,颜色,段落基本上都是正确的。

3:目前只能撷取 doc 文章中的文字部分,图片部分当前还没有完成,已经有思路了,技术上是可行的,回头我再想想怎么整合到代码里面去。

当前实现功能

1:doc 格式可以下载,可以识别部分:

1.1:硬回车换行,基本可以正常识别。

1.2:表格中偶尔有硬回车,基本可以识别。

1.3:软回车,基本可以识别

2:文字应该不会有错别字,因为不是用 pdf 扫描识别做的。

界面如下,很土很土
百度文库下载工具

百度文库下载工具

资源下载

隐藏内容:******,购买后可见!

下载价格: 彩虹币

您需要先后,才能购买资源


彩红网 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:百度文库下载工具
喜欢 (1)
[微信打赏]
分享 (0)
关于作者:
喜欢收集一些资料,也愿意分享给大家,如果大家也有资料分享的话可以加我QQ:2766242327或者加QQ群:454824364

您必须 登录 才能发表评论!