首页 网站资源正文

百度空间和QQ空间文章采集管理制成CHM心得

admin 网站资源 2020-04-07 16:04:27 1300 0

网络技巧

软件资源

前几天找到了老婆曾经在百度空间写的文章(详见前两篇博文)。

准备把老婆QQ空间的文章一起整理做个合集,以免遗失。

把其中用到的工具注意事项记录一下,以便下次按图索骥。


采集抓取原百度空间文章:在登陆现百度云空间的前提下,自己写了个小工具采集(日期、标题和正文)。(有需求的网友可留言联系处理)

1.jpg

采集抓取QQ空间文章:用了chrome插件 QQ空间导出助手 https://github.com/ShunCai/QZoneExport (QQ空间导出助手,用于备份QQ空间的说说、日志、私密日记、相册、视频、留言板、QQ好友、收藏夹为文件,便于迁移与保存),采用谷歌浏览器。导出为“.md”格式。用工具liteide的markdown转出为HMTL格式。

2.jpg

md转html.jpg


为长期保留,将采集的文章导入myBase管理(MyBase是一款用于分类管理自由格式资料的数据库软件),并准备制作成导出CHM电子书。

3.jpg


但在制作成导出CHM电子书时出现了问题,因为百度空间采集的文章是采用gb2312编码,而QQ空间采集的文章采用的是utf-8编码,所以在mybase显示正常,但在导出的CHM中,QQ空间采集的文章出现了乱码。经反复测试主要原因不在于文件的编码,而是因为代码的中含有utf-8标识,导致在生成CHM自动识别后造成。

百度了一下,在csdn有一款叫nyfedit7.0(mybase)-chm制作去乱码插件应该可以解决,但C币需要19枚,只好放弃。在网上找了一款“XReplace超级字符串批量替换工具”(破解版)将所有HTML文档代码中的“utf-8”替换成“gb2312”后完美解决乱码问题。

4.jpg

除个人开发的百度空间博文采集小工具外,均传百度网盘了。

百度网盘分享地址:

链接:https://pan.baidu.com/s/1EyJx7riNRJbsaCjhmhKDLw 

会员资源

会员用户免费查看此资源升级会员

本站部分文章包含隐藏内容。一是成为VIP会员可以阅读全部文章;二是可以使用日子币兑换后阅读。

会员与积分详细介绍请查阅此文《如何成为本站会员?如何获得本站日子币?

【声明】本站部分资源和文章来源于网络,仅供网友参考学习,如果本文违背了原作者意愿,请原作者联系本站客服,本站会在第一时间删除。

评论

Copyright ©2019-2020.Powered by©rizi.in 渝ICP备12005038号-1