前几天找到了老婆曾经在百度空间写的文章(详见前两篇博文)。
准备把老婆QQ空间的文章一起整理做个合集,以免遗失。
把其中用到的工具注意事项记录一下,以便下次按图索骥。
采集抓取原百度空间文章:在登陆现百度云空间的前提下,自己写了个小工具采集(日期、标题和正文)。(有需求的网友可留言联系处理)
采集抓取QQ空间文章:用了chrome插件 QQ空间导出助手 https://github.com/ShunCai/QZoneExport (QQ空间导出助手,用于备份QQ空间的说说、日志、私密日记、相册、视频、留言板、QQ好友、收藏夹为文件,便于迁移与保存),采用谷歌浏览器。导出为“.md”格式。用工具liteide的markdown转出为HMTL格式。
为长期保留,将采集的文章导入myBase管理(MyBase是一款用于分类管理自由格式资料的数据库软件),并准备制作成导出CHM电子书。
但在制作成导出CHM电子书时出现了问题,因为百度空间采集的文章是采用gb2312编码,而QQ空间采集的文章采用的是utf-8编码,所以在mybase显示正常,但在导出的CHM中,QQ空间采集的文章出现了乱码。经反复测试主要原因不在于文件的编码,而是因为代码的中含有utf-8标识,导致在生成CHM自动识别后造成。
百度了一下,在csdn有一款叫nyfedit7.0(mybase)-chm制作去乱码插件应该可以解决,但C币需要19枚,只好放弃。在网上找了一款“XReplace超级字符串批量替换工具”(破解版)将所有HTML文档代码中的“utf-8”替换成“gb2312”后完美解决乱码问题。
除个人开发的百度空间博文采集小工具外,均传百度网盘了。
百度网盘分享地址:
链接:https://pan.baidu.com/s/1EyJx7riNRJbsaCjhmhKDLw
会员资源
会员用户免费查看此资源升级会员
本站部分文章包含隐藏内容。一是成为VIP会员可以阅读全部文章;二是可以使用日子币兑换后阅读。
会员与积分详细介绍请查阅此文《如何成为本站会员?如何获得本站日子币?》
- 上一篇: 把网页变成黑白的方法
- 下一篇: 小学生作文_致湖北一线医护人员的一封信
评论