草稿 / Draft 2023-06-19T01:06:12+08:00

即刻上一千个有意思的网站

断更文章的原因有三个:1. 不再想写无价值的情绪文章;2. 想沉下心做有价值的产品出来;3. 时代在变化,要



断更文章的原因有三个:1. 不再想写无价值的情绪文章;2. 想沉下心做有价值的产品出来;3. 时代在变化,要抬头看天。


晚上建网站的想法忽然灵感来袭,于是先问GPT,这是个系统工程,然后想看下即刻上有没有什么类似的网站相关帖子。


结果一搜,几乎都要陷进去这个圈子里了,互联网上有趣的网站真是太多啦。


一开始我想用RPA批量抓下来,最开始测试影刀,发现总是要报错,然后测试web scrapper,结果只能下拉一部分网页。


然后测试data instant scrapper,结果说不支持该网站;然后还是回到uibot,没想到竟然可以把圈子里的内容一拉到底。


于是方法就很明确了,我直接复制不得了。


然后发现可能是由于网页内容太多,结果只显示一部分;查询网页源代码,方向也不是展示全部内容。


于是问GPT找到一个谷歌插件,可以直接抓取加载页面的全部内容。


最终确定的方法是,UIBOT机器人一直拉到底,easy web data scrapper直接刷新抓取该网页。


这个插件是可以直接导出来的,然后我就鼓捣进去飞书了,想着以后用得着哪个东西,直接到这个表格里面去搜就行。


最近LLM大语言模型不是很流行嘛,我觉得还可以自己训练一个工具网站助手,把这些网站喂进去,然后就可以直接拿到想要的网站啦。


当然还需要排查网站有效性,这个大家如果有兴趣,我感觉可以组织一个共创活动,一起来玩哈哈。


最近还在鼓捣好多事情,等慢慢搞成了再爬上来说,反正现在弄了个公众号全批量真自动发文的流程机器人,要是谁有需要也可以找我聊聊哈哈。


亚马逊蓝海产品还有个超级大项目,工程量很大但是思路慢慢清晰起来,接下来就是慢慢做到位,当然也可能会直接build in public,这样更能获得市场反馈和群众批评意见。


谁知道呢,接下来继续鼓捣看看,能不能出来更有意思的东西。




内容是抓取出来了一千个,但是我不知道有没有抓的完,另外爬虫数据好像触刑概率很大,我就不分享源文件了,上面都有我探索的公开方法。


反倒是可以分享一下,这份列表当中,点赞,评论和分享的TOP内容。