草稿 / Draft 2023-06-19T01:06:12+08:00

即刻上一千个有意思的网站

断更文章的原因有三个：1. 不再想写无价值的情绪文章；2. 想沉下心做有价值的产品出来；3. 时代在变化，要

断更文章的原因有三个：1. 不再想写无价值的情绪文章；2. 想沉下心做有价值的产品出来；3. 时代在变化，要抬头看天。

晚上建网站的想法忽然灵感来袭，于是先问GPT，这是个系统工程，然后想看下即刻上有没有什么类似的网站相关帖子。

结果一搜，几乎都要陷进去这个圈子里了，互联网上有趣的网站真是太多啦。

一开始我想用RPA批量抓下来，最开始测试影刀，发现总是要报错，然后测试web scrapper，结果只能下拉一部分网页。

然后测试data instant scrapper，结果说不支持该网站；然后还是回到uibot，没想到竟然可以把圈子里的内容一拉到底。

于是方法就很明确了，我直接复制不得了。

然后发现可能是由于网页内容太多，结果只显示一部分；查询网页源代码，方向也不是展示全部内容。

于是问GPT找到一个谷歌插件，可以直接抓取加载页面的全部内容。

最终确定的方法是，UIBOT机器人一直拉到底，easy web data scrapper直接刷新抓取该网页。

这个插件是可以直接导出来的，然后我就鼓捣进去飞书了，想着以后用得着哪个东西，直接到这个表格里面去搜就行。

最近LLM大语言模型不是很流行嘛，我觉得还可以自己训练一个工具网站助手，把这些网站喂进去，然后就可以直接拿到想要的网站啦。

当然还需要排查网站有效性，这个大家如果有兴趣，我感觉可以组织一个共创活动，一起来玩哈哈。

最近还在鼓捣好多事情，等慢慢搞成了再爬上来说，反正现在弄了个公众号全批量真自动发文的流程机器人，要是谁有需要也可以找我聊聊哈哈。

亚马逊蓝海产品还有个超级大项目，工程量很大但是思路慢慢清晰起来，接下来就是慢慢做到位，当然也可能会直接build in public，这样更能获得市场反馈和群众批评意见。

谁知道呢，接下来继续鼓捣看看，能不能出来更有意思的东西。

内容是抓取出来了一千个，但是我不知道有没有抓的完，另外爬虫数据好像触刑概率很大，我就不分享源文件了，上面都有我探索的公开方法。

反倒是可以分享一下，这份列表当中，点赞，评论和分享的TOP内容。