温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
这是我用Python开发的采集抖音搜索结果的界面软件,那我们首先打开这个软件,看一下这个界面效果,那这个软件上需要填入个人cookie和搜索关键词,那我们首先打开抖音的网页端搜索页,搜索任意一个关键词。我们前提是把这个账号登录上,这个账号必须要登录打开开发者模式。网络XHR。我们选择视频这个tab页,往下拉这个数据,我们看到这个item开头的目标链接啊,看它的预览数据,那这个data下面就是视频数据,我们选择标头请求标头cookie,把这一长串粘贴到软件上搜索关键词啊,我们这里设置啊,比如说奶茶呃,麻辣烫,咖啡,多个关键词用空格来分隔,排序方式我们选择最新发布,呃,发布时间我们选择呃,一周内吧,那这两个设置的筛选条件其实和网页上这个筛选是相对应的啊,这就是模拟的一个过程,好开始执行。
01:33
那这个时候软件就开始爬取抖音的搜索视频数据了。我们从这个日志打印上可以看到爬取进度,现在开始爬取。麻辣烫,好,现在开始爬去咖啡第一页。咖啡的第二页。咖啡的第三页。
02:00
咖啡的第4页,这个时候软件提示全部关键词已爬取完毕,请检查抖音搜索2024647结尾的CSV,那我们来看一下这个数据,647结尾的CSV数据。那我们来看一下这个数据。啊,关键词就是我刚才设置的这三个关键词啊,页码视频的标题。那视频的链接,作者的昵称,作者的抖音号,作者的主页链接,作者的粉丝数,视频的发布时间,那我们来重点看一下这个发布时间,因为刚才我的软件上选择的是一周内,那我们来看今天是1月12号,那一周内最早的时间是1月5号啊证明了这个是一周内的时间,视频的点赞数,视频的评论数,视频的收藏数,视频的转发数,那爬取的就是这些字段。
03:14
好,我们再来测试一下其他的关键词,比如说搜索武术、跆拳道、太极拳,好,那我们这里选择最多的点赞发布时间,选择一天内吧,好,开始执行。武术的第一页,武术的第二页,武术的第三页第4页,跆拳道第一页,跆拳道第二页。太极拳第一页,好,全部关键词已完毕,请检查抖音搜索856结尾的这个CSV就是这个,那我们再来看一下这个数据。
04:13
关键词,刚才我设置这三个关键词,页码,视频标题,视频链接,作者昵称,作者的抖音号,作者的主页链接,作者的粉丝数,视频的发布时间,那这个视频的发布时间,我们看1月的11号跟12号啊,也就是刚才我设置的这个一天内的发布时间好,视频的点赞数,视频的评论数,视频的收藏数,视频的转发数。好,这个结果就是这样的,那软件运行的同时呢,还会生成一个日志文件,我们打开这个log目录,那今天是1月12号,我们打开1月12号,那这个里面展示的这些就是刚才软件运行过程中生成的日志文件啊方便呃问题的定位。
05:04
好,这个软件的运行就是这样,我们下次见。
我来说两句