功能

连续爬取一个多个新浪微博用户(如Dear-迪丽热巴郭碧婷)的数据,并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据,主要有用户信息微博信息两大类,前者包含用户昵称、关注数、粉丝数、微博数等等;后者包含微博正文、发布时间、发布工具、评论数等等,因为内容太多,这里不再赘述,详细内容见输出部分。具体的写入文件类型如下: - 写入csv文件(默认) - 写入json文件(可选) - 写入MySQL数据库(可选) - 写入MongoDB数据库(可选) - 下载用户原创微博中的原始图片(可选) - 下载用户转发微博中的原始图片(可选) - 下载用户原创微博中的视频(可选) - 下载用户转发微博中的视频(可选) - 下载用户原创微博Live Photo中的视频(可选) - 下载用户转发微博Live Photo中的视频(可选)

输出

用户信息
- 用户id:微博用户id,如"1669879400" - 用户昵称:微博用户昵称,如"Dear-迪丽热巴" - 性别:微博用户性别 - 微博数:用户的全部微博数(转发微博+原创微博) - 粉丝数:用户的粉丝数 - 关注数:用户关注的微博数量 - 简介:用户简介 - 主页地址:微博移动版主页url,如https://m.weibo.cn/u/1669879400?uid=1669879400&luicode=10000011&lfid=1005051669879400 - 头像url:用户头像url - 高清头像url:用户高清头像url - 微博等级:用户微博等级 - 会员等级:微博会员用户等级,普通用户该等级为0 - 是否认证:用户是否认证,为布尔类型 - 认证类型:用户认证类型,如个人认证、企业认证、政府认证等 - 认证信息:为认证用户特有,用户信息栏显示的认证信息


微博信息
- 微博id:微博的id,为一串数字形式 - 微博bid:微博的bid,与cookie版中的微博id是同一个值 - 微博内容:微博正文 - 原始图片url:原创微博图片和转发微博转发理由中图片的url,若某条微博存在多张图片,则每个url以英文逗号分隔,若没有图片则值为'' - 视频url: 微博中的视频url和Live Photo中的视频url,若某条微博存在多个视频,则每个url以英文分号分隔,若没有视频则值为'' - 微博发布位置:位置微博中的发布位置 - 微博发布时间:微博发布时的时间,精确到天 - 点赞数:微博被赞的数量 - 转发数:微博被转发的数量 - 评论数:微博被评论的数量 - 微博发布工具:微博的发布工具,如iPhone客户端、HUAWEI Mate 20 Pro等,若没有则值为'' - 话题:微博话题,即两个#中的内容,若存在多个话题,每个url以英文逗号分隔,若没有则值为'' - @用户:微博@的用户,若存在多个@用户,每个url以英文逗号分隔,若没有则值为'' - 原始微博:为转发微博所特有,是转发微博中那条被转发的微博,存储为字典形式,包含了上述微博信息中的所有内容,如微博id、微博内容等等 - 结果文件:保存在当前目录weibo文件夹下以用户昵称为名的文件夹里,名字为"user_id.csv"形式 - 微博图片:微博中的图片,保存在以用户昵称为名的文件夹下的img文件夹里 - 微博视频:微博中的视频,保存在以用户昵称为名的文件夹下的video文件夹里 This is an example link.

版权声明:如无特殊说明,文章均为本站原创,转载请注明出处

本文链接:http://wakemeupnow.cn/article/1/