bilibili 解析_用 Python 抓取 bilibili 弹幕并分析

587971dcba8148db7e5d72a1bdf9fc99.png

作者| GitPython

时隔一年,嵩哥带来他的新作《雨幕》。

他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。

如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下。

01 实现思路

首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。

02 弹幕数据

9b0a7ce9321ac70d800f97659c36571e.png

平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的数据格式进行加载的。

比如:

https://comment.bilibili.com/123072475.xml

一个固定的url地址 + 视频的cid + .xml

只要找到你想要的视频cid,替换这个url就可以爬取所有弹幕了(b站大部分网页给出的字幕限制是1000条)。

一个视频的cid在哪里呢?

右键网页,打开网页源代码,搜索 "cid": 就能找到:

a471f1fc46b166ddac257a8cc6406e04.png

03 保存数据到本地

有了数据的接口链接,我们就可以利用request模块,获取数据了。

然后,再利用xpath简单的解析xml,就可以把所有的弹幕信息汇总到一个列表里了。最后,把列表转化成dataframe,保存到本地。

# 许嵩新歌《雨幕》# bilibili视频弹幕文件url = 'https://comment.bilibili.com/123072475.xml'# 发送请求response = requests.get(url)xml = etree.fromstring(response.content)# 解析数据dm = xml.xpath("/i/d/text()")print(dm)  # list# 把列表转换成 dataframedm_df = pd.DataFrame(dm, columns=['弹幕内容'])print(dm_df)# 存到本地# 解决了中文乱码问题dm_df.to_csv('雨幕-弹幕.csv', encoding='utf_8_sig')

保存的csv数据:

be2ff6fdbeb381fe75652b702f2cc11f.png

04 对数据进行分词

制作词云前,需要把弹幕数据进行分词。

关于jieba分词,可以参考:

https://blog.csdn.net/dnxbjyj/article/details/72854460   

# jieba分词dm_str = " ".join(dm)words_list = jieba.lcut(dm_str)  # 切分的是字符串,返回的是列表words_str = " ".join(words_list)

05 词云可视化

通过创建词云对象、设置词云参数,最终生成图片,保存到本地。

# 读取本地文件backgroud_Image = plt.imread('1.jpg')# 创建词云wc = WordCloud(    background_color='white',    mask=backgroud_Image,    font_path='./SourceHanSerifCN-Medium.otf',  # 设置本地字体    max_words=2000,    max_font_size=100,    min_font_size=10,    color_func=random_color_func,    random_state=50,)word_cloud = wc.generate(words_str) # 产生词云word_cloud.to_file("yumu.jpg") #保存图片

a139669158812cf990b3f2376f32eea0.png

0e3d61c4f5e6a1838ec2c85fc0e332bf.png

weixin_39636226
关注 关注
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Bilibili直播的弹幕数据包解析
Junyi的实验室
02-03 5943
解析Bilibili直播弹幕服务器返回的socket数据
python爬取bilibili数据_用 Python 抓取 bilibili 弹幕分析
weixin_39822147的博客
11-21 753
时隔一年,嵩哥带来他的新作《雨幕》。他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下。01 实现思路首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。02 弹幕数据平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的数据格式进行加载的。...
爬取许嵩新歌《雨幕》弹幕,告诉你什么才是真正的创作!
weixin_43606419的博客
10-15 183
作者| GitPython来源| GitPython时隔一年,嵩哥带来他的新作《雨幕》。他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。如此高品质的音乐,大家如何评价呢?通过...
哔哩哔哩去水印在线解析免费,4款高效工具让你轻松去除视频水印
最新发布
wuhenshuiyin的博客
09-02 1191
去除视频水印需要合适的工具和方法,以上四款工具各具特点,适用于不同的需求和场景。选择合适的工具,您将能够轻松去除视频中的水印,为您的创作提供更多可能性。PR(Adobe Premiere Pro)是一款专业的视频编辑软件,除了编辑功能外,也可以用来去除视频水印。必剪是一款易于使用的视频编辑工具,适用于电脑和手机,也可以用来去除视频水印。奈斯水印助手是一款便捷的小程序,专门用于在线解析并去除视频水印。2、选择“编辑”功能,找到“去除水印”工具。3、选中水印区域,进行去除,然后保存视频。
推荐一个bilibili视频链接解析网站
m0_59754360的博客
11-20 1万+
bilibili视频链接解析
pythonbilibili弹幕
quedgee
01-06 880
import requests import time #统一资源定位符 ' " 单双无区别 '''三引号支持多行,类似pre标签 url = 'https://api.live.bilibili.com/ajax/msg' #要提交的数据 form = {'roomid':'79558', 'token':'', 'csrf_token':'e7fa015936c1ccb7f08d06a
android bilibili弹幕技术解析,bilibili弹幕定位
weixin_28804379的博客
05-26 504
// ==UserScript==// @name bilibili弹幕定位// @namespace http://tampermonkey.net/// @version 1.3// @description 在进度条上定位弹幕// @author mscststs// @match www.bilibili.com/video/*/...
python弹幕分析_用Python抓取bilibili弹幕分析
weixin_28946735的博客
02-04 762
作者|GitPython时隔一年,嵩哥带来他的新作《雨幕》。他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下。01实现思路首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。02弹幕数据平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的...
python爬取bilibili弹幕_用Python爬取B站视频弹幕
weixin_39854923的博客
11-24 1660
原标题:用Python爬取B站视频弹幕via:菜J学Python众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列。通过分析弹幕,我们可以快速洞察广大观众对于视频的看法。下面是通过一个关于《八佰》的视频弹幕数据,绘制了如下词云图,感觉效果还是可以的。 海量的弹幕数据不仅可以绘制此类词云图,还可以调...
使用爬虫获取bilibili弹幕, 支持protobuf格式的全弹幕抓取.zip
01-19
其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...
python爬取b站弹幕分析_B站直播弹幕获取 - 用python写一个B站弹幕姬吧
weixin_39652869的博客
11-24 1219
前言关于这个小项目的由来。最开始是想要利用b站弹幕进行一些互动之类的。原本也有想过可以利用现有的弹幕姬做个插件来解决的,但无奈不会C#,所以只能自己研究b站弹幕协议。后来有写过一个C++版本的,不过有一些小问题,这在后文中会提到。开码一丶利用 POST 方式获取 B 站直播弹幕参考:【pythonb站直播弹幕获取首先,随便打开一个b站的直播页面,按F12打开控制台,点进“网络(Network...
视频弹幕
05-29
非常好的代码库,可以直接使用的视频弹幕库 使用多种方式(View/SurfaceView/TextureView)实现高效绘制 B站xml弹幕格式解析 基础弹幕精确还原绘制 支持mode7特殊弹幕 多核机型优化,高效的预缓存机制 支持多种显示效果选项实时切换 实时弹幕显示支持 换行弹幕支持/运动弹幕支持 支持自定义字体 支持多种弹幕参数设置 支持多种方式的弹幕屏蔽
Bilibili直播弹幕库-windows-v1.1.2
07-27
搭配B站直播姬使用,可在桌面上右下角直接看到实时弹幕,还可以点歌,提示新的关注发送弹幕,屏蔽抽奖通知
bilibili在线解析接口_这三个素材解析工具太太太太好用了!
热门推荐
weixin_39740272的博客
11-28 1万+
平时网上冲浪,时不时会看见很多很棒的素材,尤其是视频,但是想要下载下来没那么容易,而且还会有水印。因为有这个需求,所以催生了很多解析工具和网站,我用过很多,体验参差不齐,目前在用的有三个,都是达到了生产力级别的,非常顺手好用。有需要的不建议收藏,建议直接试试。1B站解析神器—贝贝贝贝是一个专门解析B站素材的在线工具,因为工作中有下载B站素材的需求,无意间发现了这款神器,简直太好用了。直接...
bilibili解析_bilibili诉dilidili侵权案判赔300万
weixin_39946300的博客
11-28 190
原告:“dilidili”刻意侵权“bilibili”:被告:否认三连!1.你叫B站,我叫D站;2.你播视频,我播动漫;3.名称也有合理来源(判决书第4页倒数第7行):“嘀哩嘀哩dilidili”源于儿歌《春天在哪里》:春天在哪里呀春天在哪里......还有那会唱歌的小黄鹂~嘀哩哩哩哩嘀哩哩嘀哩哩哩哩哩嘀哩哩哩哩嘀哩哩嘀哩哩哩哩哩??法院:侵权,刊登声明赔礼道歉,判赔300万!附判决书...
python批量提取哔哩哔哩bilibili视频
weixin_30832983的博客
01-29 694
# -*- coding: utf-8 -*- """ Created on Tue Jan 29 13:26:41 2019 @author: kwy """ import os,re import shutil def copyfile1(oldfilepath,newfilepath): #调用shutil的copyfile函数,拷贝文件,并重命名该文...
android bilibili弹幕技术解析,bilibili弹幕爬取与比对分析
weixin_32247165的博客
05-26 675
最近受人之托研究了下b站的数据爬取做个小工具,最后朋友说不需要了,本着开源共享的原则,将研究成果与大家分享一波,话不多说直接上干货需求分析给定up主uid和用户uid,爬取用户在该up主所有视频中发的所有弹幕需求拆解获取up主所有视频打开b站,随便搜索一个up主,打开所有视频页面,f12看异步请求就一目了然了接口地址:https://space.bilibili.com/ajax/member/g...
bilibili解析接口_仿最新BiliBili客户端(已开源)
weixin_39676021的博客
11-28 5637
前言该项目仿照B站的Android客户端进行开发,初衷是想学习流行的Android技术,但是没有数据资源。因为喜欢逛B站,而且B站的Android客户端又是Google推荐的MD设计规范,于是花了些时间研究B站的网络请求,最后成功搞定,与@Android_ZzT同学达成一致,合作开发这个模仿B站的练习项目。该项目在工作之余开发,所以更新时间不定。前期准备一、B站网络请求抓包首先是对B站的网络请求进...
bilibili 会员解析_它来啦!脑机接口主流算法解析课程视频汇总
weixin_39572972的博客
11-24 2739
点击上面"脑机接口社区"关注我们更多技术干货第一时间送达脑机接口主流算法解析线上讲座已经结束,这次讲座包括四场:讲座1--SSVEP算法解析讲座2--ERP/P300算法解析讲座3--运动想象算法解析讲座4--情感脑机接口算法解析本次讲座由陈小刚教授主持。陈小刚教授,中国医学科学院生物医学工程研究所副研究员。主要研究方向为脑机接口。已在PNAS、Journal of Neural Eng...
Python爬虫抓取bilibili弹幕教程与实践
资源摘要信息:"在本资源中,将详细介绍如何使用爬虫技术抓取bilibili弹幕数据,包括对protobuf格式的支持。首先,我们需要了解爬虫的基本概念和工作流程。爬虫,即Web Crawler,是一种自动化程序,它能够从互联网...
写文章

热门文章

  • mybatis依赖_mybatis-plus的使用 ------ 入门 14987
  • prettier trailingcomma_解决vscode eslint与prettier冲突 13944
  • 联合密度函数求期望_已知概率密度函数怎么求它的数学期望和方差 12401
  • 虚拟机怎么给c盘分配磁盘空间_VMware虚拟机下虚拟磁盘扩容方法 7979
  • python保存灰度图像_如何使用matplotlib/numpy将数组保存为灰度图像? 5669

最新文章

  • 曙光天阔服务器i840安装系统,曙光天阔I840-G25服务器技术白皮书.pdf
  • 梦幻西游申诉显示服务器不对,梦幻西游 教你关于如何正确申诉:只针对误封的!...
  • 虚拟机搭建根域名镜像服务器,根镜像服务器与域名根服务器区别
2021年146篇
2020年192篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳坪山网站建设公司网络营销网站优化网站4优化光明网站关键词优化价格孝感品牌网站优化公司青浦区公司网站优化排名广州网站整站优化怎么样做网站优化内容如何做到优质填充浅析网站seo整站优化的优势宝鸡网站建设优化河南瓷砖行业网站优化推广渠道长宁区公司官方网站优化哪家好怎样进行网站优化维护网站优化发外链必须加链接吗珠海外贸网站优化农副产品市场电商网站优化网站编辑优化兼职dedecms网站优化优化网站的好处和坏处沛县网站优化电话网站优化新方法传染病医院网站优化服务商阿克苏网站系统优化池州网络推广网站优化新乡网站关键词优化排名多少钱网站优化有哪些特点网站代码如何优化文章优化对网站有什么影响淮安网站关键词优化企业深圳怎样在网站优化方式有哪些廊坊网站seo优化霸屏营销香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

深圳坪山网站建设公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化