视频剪辑方法及装置与流程

文档序号：12136429阅读：396来源：国知局

导航： X技术> 最新专利> 电子通信装置的制造及其应用技术

本发明涉及视频处理技术领域，尤其是涉及一种视频剪辑方法及装置。

背景技术：

影视视频是人们日常生活中广泛接触的一类视频资源，随着互联网的迅速发展，影视视频不只存在于传统广播电视系统中，也大量的出现在网络资源库中。近年来，由于影视视频数量迅速增长，如何提高影视视频的管理效率、如何更好地让用户点播到感兴趣的影视视频成为迫切需要解决的问题。

考虑到影视视频都是围绕影视人物来展开故事情节的，现有技术主要通过目标人物的识别来提取感兴趣人物的视频片段，采用的方法如下：获取待剪辑的影视视频，从中提取关键帧，对每一个关键帧中的人脸进行检测和识别，当检测到的人脸是目标人脸时，将此关键帧和与其相邻的非关键帧作为视频内容提取出来，最后整合所有提取出的视频内容，得到该目标人物的视频片段，其中目标人物指上述感兴趣人物。

现有技术主要是基于对关键帧中目标人物的识别来提取感兴趣人物的视频片段，但是当影视视频的背景杂乱、分辨率低、目标人物的正脸被遮挡时，通过现有技术无法识别关键帧中的目标人脸，导致包含目标人物的部分视频内容丢失。

技术实现要素：

有鉴于此，本发明的目的在于提供一种视频剪辑方法及装置，以解决当影视视频的背景杂乱、分辨率低或者目标人物的正脸被遮挡时，通过现有技术无法识别关键帧中的目标人脸，导致包含目标人物的部分视频内容丢失的技术问题。

第一方面，本发明实施例提供了一种视频剪辑方法，包括：逐帧检测待剪辑视频中的人脸；判断检测到的所述人脸是否为目标人脸；当检测到的所述人脸为所述目标人脸时，确定所述目标人脸所属的视频帧为剪辑的起始帧；从所述起始帧开始，根据所述目标人脸在各个视频帧中出现的置信度逐帧追踪所述目标人脸，确定剪辑的结束帧；根据所述起始帧和所述结束帧剪辑所述待剪辑视频，得到剪辑完成的视频。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述根据所述目标人脸在各个视频帧中出现的置信度逐帧追踪所述目标人脸，确定剪辑的结束帧，包括：判断当前视频帧是否满足预设的矫正条件；当所述当前视频帧不满足所述预设的矫正条件时，根据所述目标人脸在所述当前视频帧的下一个视频帧中出现的置信度与预设置信度阈值之间的大小关系，确定剪辑的所述结束帧；当所述当前视频帧满足所述预设的矫正条件时，检测所述当前视频帧中是否存在所述目标人脸，当所述当前视频帧中不存在所述目标人脸时，确定所述当前视频帧为剪辑的所述结束帧。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述根据所述目标人脸在所述当前视频帧的下一个视频帧中出现的置信度与预设置信度阈值之间的大小关系，确定剪辑的所述结束帧，包括：根据所述目标人脸在所述当前视频帧中的位置计算所述目标人脸在所述当前视频帧的所述下一个视频帧中出现的置信度；当所述目标人脸在所述下一个视频帧中出现的置信度小于所述预设置信度阈值时，检测所述下一个视频帧中是否存在所述目标人脸；当所述下一个视频帧中不存在所述目标人脸时，确定所述当前视频帧为剪辑的所述结束帧。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述判断当前视频帧是否满足预设的矫正条件，包括：判断所述当前视频帧与上一个满足所述预设的矫正条件的视频帧之间是否间隔预设时间或者间隔预设数量的视频帧，其中，与所述起始帧之间间隔所述预设时间或者间隔所述预设数量的视频帧为满足所述预设的矫正条件的第一个视频帧；当所述当前视频帧与上一个满足所述预设的矫正条件的视频帧之间间隔所述预设时间或者间隔所述预设数量的视频帧时，确定所述当前视频帧满足所述预设的矫正条件，否则，不满足所述预设的矫正条件。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述根据所述目标人脸在所述当前视频帧中的位置计算所述目标人脸在所述当前视频帧的所述下一个视频帧中出现的置信度，包括：采用基于SVM的Struck算法和KCF算法相结合的方式，根据所述目标人脸在所述当前视频帧中的位置计算所述目标人脸在所述当前视频帧的所述下一个视频帧中出现的置信度。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述判断检测到的所述人脸是否为目标人脸，包括：计算检测到的所述人脸分别对应预先存储的各个人脸的相似度；判断所述相似度最大的预先存储的人脸是否为所述目标人脸；当所述相似度最大的所述预先存储的人脸为所述目标人脸时，确定检测到的所述人脸为所述目标人脸。

结合第一方面上述的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述逐帧检测待剪辑视频中的人脸，包括：逐帧检测所述待剪辑视频的图像文件中的人脸；所述根据所述起始帧和所述结束帧剪辑所述待剪辑视频，得到剪辑完成的视频，包括：根据所述起始帧和所述结束帧分别剪辑所述待剪辑视频的图像文件和音频文件，将剪辑后的所述图像文件和剪辑后的所述音频文件进行合成，得到所述剪辑完成的视频。

第二方面，本发明实施例还提供一种视频剪辑装置，包括：人脸检测模块，用于逐帧检测待剪辑视频中的人脸；目标判断模块，用于判断检测到的所述人脸是否为目标人脸；起始确定模块，用于当检测到的所述人脸为所述目标人脸时，确定所述目标人脸所属的视频帧为剪辑的起始帧；结束确定模块，用于从所述起始帧开始，根据所述目标人脸在各个视频帧中出现的置信度逐帧追踪所述目标人脸，确定剪辑的结束帧；剪辑模块，用于根据所述起始帧和所述结束帧剪辑所述待剪辑视频，得到剪辑完成的视频。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述结束确定模块包括：矫正判断单元，用于判断当前视频帧是否满足预设的矫正条件；第一结束确定单元，用于当所述当前视频帧不满足所述预设的矫正条件时，根据所述目标人脸在所述当前视频帧的下一个视频帧中出现的置信度与预设置信度阈值之间的大小关系，确定剪辑的所述结束帧；第二结束确定单元，用于当所述当前视频帧满足所述预设的矫正条件时，检测所述当前视频帧中是否存在所述目标人脸，当所述当前视频帧中不存在所述目标人脸时，确定所述当前视频帧为剪辑的所述结束帧。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，第一结束确定单元包括：第一计算子单元，用于根据所述目标人脸在所述当前视频帧中的位置计算所述目标人脸在所述当前视频帧的所述下一个视频帧中出现的置信度；第一检测子单元，用于当所述目标人脸在所述下一个视频帧中出现的置信度小于所述预设置信度阈值时，检测所述下一个视频帧中是否存在所述目标人脸；第一确定子单元，用于当所述下一个视频帧中不存在所述目标人脸时，确定所述当前视频帧为剪辑的所述结束帧。

本发明实施例带来了以下有益效果：在本发明实施例中，逐帧检测待剪辑视频中的人脸，判断检测到的人脸是否为目标人脸，当检测到的人脸为目标人脸时，确定此目标人脸所属的视频帧为剪辑的起始帧，从起始帧开始，根据目标人脸在各个视频帧中出现的置信度逐帧追踪目标人脸，确定剪辑的结束帧，根据起始帧和结束帧剪辑待剪辑视频，得到剪辑完成的视频。由于本发明实施例中根据目标人脸在各个视频帧中出现的置信度在各个视频帧中追踪目标人脸，确定剪辑的结束帧，计算目标人脸在各个视频帧中出现的置信度时，与影视视频的背景、分辨率和目标人物的正脸是否被遮挡没有关系，因此当影视视频的背景杂乱、分辨率低或者目标人物的正脸被遮挡时，通过本发明实施例提供的方法及装置仍然可以追踪到目标人脸，因而避免了包含目标人物的视频内容的丢失，剪辑完成的目标人物的视频片段更加完整。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的视频剪辑方法的第一种流程示意图；

图2为本发明第一实施例提供的视频剪辑方法的第二种流程示意图；

图3为本发明第一实施例提供的视频剪辑方法的第三种流程示意图；

图4为本发明第一实施例提供的视频剪辑方法的第四种流程示意图；

图5为本发明第二实施例提供的视频剪辑装置的第一种模块组成示意图；

图6为本发明第二实施例提供的视频剪辑装置的第二种模块组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到当影视视频的背景杂乱、分辨率低或者目标人物的正脸被遮挡时，通过现有技术无法识别关键帧中的目标人脸，导致包含目标人物的部分视频内容丢失，本发明实施例提供的一种视频剪辑方法及装置，可以避免当影视视频的背景杂乱、分辨率低或者目标人物的正脸被遮挡时包含目标人物的视频内容的丢失，下面结合实施例进行具体介绍。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频剪辑方法进行详细介绍。

实施例一：

图1是本发明第一实施例所提供的视频剪辑方法的流程示意图，该方法包括以下步骤：

步骤S110，逐帧检测待剪辑视频中的人脸。

要剪辑感兴趣人物的视频片段，首先要逐帧对待剪辑视频进行人脸检测。可以采用任何能够实现人脸检测的技术对待剪辑视频进行人脸检测，例如OpenCV(Open Source Computer Vision Library，开源计算机视觉库)或者人脸检测器，其中OpenCV自带分类器，可以进行人脸检测；人脸检测器是目前常用的检测人脸的技术。人脸检测器的算法有很多，本实施例对具体的算法不做特定要求，例如可以采用基于Haar型特征的Adaboost算法，并用该算法学习形成瀑布型正面人脸检测器来进行正脸检测。基于Haar型特征的Adaboost算法是目前正确率最高的算法之一，其速度远远快于其它算法。瀑布型正脸检测器主要用于检测较为规范的正脸，但不能很好的检测到不同角度和形态的人脸。为了尽可能准确地检测到视频中的人脸，优选地，采用OKAO Vision人脸识别软件来对人脸水平旋转角度在-45度到+45度范围内的人脸进行准确检测。与瀑布型正脸检测器相比，OKAO Vision除了能够检测到几乎全部的正脸以外，还能检测到大部分可用于识别的侧脸，因而能够增强人脸识别效果，迅速确定剪辑的起始帧，快速获得更多的可用于识别的人脸数据。

若步骤S110没有检测到人脸，则下一个视频帧重新执行步骤S110；若步骤S110检测到人脸，则执行步骤S120。

步骤S120，判断检测到的人脸是否为目标人脸。

通过步骤S110检测到人脸后，需要对此人脸进行识别，判断此人脸是否为目标人脸，其中该目标人脸指感兴趣人物的人脸。本实施例中，通过以下三个子步骤(1)、(2)和(3)判断检测到的人脸是否为目标人脸：

(1)计算检测到的人脸分别对应预先存储的各个人脸的相似度。

(2)判断上述相似度最大的预先存储的人脸是否为目标人脸。

(3)当相似度最大的预先存储的人脸为目标人脸时，确定检测到的人脸为目标人脸。

在进行上述三个子步骤之前，需要先获得人脸识别模型，此人脸识别模型用于执行上述三个子步骤，即判断检测到的人脸是否为目标人脸。

优选地，一种获得人脸识别模型的具体过程如下：首先标注人脸数据，具体地，从互联网上获取包含各个影视人物的视频及图像文件，利用人脸检测器获取这些视频及图像文件中的所有人脸，根据人脸图像的梯度值以及通过手工方式过滤掉低质量的视频或者图像文件(不清晰，遮挡严重等)后，建立人名-标签对应表，例如人名-标签对应表为：李易峰-1、杨幂-2和赵丽颖-3，三者依次排序，其中李易峰-1表示所有李易峰的图像用1标注，杨幂-2表示所有杨幂的图像用2标注，赵丽颖-3表示所有赵丽颖的图像用3标注；其次建立人脸图像训练库，其中人脸图像训练库中包含预先存储的各个人脸图像，即包含上述标注过的各个影视人物的不同姿态、不同表情的清晰人脸图像，还包含非影视人物的图像，该非影视人物的图像用做训练的负样本；再次将人脸图像训练库的所有图像进行尺度归一化，例如可以利用双线性插值方法将人脸图像训练库的所有图像归一化到相同的大小；最后利用归一化的人脸图像训练库的所有图像训练卷积神经网络，训练完成后即可获得人脸识别模型，训练好的卷积神经网络即为人脸识别模型。

具体地，利用训练好的人脸识别模型判断检测到的人脸是否为目标人脸包括：将检测到的人脸图像进行尺度归一化，归一化后的图像大小与人脸库中的图像大小一致；计算检测到的人脸分别对应预先存储的各个人脸的相似度，优选地，采用在linux+caffe平台下基于卷积神经网络的目标识别算法，此算法识别目标人脸的准确率明显高于传统的机器学习算法，并且利用GPU(Graphic Processing Unit，图形处理器，又称并行计算单元)加速，处理速度快，因此在联合任务中可以在一定程度上弥补检测、追踪过程中的缺陷，使视频剪辑的整体性能更好更稳定；根据人名-标签对应表获取相似度最大的标签对应的人名，判断此人名是否为目标人脸的人名；若相似度最大的标签对应的人名是为目标人脸的人名，则确定检测到的人脸为目标人脸，否则，确定检测到的人脸不是目标人脸。其中，检测到的人脸对应预先存储的各个人脸的相似度可以是概率值，如检测到的人脸对应李易峰的相似度为80％，对应胡歌的相似度为75％。

若检测到的人脸不是目标人脸，则下一个视频帧重新执行步骤S110和步骤S120，即继续检测和识别下一个视频帧中的人脸是否为目标人脸；若检测到的人脸为目标人脸，则执行步骤S130。

步骤S130，当检测到的人脸为目标人脸时，确定目标人脸所属的视频帧为剪辑的起始帧。

当检测到的人脸为目标人脸时，确定此时目标人脸所属的视频帧为剪辑的起始帧，开始对该目标人脸进行追踪。

步骤S140，从起始帧开始，根据目标人脸在各个视频帧中出现的置信度逐帧追踪该目标人脸，确定剪辑的结束帧。

当确定出剪辑的起始帧后，从起始帧开始，根据目标人脸在各个视频帧中出现的置信度在各个视频帧中追踪该目标人脸，确定剪辑的结束帧。其中，剪辑的起始帧为剪辑的第一帧，剪辑的结束帧为剪辑的最后一帧。

步骤S150，根据起始帧和结束帧剪辑待剪辑视频，得到剪辑完成的视频。

将剪辑的起始帧作为剪辑的第一帧，剪辑的结束帧作为剪辑的最后一帧，对待剪辑视频进行剪辑，得到剪辑完成的视频。

在待剪辑视频中，会有多段视频包含目标人物，对待剪辑视频重复步骤S110至步骤S150可以获得包含目标人脸的多个剪辑完成的视频，将多个剪辑完成的视频按时间排序即可得到该目标人物的视频片段。

在本发明实施例中，逐帧检测待剪辑视频中的人脸，判断检测到的人脸是否为目标人脸，当检测到的人脸为目标人脸时，确定此目标人脸所属的视频帧为剪辑的起始帧，从起始帧开始，根据目标人脸在各个视频帧中出现的置信度逐帧追踪目标人脸，确定剪辑的结束帧，根据起始帧和结束帧剪辑待剪辑视频，得到剪辑完成的视频。由于本发明实施例中根据目标人脸在各个视频帧中出现的置信度在各个视频帧中追踪目标人脸，确定剪辑的结束帧，计算目标人脸在各个视频帧中出现的置信度时，与影视视频的背景、分辨率和目标人物的正脸是否被遮挡没有关系，因此当影视视频的背景杂乱、分辨率低或者目标人物的正脸被遮挡时，通过本发明实施例提供的方法仍然可以追踪到目标人脸，因而避免了包含目标人物的视频内容的丢失，剪辑完成的目标人物的视频片段更加完整。

图2为本发明第一实施例提供的视频剪辑方法的第二种流程示意图，如图2所示，图1中的步骤S140具体包括步骤S141、步骤S142和步骤S143。

步骤S141，判断当前视频帧是否满足预设的矫正条件。

具体的判断方法为：判断当前视频帧与上一个满足预设的矫正条件的视频帧之间是否间隔预设时间或者间隔预设数量的视频帧，其中，与起始帧之间间隔预设时间或者间隔预设数量的视频帧为满足预设的矫正条件的第一个视频帧；当当前视频帧与上一个满足预设的矫正条件的视频帧之间间隔预设时间或者间隔预设数量的视频帧时，确定此当前视频帧满足预设的矫正条件，否则，不满足预设的矫正条件。

例如预设时间为5秒，则与起始帧之间间隔5秒的视频帧为满足预设的矫正条件的第一个视频帧，与第一个视频帧之间间隔5秒的视频帧为满足预设的矫正条件的第二个视频帧，与第二个视频帧之间间隔5秒的视频帧为满足预设的矫正条件的第三个视频帧，以此类推。又如预设数量为10帧，则与起始帧之间间隔10帧的视频帧为满足预设的矫正条件的第一个视频帧，与第一个视频帧之间间隔10帧的视频帧为满足预设的矫正条件的第二个视频帧，与第二个视频帧之间间隔10帧的视频帧为满足预设的矫正条件的第三个视频帧，以此类推。

如图2所示，若当前视频帧满足预设的矫正条件，则对该当前视频帧进行追踪矫正，执行步骤S143。

步骤S143，检测当前视频帧中是否存在目标人脸，当当前视频帧中不存在目标人脸时，确定当前视频帧为剪辑的结束帧。

当前视频帧满足预设的矫正条件时，重新检测和识别当前视频帧中是否存在目标人脸，具体的检测和识别方法与步骤S110和步骤S120相同，这里不再赘述。若当前视频帧中存在目标人脸，则继续追踪目标人脸，即下一个视频帧重新执行步骤S141；若当前视频帧中不存在目标人脸，则确定当前视频帧为剪辑的结束帧。

如图2所示，若当前视频帧不满足预设的矫正条件，则开始对该目标人脸进行追踪，执行步骤S142。

步骤S142，根据目标人脸在当前视频帧的下一个视频帧中出现的置信度与预设置信度阈值之间的大小关系，确定剪辑的结束帧。

图3为本发明第一实施例提供的视频剪辑方法的第三种流程示意图，如图3所示，本实施例中，步骤S142可以通过以下四个子步骤S1421、S1422、S1423和S1424具体实施：

步骤S1421，根据目标人脸在当前视频帧中的位置计算该目标人脸在当前视频帧的下一个视频帧中出现的置信度。

本实施例中，在对目标人脸进行追踪时，需要根据目标人脸在当前视频帧中的位置计算该目标人脸在当前视频帧的下一个视频帧中出现的置信度。具体地，根据目标人脸在当前视频帧中的位置计算该目标人脸在下一个视频帧的每个位置出现的概率，选取其中最大的概率作为出现的置信度。比如计算得到目标人脸在下一个视频帧中的三个位置出现的概率分别为20％、40％、60％，则选取概率60％作为目标人脸在下一个视频帧出现的置信度。进一步地，可以采用SVM(Support Vector Machine，支持向量机)分类器找到目标人脸在当前视频帧的位置，采用基于SVM的Struck算法来计算上述置信度。Struck算法主要提出一种基于结构输出预测的自适应视觉目标跟踪的框架，通过明确引入输出空间满足跟踪功能，能够避免中间分类环节，直接输出跟踪结果。同时，为了保证实时性，该算法还引入了阈值机制，防止跟踪过程中支持向量的过增长。Struck算法使用了在线结构输出SVM学习方法去解决跟踪问题。不同于常规算法训练一个分类器，Struck算法直接通过预测函数：f:x→y，来预测每帧之间目标位置发生的变化，其中y表示搜寻空间，例如y_t∈y，上一帧中目标的新位置为P_t-1，则在当前帧中，目标位置就为基于SVM的Struck算法具有良好的追踪性能，但需要在线训练SVM分类器，非常耗时。也可以采用KCF算法，KCF算法通过核函数对多通道的Hog特征进行了融合，使得训练所得的分类器对待检测目标的解释力更强。KCF算法对光照变化、遮挡、非刚性形变、运动模糊、背景杂乱和旋转等影视视频均能跟踪良好。

考虑到KCF算法不需要在线训练SVM分类器，在准确率较高的情况下运算速度很快，优选地，采用基于SVM的Struck算法和KCF算法相结合的方式计算在上述置信度，此方式具有良好的追踪性能，同时具有较快的追踪速度。例如，从起始帧开始追踪的前10个视频帧，每帧都采用基于SVM的Struck算法，以便获得较好的SVM分类器，之后每追踪10个视频帧调用一次基于SVM的Struck算法，从而及时更新SVM分类器，期间9个视频帧采用速度较快的KCF算法，即起始帧记为追踪的第1个视频帧，第1-10个视频帧采用基于SVM的Struck算法，第11-19个视频帧采用KCF算法，第20个视频帧采用基于SVM的Struck算法，第21-29个视频帧采用KCF算法，以此类推。

步骤S1422，判断上述置信度是否小于预设置信度阈值。

本实施例中，存储有预设置信度阈值，用于与步骤S1421得到的置信度进行比较，从而判断是否追踪到目标人脸。若上述计算得到的置信度大于等于预设置信度阈值，则继续在下一个视频帧中追踪该目标人脸，执行步骤S141；若上述计算得到的置信度小于预设置信度阈值，则没有追踪到该目标人脸，执行步骤S1423。例如预设置信度阈值为60％，当目标人脸在当前视频帧的下一个视频帧中出现的置信度大于等于60％时，确定追踪到该目标人脸，继续在下一个视频帧中追踪该目标人脸，执行步骤S141；当目标人脸在当前视频帧的下一个视频帧中出现的置信度小于60％时，确定没有追踪到该目标人脸，执行步骤S1423。

步骤S1423，检测下一个视频帧中是否存在目标人脸。

当目标人脸在下一个视频帧中出现的置信度小于上述预设置信度阈值时，需要检测下一个视频帧中是否存在目标人脸，具体的检测过程与步骤S110和步骤S120的相同，这里不再赘述。

若通过上述步骤S1423检测到下一个视频帧中存在目标人脸，则继续在下一个视频帧中追踪该目标人脸，执行步骤S141；若下一个视频帧中不存在目标人脸，则执行步骤S1424。

步骤S1424，确定当前视频帧为剪辑的结束帧。

通过以上的方法确定剪辑的起始帧和结束帧后，执行步骤S150，步骤S150与图1相同，这里不再赘述。

通过如图2和图3所示的方法，当影视视频的背景杂乱、分辨率低、目标人物的正脸被遮挡时，仍然可以追踪到目标人脸，因而避免了包含目标人物的视频内容的丢失，剪辑完成的目标人物的视频片段更加完整。

考虑到采用上述方法确定剪辑的起始帧和结束帧时，主要依靠对目标人脸的识别和追踪，而对目标人脸的识别和追踪只与待剪辑视频的图像文件有关，因此为了加快视频剪辑的速度，上述图1至图3中，步骤S110，逐帧检测待剪辑视频中的人脸，具体为：逐帧检测待剪辑视频的图像文件中的人脸，步骤S150，根据起始帧和结束帧剪辑待剪辑视频，得到剪辑完成的视频，具体为：根据起始帧和结束帧分别剪辑待剪辑视频的图像文件和音频文件，将剪辑后的图像文件和剪辑后的音频文件进行合成，得到剪辑完成的视频。

对应地，如图4所示，本发明实施例提供了视频剪辑方法的第四种流程示意图，下面对本发明实施例所提供的视频剪辑方法的第四种流程示意图进行详细介绍。

首先对待剪辑视频进行转码，例如可以利用各种视频转码工具对待剪辑视频进行转码，生成预定格式的视频数据流；然后对该视频数据流进行分流，得到图像文件和音频文件；接下来主要对图像文件进行分析处理，获取待剪辑视频中的结构化信息、目标人脸的位置、剪辑的起始帧和结束帧以及起始帧和结束帧分别对应的起始时间和结束时间；根据剪辑的起始帧和结束帧剪辑待剪辑视频的图像文件，根据剪辑的起始时间和结束时间剪辑待剪辑视频的音频文件；最后将剪辑后的图像文件和剪辑后的音频文件进行合成，得到剪辑完成的视频。

对图像文件的具体处理过程包括以下步骤：

步骤S1001，检测图像文件中的人脸。

步骤S1002，判断是否检测到人脸。

步骤S1001和步骤S1002的具体过程与步骤S110的相同，这里不再赘述。若步骤S1002判断出没有检测到人脸，则下一个视频帧重新执行步骤S1001；若步骤S1002判断出检测到人脸，则执行步骤S1003。

步骤S1003，识别该人脸是否为目标人脸。

对该人脸的具体识别过程与步骤S120的相同，这里不再赘述。若识别该人脸不是目标人脸，则下一个视频帧重新执行步骤S1001；若识别该人脸为目标人脸，则执行步骤S1004和步骤S1005。

步骤S1004，确定剪辑的起始帧及起始时间Start 1。

同步骤S130，当识别该人脸为目标人脸时，确定此时目标人脸所属的视频帧为剪辑的起始帧，目标人脸所属的视频帧对应的时间为剪辑的起始时间，其中剪辑的起始时间标记为Start 1。

步骤S1005，追踪目标人脸。

由步骤S1004确定剪辑的起始帧及剪辑的起始时间Start 1后，开始对该目标人脸进行追踪。具体的追踪过程与步骤S140的相同，这里不再赘述。

步骤S1006，确定剪辑的结束帧及结束时间Finish 1。

若当前视频帧中的人脸不是目标人脸，则确定该当前视频帧为剪辑的结束帧，该当前视频帧对应的时间为剪辑的结束时间，其中剪辑的结束时间标记为Finish 1。

根据上述方法确定的剪辑的起始帧和结束帧，将剪辑的起始帧作为剪辑的第一帧，剪辑的结束帧作为剪辑的最后一帧，剪辑待剪辑视频的图像文件，得到剪辑后的图像文件。

对音频文件的具体处理过程包括以下步骤：

步骤S2001，从Start 1开始剪辑音频文件。

获取图像文件中标记的剪辑的起始时间Start 1，从Start 1开始剪辑待剪辑视频的音频文件。

步骤S2002，在Finish 1停止剪辑音频文件。

获取图像文件中标记的剪辑的结束时间Finish 1，在Finish 1停止剪辑待剪辑视频的音频文件。

通过步骤S2001和步骤S2002可以获得剪辑后的音频文件。

通过对图像文件和音频文件的处理，得到了剪辑后的图像文件和剪辑后的音频文件，将剪辑后的图像文件和剪辑后的音频文件进行合成，得到剪辑完成的视频。

在待剪辑视频中，会有多段视频包含目标人物，对待剪辑视频重复图4中的步骤可以获得包含目标人脸的多个剪辑完成的视频，将多个剪辑完成的视频按时间排序即可得到该目标人物的视频片段。

本发明实施例中，将待剪辑视频分离成图像文件和音频文件，主要对图像文件进行分析处理，减少了处理的数据流，因而在保证视频剪辑准确度的同时，进一步提高了视频剪辑的速度。

基于上述分析可知，本发明实施例所提供的视频剪辑方法具有以下有益效果：(1)通过对目标人脸的追踪，减少了包含目标人物的视频内容的丢失，使剪辑完成的目标人物的视频片段更加完整；(2)实现了对目标人物的视频片段的自动剪辑，不需要人工观看和手动剪辑影视视频，减少了人力和时间的消耗；(3)采用基于SVM的Struck算法和KCF算法相结合的方式对目标人脸进行追踪，具有良好的追踪性能和较快的追踪速度；(4)将待剪辑视频分离成图像文件和音频文件，主要对图像文件进行分析处理，减少了处理的数据流，在保证视频剪辑准确度的同时，进一步提高了视频剪辑的速度。

实施例二：

对应上述实施例一中的方法，本发明实施例还提供了一种视频剪辑装置，用于执行上述实施例一中的方法。图5为本发明第二实施例提供的视频剪辑装置的第一种模块组成示意图，如图5所示，本实施例中的视频剪辑装置包括：人脸检测模块10，用于逐帧检测待剪辑视频中的人脸；目标判断模块20，用于判断检测到的人脸是否为目标人脸；起始确定模块30，用于当检测到的人脸为目标人脸时，确定目标人脸所属的视频帧为剪辑的起始帧；结束确定模块40，用于从起始帧开始，根据目标人脸在各个视频帧中出现的置信度逐帧追踪目标人脸，确定剪辑的结束帧；剪辑模块50，用于根据起始帧和结束帧剪辑待剪辑视频，得到剪辑完成的视频。

本发明实施例中，人脸检测模块10逐帧检测待剪辑视频中的人脸，目标判断模块20判断检测到的人脸是否为目标人脸，当检测到的人脸为目标人脸时，起始确定模块30确定此目标人脸所属的视频帧为剪辑的起始帧，从起始帧开始，结束确定模块40根据目标人脸在各个视频帧中出现的置信度逐帧追踪目标人脸，确定剪辑的结束帧，剪辑模块50根据起始帧和结束帧剪辑待剪辑视频，得到剪辑完成的视频。由于本发明实施例中根据目标人脸在各个视频帧中出现的置信度在各个视频帧中追踪目标人脸，确定剪辑的结束帧，计算目标人脸在各个视频帧中出现的置信度时，与影视视频的背景、分辨率和目标人物的正脸是否被遮挡没有关系，因此当影视视频的背景杂乱、分辨率低或者目标人物的正脸被遮挡时，通过本发明实施例提供的装置仍然可以追踪到目标人脸，因而避免了包含目标人物的视频内容的丢失，剪辑完成的目标人物的视频片段更加完整。

图6为本发明第二实施例提供的视频剪辑装置的第二种模块组成示意图，如图6所示，上述结束确定模块40包括：矫正判断单元41，用于判断当前视频帧是否满足预设的矫正条件；第一结束确定单元42，用于当当前视频帧不满足预设的矫正条件时，根据目标人脸在当前视频帧的下一个视频帧中出现的置信度与预设置信度阈值之间的大小关系，确定剪辑的结束帧；第二结束确定单元43，用于当当前视频帧满足预设的矫正条件时，检测当前视频帧中是否存在目标人脸，当当前视频帧中不存在目标人脸时，确定该当前视频帧为剪辑的结束帧。

具体地，第一结束确定单元42包括：第一计算子单元，用于根据目标人脸在当前视频帧中的位置计算目标人脸在该当前视频帧的下一个视频帧中出现的置信度；第一检测子单元，用于当目标人脸在下一个视频帧中出现的置信度小于预设置信度阈值时，检测下一个视频帧中是否存在该目标人脸；第一确定子单元，用于当下一个视频帧中不存在目标人脸时，确定当前视频帧为剪辑的结束帧。

具体地，矫正判断单元41包括：矫正判断子单元，用于判断当前视频帧与上一个满足预设的矫正条件的视频帧之间是否间隔预设时间或者间隔预设数量的视频帧，其中，与起始帧之间间隔预设时间或者间隔预设数量的视频帧为满足预设的矫正条件的第一个视频帧；矫正确定子单元，用于当当前视频帧与上一个满足预设的矫正条件的视频帧之间间隔预设时间或者间隔预设数量的视频帧时，确定该当前视频帧满足预设的矫正条件，否则，不满足预设的矫正条件。

进一步地，第一结束确定单元42中的第一计算子单元具体用于：采用基于SVM的Struck算法和KCF算法相结合的方式，根据目标人脸在当前视频帧中的位置计算目标人脸在该当前视频帧的下一个视频帧中出现的置信度。

具体地，目标判断模块20包括：相似度计算单元，用于计算检测到的人脸分别对应预先存储的各个人脸的相似度；人脸判断单元，用于判断相似度最大的预先存储的人脸是否为目标人脸；目标确定单元，用于当相似度最大的预先存储的人脸为目标人脸时，确定检测到的人脸为目标人脸。

通过如图6所示的装置，当影视视频的背景杂乱、分辨率低、目标人物的正脸被遮挡时，仍然可以追踪到目标人脸，因而避免了包含目标人物的视频内容的丢失，剪辑完成的目标人物的视频片段更加完整。

考虑到采用上述模块确定剪辑的起始帧和结束帧时，主要依靠对目标人脸的识别和追踪，而对目标人脸的识别和追踪只与待剪辑视频的图像文件有关，因此为了加快视频剪辑的速度，本发明实施例中，人脸检测模块10具体用于：逐帧检测待剪辑视频的图像文件中的人脸；剪辑模块50具体用于：根据起始帧和结束帧分别剪辑待剪辑视频的图像文件和音频文件，将剪辑后的图像文件和剪辑后的音频文件进行合成，得到剪辑完成的视频。

本发明实施例提供的视频剪辑装置，与上述实施例提供的视频剪辑方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

基于上述分析可知，本发明实施例所提供的视频剪辑装置具有以下有益效果：(1)通过对目标人脸的追踪，减少了包含目标人物的视频内容的丢失，使剪辑完成的目标人物的视频片段更加完整；(2)实现了对目标人物的视频片段的自动剪辑，不需要人工观看和手动剪辑影视视频，减少了人力和时间的消耗；(3)采用基于SVM的Struck算法和KCF算法相结合的方式对目标人脸进行追踪，具有良好的追踪性能和较快的追踪速度；(4)将待剪辑视频分离成图像文件和音频文件，主要对图像文件进行分析处理，减少了处理的数据流，在保证视频剪辑准确度的同时，进一步提高了视频剪辑的速度。

本发明实施例所提供的视频剪辑方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页 1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马兆远;李蕊;郝欣童;龙诺明;
技术所有人：司马大大（北京）智能系统有限公司;
我是此专利的发明人

上一篇：具放大镜与发光二极管的指甲剪结构的制作方法与工艺
上一篇：一种新型的环保卸甲包的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。