SAMURAI增强版分割模型
1. 背景
最近在11月18日看到arxiv上发表了SAMURAI,是华盛顿大学做的一个针对万物切割SAM(segment anything model)的开源项目,目的是为了解决传统目标跟踪算法在复杂场景比如快速移动、移动遮挡等环境中遇到的跟踪丢失、目标不全等问题。其实在去年华盛顿大学已经开源过一个版本SAM,不过相比于SAM,SAMURAI具备更好的性能,在物体部分遮挡的时候依旧有很好的性能。关于官网的产品介绍如下:
网站:https://yangchris11.github.io/samurai
论文:https://arxiv.org/abs/2411.11922
github:https://github.com/yangchris11/samurai
视频案例如下:
1917 (2019), directed by Sam Mendes.
1917 (2019), directed by Sam Mendes.
可以看到官网的案例,整体视频追踪的效果看起来还是不错的,我们整体安装试试。
2. 安装
首先查看自己的python、torch和torchvision的版本,要求:python>=3.10, torch>=2.3.1 ,torchvision>=0.18.1,可以用如下脚本进行检查:
import sys
import torch
import torchvision
# 检查 Python 版本
print("Python version:", sys.version)
# 检查 PyTorch 版本
print("PyTorch version:", torch.__version__)
# 检查 torchvision 版本
print("torchvision version:", torchvision.__version__)
先不安装,直接测试
3. 实际测试
直接可以在官网测试:
https://sam2.metademolab.com/demo本文发布于2024年11月25日20:13,已经过了398天,若内容或图片失效,请留言反馈 -
github大模型软件评测
1. 背景 互联网上有许多开源的大模型软件,每种软件都有其独特的功能和优缺点。我曾试用过许多大模型软件,但最终效果和具体内容都未能完全记住。因此,本文将主要记录我所了解和使用过的大模型软件。此外,文中...
2025/02/19
-
whisper.cpp安装
1. 背景 whisper是OpenAI官方发布的一款开源语音识别大模型,使用python实现。可以将语音信息转化为文本信息。其实也叫做ASR"自动语音识别”(Automatic Speech Rec...
2025/03/02
-
【1】COGVIDEO生成视频
1. 背景 cogvideoX是清华和清影同源的开源视频生成大模型,详情可以查看:CogvideoXhttps://modelscope.cn/models/ZhipuAI/CogVideoX-5b-...
2024/11/19
-
whisper.cpp测试与使用
whipser.cpp安装完毕后,加载了多个大模型,分别进行测试。 测试项目 下载模型命令: bash sh ./models/download-ggml-model.sh base 测试命令: 转化...
2025/04/21
求索空间
apostle9891
360视觉云
360智慧生活
gitea
导航
hoppscotch
暂无评论