YouTube视频批量下载与自动转译工作流
背景:在油管/B站有非常多的UP主,有非常多的高质量信息,访谈/播客等等,希望可以将其整理成文字稿,一方面填充自己的文件库,另一方面学习高质量的认知等 问题:显然,视频数据量太大不足以看得完,且听的效率要低于阅读,且众多英文视频对于英文听力不友好的人过于困难。 策略:构建一整套信息流,希望可以将对应UP主的视频分门别类下载音频,转录成文字稿,并提供总结,金句,重要片段,反脆弱的片段。 服务端:Ubuntu Linux (无 Root 权限,实验室内网,存在透明网关防火墙) 客户端:Windows 11 (运行 Clash 代理,具备外网访问能力) 目标:自动化下载 YouTube 指定频道视频 -> WhisperX 分离人声转录 -> Qwen 大模型翻译/润色 -> 生成汇总文档。 可行思考:可通过分析知识类高流量爆款UP主的文稿,批量收集,做一个微调模型,为自己的文稿润色,为后续做自媒体提供些许帮助。 一、 核心网络策略:反向 SSH 隧道 (Reverse SSH Tunneling) 由于服务器无法直接访问 YouTube 和 HuggingFace(国外),我们必须利用本地 Windows 电脑作为“跳板”。 1.1 初始 现象:最初尝试将服务器端口 7890 映射到本地,但 yt-dlp 频繁报错 Connection Refused 或 EOF。 排查:使用 netstat -anp | grep 7890 发现该端口被一个无 PID(僵尸/Root权限)的 sshd 进程占用。由于无 Root 权限,无法杀死该进程,导致新建立的隧道无法生效。 策略调整(关键点): 放弃旧端口:不再纠结于清理 7890。 端口迁移:启用新端口 7899。 局域网绑定:本地 SSH 命令指向本地局域网 IP 192.168.31.48,强制 Clash 以“局域网流量”处理请求,规避了 Windows 回环地址的安全限制。 1.2 隧道命令(Windows 端) PowerShell ...