知识管理

背景：在油管/B站有非常多的UP主，有非常多的高质量信息，访谈/播客等等，希望可以将其整理成文字稿，一方面填充自己的文件库，另一方面学习高质量的认知等问题：显然，视频数据量太大不足以看得完，且听的效率要低于阅读，且众多英文视频对于英文听力不友好的人过于困难。策略：构建一整套信息流，希望可以将对应UP主的视频分门别类下载音频，转录成文字稿，并提供总结，金句，重要片段，反脆弱的片段。服务端：Ubuntu Linux (无 Root 权限，实验室内网，存在透明网关防火墙) 客户端：Windows 11 (运行 Clash 代理，具备外网访问能力) 目标：自动化下载 YouTube 指定频道视频 -> WhisperX 分离人声转录 -> Qwen 大模型翻译/润色 -> 生成汇总文档。可行思考：可通过分析知识类高流量爆款UP主的文稿，批量收集，做一个微调模型，为自己的文稿润色，为后续做自媒体提供些许帮助。一、核心网络策略：反向 SSH 隧道 (Reverse SSH Tunneling) 由于服务器无法直接访问 YouTube 和 HuggingFace（国外），我们必须利用本地 Windows 电脑作为“跳板”。 1.1 初始现象：最初尝试将服务器端口 7890 映射到本地，但 yt-dlp 频繁报错 Connection Refused 或 EOF。排查：使用 netstat -anp | grep 7890 发现该端口被一个无 PID（僵尸/Root权限）的 sshd 进程占用。由于无 Root 权限，无法杀死该进程，导致新建立的隧道无法生效。策略调整（关键点）：放弃旧端口：不再纠结于清理 7890。端口迁移：启用新端口 7899。局域网绑定：本地 SSH 命令指向本地局域网 IP 192.168.31.48，强制 Clash 以“局域网流量”处理请求，规避了 Windows 回环地址的安全限制。 1.2 隧道命令（Windows 端） PowerShell ...

第一部分：引言 (Background) 痛点：市面上的平台（知乎/公众号）数据不在自己手里，且排版繁琐。愿景：想要一个“写完即发、无感同步、动静分离”的系统。核心理念：技术服务于内容，而非被技术捆绑。第二部分：架构设计 (Architecture) **技术栈选型：写作端：Obsidian + Git (本地管理) 服务端：Ubuntu + Docker (环境隔离) 生成器：Hugo (极速静态生成) 自动化：Python (自定义逻辑处理) 存储与展示：Nginx (Web服务) + Alist/Rclone (云备份) 数据流：本地 Obsidian -> Git Push -> VPS 裸仓库 -> Python 脚本接管 -> Hugo 生成 -> Nginx 展示核心逻辑第三部分：核心实现 (The “How”) 环境介绍目标：在阿里云 Ubuntu 24.04 上搭建基础环境。（个人使用的是阿里的ESC服务器，2 核（vCPU）2 GiB，年租99） Docker 的应用：简述：为了保持宿主机干净，选择用 Docker 部署 Nginx（Web服务器）和 Alist（云盘挂载）。亮点：通过挂载卷（Volume），让 Nginx 直接读取宿主机的静态文件，实现了容器与本地的灵活交互。 Alist (网盘挂载器): 作用：把阿里网盘变成服务器的一个硬盘目录，或者提供 WebDAV 给 Obsidian 备份。部署：在 ECS 上安装 Alist。连接：配置阿里网盘 Token。用途：图、附件、数据库冷备份都扔进阿里网盘，节省 ECS 空间。 Git Server (Gitea 或纯Git): ...

YouTube视频批量下载与自动转译工作流

基于 Obsidian 与 Hugo 的自动化知识管理系统