Teches

云飞的数字庭院·项目白皮书与操作手册

第一部分：操作指南 (你每天要做的事) 这是你最关心的部分：如何写，才能让文章出现在网站的正确位置？ 1. 核心规矩：文件夹决定去向我们在 Python 脚本里写死了“路由规则”。你在 Obsidian 里把文件放在哪个文件夹，决定了它发布后出现在网站的哪个栏目。请务必在你的 Obsidian 根目录下建立以下 4 个文件夹（必须完全一致，区分大小写）： Obsidian 文件夹名网站对应栏目适用内容 10_Tech 技术项目 Python代码、服务器维护日志、学习笔记。 20_Humanities 人文社科法律思考、社会学分析、读书笔记。 30_Poetry 附庸风雅诗词、散文、摄影感悟。 40_Journal 不悟不修私人日记、年终总结、碎片想法。 2. 发布开关：Front-matter (元数据) 这是最关键的一步。为了保护你的隐私，所有文章默认都是“私密”的，不会被发布。只有当你显式地告诉系统“我要发布”，它才会出现在网上。在每篇你要发布的文章第一行，必须加上这样的“文件头”： YAML t d p t i a u a t t b g l e l s e : i : : s 2 h [ 这 0 : 标里 2 签写 6 t 1 文 - r , 章 0 u 标 1 e 标题 - 签 1 2 3 ] title: 必填。网站上显示的标题。 ...

YouTube视频批量下载与自动转译工作流

背景：在油管/B站有非常多的UP主，有非常多的高质量信息，访谈/播客等等，希望可以将其整理成文字稿，一方面填充自己的文件库，另一方面学习高质量的认知等问题：显然，视频数据量太大不足以看得完，且听的效率要低于阅读，且众多英文视频对于英文听力不友好的人过于困难。策略：构建一整套信息流，希望可以将对应UP主的视频分门别类下载音频，转录成文字稿，并提供总结，金句，重要片段，反脆弱的片段。服务端：Ubuntu Linux (无 Root 权限，实验室内网，存在透明网关防火墙) 客户端：Windows 11 (运行 Clash 代理，具备外网访问能力) 目标：自动化下载 YouTube 指定频道视频 -> WhisperX 分离人声转录 -> Qwen 大模型翻译/润色 -> 生成汇总文档。可行思考：可通过分析知识类高流量爆款UP主的文稿，批量收集，做一个微调模型，为自己的文稿润色，为后续做自媒体提供些许帮助。一、核心网络策略：反向 SSH 隧道 (Reverse SSH Tunneling) 由于服务器无法直接访问 YouTube 和 HuggingFace（国外），我们必须利用本地 Windows 电脑作为“跳板”。 1.1 初始现象：最初尝试将服务器端口 7890 映射到本地，但 yt-dlp 频繁报错 Connection Refused 或 EOF。排查：使用 netstat -anp | grep 7890 发现该端口被一个无 PID（僵尸/Root权限）的 sshd 进程占用。由于无 Root 权限，无法杀死该进程，导致新建立的隧道无法生效。策略调整（关键点）：放弃旧端口：不再纠结于清理 7890。端口迁移：启用新端口 7899。局域网绑定：本地 SSH 命令指向本地局域网 IP 192.168.31.48，强制 Clash 以“局域网流量”处理请求，规避了 Windows 回环地址的安全限制。 1.2 隧道命令（Windows 端） PowerShell ...

元认知-元信息

这是一个新的项目，正在开发，旨在总结，提高，思考。关于数据-信息的思考 Project Mirror 完整清单一、设计哲学对信息：不是获取更多，而是穿透更深。对自己：大脑是索引器和推理器，不是硬盘。对他人：读行为和决策，不读言论和叙事。核心立场：让隐藏的东西可见。二、元原则准确优先：宁可不回答，不可回答错。可追溯：每一个结论都必须能指回原文或证据。认知诚实：不知道就明确说不知道，不生成"像模像样"的幻觉。掌控感：用户掌控数据、逻辑、基础设施，不依赖黑箱。原文至上：任何总结都有信息损失，系统定位而非替代阅读。三、对信息的需求信噪分离：过滤99.9%的噪音，只让0.1%的真正信号进入认知系统。惊奇度过滤：优先处理能打破现有认知模型的内容，而非确认已知的变体。林迪效应：经过时间检验的内容权重更高，最新的往往噪音最大。语境还原：金句脱离背景就失去意义，必须还原说话的条件和对象。结构显影：看到隐含假设、逻辑链条、边界条件，而非表面内容。沉默分析：识别作者选择不谈的角度、省略的步骤、未言明的前提。湿货捕获：干货AI都能给，真正稀缺的是模糊环境下的手感、直觉、权衡。四、对自己的需求索引而非存储：系统承担存储和检索，释放大脑去做连接和判断。 Just-in-Time：需要时才调取，不做Just-in-Case的囤积。准确可信：现有产品找的不全、答的不准、看原文不便，这是刚需。认知地图：可视化自己知道什么、不知道什么、以为知道但其实模糊的。迷雾与清晰：区分验证过的知识和只是收藏过的知识。连接发现：自动识别新输入与旧知识之间的潜在关联。私人基础设施：从FastAPI开始，建立自己可控的AI infra，不依赖第三方。私人内阁：多角度、多角色审视同一个问题，辅助决策。私人DeepResearch：针对问题深入挖掘，穿透表面抵达本质。五、对他人的需求穿透叙事：区分"被表达的逻辑"和"真实的思考过程"。言行对比：对比他说了什么和他实际做了什么，找到差距。决策模型提取：从多个行为案例中抽象出"如果…则…“的取舍逻辑。约束条件重建：还原当时的资源限制、信息完备度、时间压力、情绪状态。非标内容挖掘：寻找复盘日志、失败案例、极端压力下的应激反应。逻辑悖论识别：找出论述中的矛盾、断裂、循环论证。影响力解剖：分析修辞策略、情绪操控、利益立场对表达的影响。六、交互与体验需求可见的工作过程：用户能看到系统在做什么、怎么做的、为什么这么做。不确定性显性化：系统不确定的、在猜的、证据不足的，必须明确标注。冲突透明呈现：当不同分析得出矛盾结论时，呈现分歧而非强行统一。对抗性内置：系统默认寻找反例、攻击漏洞，而非顺着用户说话。苏格拉底追问：通过持续追问逼出用户自己没意识到的隐含假设。即时反馈：做一个动作立刻看到结果，缩短反馈周期。进度可视化：知道自己在哪里、学到了什么、还有什么盲区。低失败成本：可以试错、可以被打脸，不产生社会性后果。七、输出与整合需求高惊奇度生产：基于已有认知生成能给他人带来信息增量的内容。反脆弱培养：通过持续暴露盲区和对抗训练，提升对信息的直觉和判断力。 Trade-off完整呈现：把决策的显性/隐性收益与成本、短期/长期账本摊开。跨域迁移：发现不同领域知识之间可能的关联和类比。八、系统能力需求全源接入：支持URL、PDF、Markdown、本地知识库、主动检索等多种输入。分级处理：根据内容价值自动或手动选择轻量索引、标准处理、深度研究。多Agent协作：语境还原、逻辑显影、行为考古、溯源校验并行工作。双层视图：左侧原文、右侧空白层（批注、对照、锚点）并列呈现。认知地图：动态知识图谱，标注清晰区、迷雾区、空白区、连接线。状态转换机制：定义知识从迷雾变清晰的触发条件（验证、对抗、行为证据）。九、技术与架构需求私有化部署：优先本地运行，数据不出本机。数据主权：所有数据可导出、可迁移、可删除。模块化设计：LLM可替换、Agent可扩展、存储可切换。 API预留：为未来外溢和产品化预留接口设计。十、边界与诚实声明能做什么：公开信息的深度处理、逻辑结构的显影、已有知识的索引串联。不能做什么：获取非公开信息、替代用户做判断、保证100%准确。冷启动策略：新用户如何从零开始逐步建立知识库并获得早期价值。十一、价值主张自用优先：先为自己服务到极致，再考虑外溢。认知穿透：穿透信息的噪音层、自己的盲区层、他人的叙事层。让空白可见：读到文字的同时，也读到文字没有说出的东西。单独的思考十二、逻辑与假设作者的隐含假设（他觉得理所当然、所以没写出来的前提）逻辑链条的断裂点（从A跳到C，中间的B被省略了）利益与立场（为什么这个人要说这件事）语境依赖（这句话在什么条件下才成立）沉默的替代方案（他选择说这个，意味着他没选择说什么）行动与言论的差距（他说了什么，他做了什么）十三、分析事情的核心原则：简化是必要的，但要选择有效的简化方式归因要选择层次，优先选择可追问、可干预的层面警惕万能解释，主动寻找反例和边界条件区分效果和动机，对动机判断保持谨慎保持比较视角，区分特有现象和普遍现象框架是工具不是答案，要加约束条件才能用追问有终点，停在可干预的层面对批判本身也要批判，包括对自己的分析设计思路 Project Mirror: The Cognitive Glass Box Version: 1.0 (Architecture Definition) ...

基于 Obsidian 与 Hugo 的自动化知识管理系统

第一部分：引言 (Background) 痛点：市面上的平台（知乎/公众号）数据不在自己手里，且排版繁琐。愿景：想要一个“写完即发、无感同步、动静分离”的系统。核心理念：技术服务于内容，而非被技术捆绑。第二部分：架构设计 (Architecture) **技术栈选型：写作端：Obsidian + Git (本地管理) 服务端：Ubuntu + Docker (环境隔离) 生成器：Hugo (极速静态生成) 自动化：Python (自定义逻辑处理) 存储与展示：Nginx (Web服务) + Alist/Rclone (云备份) 数据流：本地 Obsidian -> Git Push -> VPS 裸仓库 -> Python 脚本接管 -> Hugo 生成 -> Nginx 展示核心逻辑第三部分：核心实现 (The “How”) 环境介绍目标：在阿里云 Ubuntu 24.04 上搭建基础环境。（个人使用的是阿里的ESC服务器，2 核（vCPU）2 GiB，年租99） Docker 的应用：简述：为了保持宿主机干净，选择用 Docker 部署 Nginx（Web服务器）和 Alist（云盘挂载）。亮点：通过挂载卷（Volume），让 Nginx 直接读取宿主机的静态文件，实现了容器与本地的灵活交互。 Alist (网盘挂载器): 作用：把阿里网盘变成服务器的一个硬盘目录，或者提供 WebDAV 给 Obsidian 备份。部署：在 ECS 上安装 Alist。连接：配置阿里网盘 Token。用途：图、附件、数据库冷备份都扔进阿里网盘，节省 ECS 空间。 Git Server (Gitea 或纯Git): ...