Yunfeng's Simple Blog

解决Manus Blog自动跳转无法访问的问题

发表于 2025-07-21 更新于 2025-08-03 阅读次数：

近日，Manus 在blog中分享了关于agent搭建的一些实操经验，很有用，但由于Manus本身在中国区无法访问，blog会在内容加载完成后执行额外检查，因此访问manus.im/blog子域名时，先是可以看到blog的内容，然后跳转到manus.im/unavailable。

这与Manus技术分享的初衷相悖，既然将内部技术分享出来，肯定是想让更多地人看到学习，一起进步，因此希望未来Manus能将blog子域名下的地域检查去掉。不过在此之前，有一些简单的方法可以解决此问题，下面是咨询Gemini 2.5 Pro后得到的一些解决办法。

方法一：最简单快捷的“手速流”

当页面内容一出现，立即按下键盘上的 Esc 键。

原理：Esc键会停止浏览器加载页面，包括正在执行或即将执行的JavaScript脚本。因为跳转命令通常是在页面主要内容加载后由脚本触发的，所以及时按下Esc可以有效阻止它。

方法二：浏览器阅读模式

现代浏览器（如Chrome、Safari、Edge、Firefox）大多内置了“阅读模式”或“阅读器视图”。

操作：在地址栏通常会有一个像书本或文章一样的图标。在页面开始跳转前，迅速点击这个图标。
原理：阅读模式会提取网页的主要文本和图片，忽略掉大部分脚本和样式。它通常在跳转脚本执行前就完成了内容提取。

方法三：禁用JavaScript（诊断和访问的利器）

这是最可靠的方法之一，因为绝大多数此类跳转都是由JavaScript驱动的。

操作（临时禁用）：

按 F12 或 Ctrl+Shift+I (Mac: Cmd+Opt+I) 打开开发者工具。
按 Ctrl+Shift+P (Mac: Cmd+Shift+P) 打开命令菜单。
输入 “JavaScript”，然后选择 “Disable JavaScript”（禁用JavaScript）。
保持开发者工具开启状态，刷新页面。
现在页面将不会跳转，你可以随意浏览。
看完后，重复步骤2-3，选择 “Enable JavaScript” 来恢复。

Pytorch转ONNX报错-Cannot insert a Tensor that requires grad as a constant

发表于 2025-07-09 更新于 2025-08-03 阅读次数：

pytorch模型转换onnx的时候，遇到了下面的报错信息：

1	RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a parameter or input, or detaching the gradient

翻译过来就是不能将一个需要梯度的tensor转换为constant。

定位到报错的层，是一个Conv2D，看起来是它对应的weight设置了requires_grad为True。本以为直接修改requires_grad = False 就可以了，但比较诡异的是，实际试下来并不行。

阅读全文 »

用MOSS-TTSD生成相声

发表于 2025-07-06 更新于 2025-08-03 阅读次数：

昨天看到周舒畅老师的AI短剧论视觉大模型 VLM 的轻量化，以讲相声的形式来表现，觉得很有意思，如果加上声音，就真的是一个技术领域的搞笑相声了。刚好最近出了一个开源的播客生成工具MOSS-TTSD，还没来得及试，正好借这个机会玩一玩。

选择了岳云鹏和孙越的几秒的参考音频，对上面AI短剧的内容进行格式化整理，然后直接跑MOSS-TTSD的开源代码，第一次跑就成功了，还是很丝滑的。

生成的效果如下：

视频

发音效果挺好，中文、英文单词发音都没明显问题，音色相似度差一些，孙越的参考声音换了几个都不太行，可能还有细节问题待定位。

总之，这个方向能玩的东西还是很多，未来可期。

张小珺明超平访谈观点总结

发表于 2025-07-02 更新于 2025-08-03 阅读次数：

之前有一次，和做投资人的高中同学聊天，他提到了投资了“小明”的创业公司，这里的小明指的是明超平。后面渐渐了解了明超平的经历。今天在B站看到张小张小珺和小明的访谈，听完后收获很大，创业者的顶级认知很有启发，这里摘录一些我觉得有收获的观点，对访谈的原文做了删减和流畅化的改写。

明超平背景：武大自动化系毕业，后转做产品经理，毕业后在One Plus 一加手机就职，后去字节做剪映产品，离职后加入MoonShot，负责海外产品Noisee。目前离职创业，做项目YouWare，一个用户分享、创造内容的社区。

下面是访谈的一些观点和访谈内容。

阅读全文 »

Qwen VLo 效果实测

发表于 2025-06-28 更新于 2025-08-03 阅读次数：

2025年6月26日，Qwen团队发布了Qwen VLo，一个定位是“unified multimodal understanding and generation model”的模型，包括多模态的理解和生成。

根据官方的介绍博客，Qwen VLo包含下面的功能：

图像生成：文生图、2D卡通图像转真实图像
图像编辑：例如修改某个主体、更换颜色、更换风格
图像算法能力：例如检测框、canny 算子、图像分割结果

经过一段时间的测试，我个人的总结是：

生图能力：效果比较差，感觉是一两年前生图模型的水平
图像风格转换：效果比较稳定，生图有美感
图像编辑能力：还算可以，有一些case做不好
检测框：能稳定生成，单人没问题，多人场景下也不算很准
图像分割：没有成功
canny算子：细节更丰富，但有一些地方与原图并非完全对齐

再单独吐槽一个点，刚开始没找到Qwen VLo的入口，看微信公众号文章的留言才发现，并不是以一个模型列在可选模型列表中的，而是不管选择什么模型，只要做生图任务或者上传图片进行对话，都调用Qwen VLo。这种不遵从用户已有习惯的设置，随意而为的做法，用户体验很差，要是没看到留言回复，真的不知道怎么用。

下面详细展开我上面总结中各个条目的实际结果。

阅读全文 »

美团 NoCode 简单使用体验

发表于 2025-06-12 更新于 2025-08-03 阅读次数：

网站地址：NoCode-零代码应用生成平台

简单使用了下，生成代码速度挺快的，NoCode的UI设计也简洁好用，但试了几次官方的实例（）生成的代码也没跑起来。

阅读全文 »

AI时代的产品文本化

发表于 2025-06-08 更新于 2025-08-03 阅读次数：

Andrej Karpathy 有一条关于AI时代产品文本化的推文如下：

Products with extensive/rich UIs lots of sliders, switches, menus, with no scripting support, and built on opaque, custom, binary formats are ngmi in the era of heavy human+AI collaboration.

If an LLM can’t read the underlying representations and manipulate them and all of the related settings via scripting, then it also can’t co-pilot your product with existing professionals and it doesn’t allow vibe coding for the 100X more aspiring prosumers.

Example high risk (binary objects/artifacts, no text DSL): every Adobe product, DAWs, CAD/3D Example medium-high risk (already partially text scriptable): Blender, Unity
Example medium-low risk (mostly but not entirely text already, some automation/plugins ecosystem): Excel
Example low risk (already just all text, lucky!): IDEs like VS Code, Figma, Jupyter, Obsidian, …

Al’s will get better and better at human UIUX (Operator and friends), but I suspect the products that attempt to exclusively wait for this future without trying to meet the technology halfway where it is today are not going to have a good time.

以下是我的一些见解。

阅读全文 »

Comma v0.1 -全开源数据训练的可复现大模型

发表于 2025-06-08 更新于 2025-08-03 阅读次数：

credit: via

近期，Common Pile 团队开源了利用开放数据训练的7B LLM模型Comma v0.1 1T和2T，训练数据采用的是这个团队采集的Common Pile v0.1，1个8T的数据集，包含公开数据，以及开放证书的数据，也就是训练大模型都是合法的，没有采用带版权的数据。

阅读全文 »

用gradio部署mcp server

发表于 2025-06-04 更新于 2025-08-03 阅读次数：

1. 说明

mcp是一种创新的开源协议，用于规范大模型对外部工具的调用流程。mcp服务是供大模型调用的外部服务，用于增强大模型解决问题的能力。

mcp服务可以用mcp python-sdk来搭建，官方教程在这里。对第一次尝试的同学来说，官方的sdk还是有一定门槛的。

最近发现gradio 默认支持mcp server的部署，也就是launch一个gradio demo后，默认就起一个mcp服务，无需额外学习mcp python sdk的使用。这对于已经熟悉gradio demo搭建的同学来说，方便了不少。下面我将展示一个简单的基于gradio的mcp server搭建，以及在一个mcp client中调用。

阅读全文 »

repetition_penality的作用与实现

发表于 2025-06-02 更新于 2025-08-03 阅读次数：

1. 原理说明

在跑LLM推理的时候，有时候会出现模型不断复读的现象，也就是模型一直输出同一个token或者token序列，不结束输出。transformers库中有一个参数repetition_penality专门针对此现象进行优化，通过将其设置为大于1.0的一个浮点数（如1.05， 1.1， 1.2等），有些情况下能缓解重复问题。这个优化思路是在2019年的论文CTRL中提出的。

那这个参数是怎么解决重复问题的呢？其实实现原理很简单：对于之前出现过的token，在其logits（没有经过softmax的raw score)上作用一个repetition_penality 系数，使得它的logits数值降低，进而减少被选做下一个token的概率。

阅读全文 »