0%

近日,Manus 在blog中分享了关于agent搭建的一些实操经验,很有用,但由于Manus本身在中国区无法访问,blog会在内容加载完成后执行额外检查,因此访问manus.im/blog子域名时,先是可以看到blog的内容,然后跳转到manus.im/unavailable。

这与Manus技术分享的初衷相悖,既然将内部技术分享出来,肯定是想让更多地人看到学习,一起进步,因此希望未来Manus能将blog子域名下的地域检查去掉。不过在此之前,有一些简单的方法可以解决此问题,下面是咨询Gemini 2.5 Pro后得到的一些解决办法。

方法一:最简单快捷的“手速流”

当页面内容一出现,立即按下键盘上的 Esc 键。

  • 原理:Esc键会停止浏览器加载页面,包括正在执行或即将执行的JavaScript脚本。因为跳转命令通常是在页面主要内容加载后由脚本触发的,所以及时按下Esc可以有效阻止它。

方法二:浏览器阅读模式

现代浏览器(如Chrome、Safari、Edge、Firefox)大多内置了“阅读模式”或“阅读器视图”。

  • 操作:在地址栏通常会有一个像书本或文章一样的图标。在页面开始跳转前,迅速点击这个图标。
  • 原理:阅读模式会提取网页的主要文本和图片,忽略掉大部分脚本和样式。它通常在跳转脚本执行前就完成了内容提取。

方法三:禁用JavaScript(诊断和访问的利器)

这是最可靠的方法之一,因为绝大多数此类跳转都是由JavaScript驱动的。

  • 操作(临时禁用):
  1. 按 F12 或 Ctrl+Shift+I (Mac: Cmd+Opt+I) 打开开发者工具。
  2. 按 Ctrl+Shift+P (Mac: Cmd+Shift+P) 打开命令菜单。
  3. 输入 “JavaScript”,然后选择 “Disable JavaScript”(禁用JavaScript)。
  4. 保持开发者工具开启状态,刷新 页面。
  5. 现在页面将不会跳转,你可以随意浏览。
  6. 看完后,重复步骤2-3,选择 “Enable JavaScript” 来恢复。

pytorch模型转换onnx的时候,遇到了下面的报错信息:

1
RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a parameter or input, or detaching the gradient 

翻译过来就是不能将一个需要梯度的tensor转换为constant。

定位到报错的层,是一个Conv2D,看起来是它对应的weight设置了requires_grad为True。本以为直接修改requires_grad = False 就可以了,但比较诡异的是,实际试下来并不行。

阅读全文 »

昨天看到周舒畅老师的AI短剧 论视觉大模型 VLM 的轻量化,以讲相声的形式来表现,觉得很有意思,如果加上声音,就真的是一个技术领域的搞笑相声了。刚好最近出了一个开源的播客生成工具MOSS-TTSD,还没来得及试,正好借这个机会玩一玩。

选择了岳云鹏和孙越的几秒的参考音频,对上面AI短剧的内容进行格式化整理,然后直接跑MOSS-TTSD的开源代码,第一次跑就成功了,还是很丝滑的。

生成的效果如下:

视频

发音效果挺好,中文、英文单词发音都没明显问题,音色相似度差一些,孙越的参考声音换了几个都不太行,可能还有细节问题待定位。

总之,这个方向能玩的东西还是很多,未来可期。

之前有一次,和做投资人的高中同学聊天,他提到了投资了“小明”的创业公司,这里的小明指的是明超平。后面渐渐了解了明超平的经历。今天在B站看到张小张小珺和小明的访谈,听完后收获很大,创业者的顶级认知很有启发,这里摘录一些我觉得有收获的观点,对访谈的原文做了删减和流畅化的改写。

明超平背景:武大自动化系毕业,后转做产品经理,毕业后在One Plus 一加手机就职,后去字节做剪映产品,离职后加入MoonShot,负责海外产品Noisee。目前离职创业,做项目YouWare,一个用户分享、创造内容的社区。

下面是访谈的一些观点和访谈内容。

阅读全文 »

2025年6月26日,Qwen团队发布了Qwen VLo,一个定位是“unified multimodal understanding and generation model”的模型,包括多模态的理解和生成。

根据官方的介绍博客,Qwen VLo包含下面的功能:

  • 图像生成:文生图、2D卡通图像转真实图像
  • 图像编辑:例如修改某个主体、更换颜色、更换风格
  • 图像算法能力:例如检测框、canny 算子、图像分割结果

经过一段时间的测试,我个人的总结是:

  1. 生图能力:效果比较差,感觉是一两年前生图模型的水平
  2. 图像风格转换:效果比较稳定,生图有美感
  3. 图像编辑能力:还算可以,有一些case做不好
  4. 检测框:能稳定生成,单人没问题,多人场景下也不算很准
  5. 图像分割:没有成功
  6. canny算子:细节更丰富,但有一些地方与原图并非完全对齐

再单独吐槽一个点,刚开始没找到Qwen VLo的入口,看微信公众号文章的留言才发现,并不是以一个模型列在可选模型列表中的,而是不管选择什么模型,只要做生图任务或者上传图片进行对话,都调用Qwen VLo。这种不遵从用户已有习惯的设置,随意而为的做法,用户体验很差,要是没看到留言回复,真的不知道怎么用。

下面详细展开我上面总结中各个条目的实际结果。

阅读全文 »

Andrej Karpathy 有一条关于AI时代产品文本化的推文如下:

Products with extensive/rich UIs lots of sliders, switches, menus, with no scripting support, and built on opaque, custom, binary formats are ngmi in the era of heavy human+AI collaboration.

If an LLM can’t read the underlying representations and manipulate them and all of the related settings via scripting, then it also can’t co-pilot your product with existing professionals and it doesn’t allow vibe coding for the 100X more aspiring prosumers.

Example high risk (binary objects/artifacts, no text DSL): every Adobe product, DAWs, CAD/3D Example medium-high risk (already partially text scriptable): Blender, Unity
Example medium-low risk (mostly but not entirely text already, some automation/plugins ecosystem): Excel
Example low risk (already just all text, lucky!): IDEs like VS Code, Figma, Jupyter, Obsidian, …

Al’s will get better and better at human UIUX (Operator and friends), but I suspect the products that attempt to exclusively wait for this future without trying to meet the technology halfway where it is today are not going to have a good time.

以下是我的一些见解。

阅读全文 »

1. 说明

mcp是一种创新的开源协议,用于规范大模型对外部工具的调用流程。mcp服务是供大模型调用的外部服务,用于增强大模型解决问题的能力。

mcp服务可以用mcp python-sdk来搭建,官方教程在这里。对第一次尝试的同学来说,官方的sdk还是有一定门槛的。

最近发现gradio 默认支持mcp server的部署,也就是launch一个gradio demo后,默认就起一个mcp服务,无需额外学习mcp python sdk的使用。这对于已经熟悉gradio demo搭建的同学来说,方便了不少。下面我将展示一个简单的基于gradio的mcp server搭建,以及在一个mcp client中调用。

阅读全文 »

1. 原理说明

在跑LLM推理的时候,有时候会出现模型不断复读的现象,也就是模型一直输出同一个token或者token序列,不结束输出。transformers库中有一个参数repetition_penality专门针对此现象进行优化,通过将其设置为大于1.0的一个浮点数(如1.05, 1.1, 1.2等),有些情况下能缓解重复问题。 这个优化思路是在2019年的论文CTRL中提出的。

那这个参数是怎么解决重复问题的呢?其实实现原理很简单:对于之前出现过的token,在其logits(没有经过softmax的raw score)上作用一个repetition_penality 系数,使得它的logits数值降低,进而减少被选做下一个token的概率。

阅读全文 »