0%

1. 功能说明

GitHub在2024年8月10号左右的时候推出了GitHub Models新功能,提供运行大模型的Playground和免费API服务,用于进行AI大模型的实验和AI应用的原型验证。目前已经支持的模型包括GPT-4o系列,phi-3系列,Llama-3系列,以及一些Embedding模型等(OpenAI o1-mini和o1-preview虽然列出来了,但需要登陆Azure来使用)。

阅读全文 »

国内下载 GitHub 上代码一直是一件让人很头疼的事情,相信大家都深有体会。

最近偶然发现一个比较好用的解决方案,是采用http://gitclone.com的加速,这里记录一下。

具体来说,在仓库url中增加gitclone.com的前缀,别的地方不变,即https://github.com/修改为https://gitclone.com/github.com/,例如原始的clone命令是:

1
git clone https://github.com/huggingface/transformers

替换成下面的命令即可:

1
git clone https://gitclone.com/github.com/huggingface/transformers

实测基本上能做到1M/s的下载速度。

这种加速目前只支持git clone 和git pull 命令,所以适用于拉取别人代码进行本地查看的应用场景。

另外发现这种加速方式下载的仓库,有一些只有最新的一次提交,有一些则包含完整提交,原因未知。

此外,请确认克隆的代码是否与GitHub上一致,我们无法保证拉取的代码是否被修改过。

0. 概述

最近qwen2发布了多模态系列模型Qwen2-VL,查看blog发现,72B的模型在很多benchmark上都超过了GPT-4o,而根据之前的经验,标准测试集上的效果与实际使用体验并不总是一致的。之前在某个多模态模型出来的时候,随手拍了一张地铁线路图做测试,发现效果不尽如人意。这两天花时间将这张地铁线路截图中的问题进行了标准化,构建了一个简单的图片理解测试集,让我们看看Qwen2-VL到底行不行。

阅读全文 »

1. 说明

Google 发布了Python 包google-generativeai,可以方便地调用Gemini和Gemma 系列的模型,免费模型只需要申请一个Key,无需任何费用。

而且Gemini 1.5 Pro模型还支持一些多模态任务,例如检测bbox,实际测试下来效果还不错。
这里简单写一个流程,体验效果。

阅读全文 »

今天发现GPT-4o对于GitHub Readme文档的润色还是很不错的,很自动添加一些花里胡哨的功能,看起来很fancy。

阅读全文 »

1. uv是什么

uv是开发ruff的公司 Astral 前一段时间发布的高性能Python工具,用途是安装python包,以及解析包版本之间的依赖。它的最大特点是快,相比现有的的工具都能够快一大截(如下图),
![[Pasted image 20240329074004.png]]

发布uv的愿景,是希望构造类似Rust的cargo,快速、可依赖,易用的包管理工具。

通过在不同的系统进行几个常见包的测试,uv相比pip,加速比在1~13之间,因此是一个值得一试的工具。

下面我先介绍一下uv的安装和使用,然后从一个普通用户使用pip的标准流程,尝试用uv替代pip,进行Windows, Linux 和macOS上实测速度对比,最后对uv发展的现状做一个说明,以及我的一些看法。

阅读全文 »

2023年对我来说是一个惊喜的年份,因为可爱的女儿降生了。也是一个难言的年份,在零基础学带娃+长途通勤+家庭矛盾+工作压力的组合作用下,时常burnout,切身体会到人到中年的不容易。好在娃娃的每一个笑容都如此治愈,陪我度过艰难的2023。

技术

技术上,这一年开始担任组内一些项目的Owner,负责与外部团队对接。对于之前习惯做单点技术的我来说,还是个不小的挑战,在小组内沟通、任务规划与拆解、按期交付等方面都需要改进。

在开源项目上,主要做了两个项目。

一个是周刊类的项目 weekly-post,记录我每周看到的一些技术文章,希望给国内的技术同行们一些信息来源和灵感启发。不过在年中的时候断更之后再没更新。反思了下, 本身没有做中文翻译,且只有GitHub一个途径,因此触达的用户不多,反馈也少,很容易坚持不下去,未来或许还会继续尝试这种项目,参考潮流周刊等项目的经验。

另一个是语音聊天对话AI talkGPT4All,语音输入问题,GPT产生回复,再通过TTS合成声音。本身是一个简单的缝合项目,不过是实现了我长久以来一直想做的对话Bot的功能。未来考虑在手机上迁移,触达更多的普通人。当然这类App要做到真正好玩,还需要大量的开发工作。

别的还有一些小的AI工具,都发布到PyPI了,可以pip直接安装:

  • bing_brush: DALLE-3图像生成工具
  • dinov2-retrieval: 基于DINO V2的图像检索工具
  • mp-face-stylizer: 基于MediaPipe的人脸风格化工具

生活

2023年5月,女儿出生,这是过去一年最值得纪念的事情。女儿的到来给我们二人组近十年的二人生活带来了太多惊喜,爸妈也过来一起带娃,五人的家庭是全新的体验,有乐也有苦,总归是度过最难的时候了。

下面是这一年和身边的人的相聚,虽然相聚的机会不多,但每一次相聚都值得铭记:

  • 1月12日大团队年会。
  • 1月14日去小营巷钱学森故居参观。
  • 1月14和董政潇哥去刘旸家聚餐。
  • 2月12日游黄龙洞和保俶塔。
  • 2月18日和彤彤金沙湖春游。
  • 4月8日带父母游西湖。
  • 5月5日女儿出生。
  • 5月14日东升和老婆来看王茗溪小朋友。
  • 5月19日团队京城一锅聚餐。
  • 6月21日,团队在华夏之心闻老头聚餐。
  • 6月23日下午,张凯来看娃,带了好多水果还有孩子看的书。
  • 7月2日参加何同学线下测试活动,见到了何同学本尊并合影。
  • 8月11日参加淘天三年醇活动。
  • 8月19日去净慈寺,尝素烧鹅,捐了48元一片瓦,内心愉悦。净慈美术馆《山中妙音》画展很不错。
  • 9月20日带父母去临平体育中心看亚运会男排比赛。
  • 国庆和彤彤带娃回家看彤彤爷爷。坐飞机到兰州,坐高铁去秦安,再打车回庄浪。返程先去咸阳,再坐飞机回杭。
  • 10月19日团队疆小羊聚餐。
  • 10月22日游飞来峰,韬光寺和永福寺。韬光寺第二次来,桂花还是谢了,半路买茶叶的老人还在。永福寺第一次去,里面很大。
  • 10月31日下午和团队参加云栖大会。
  • 11月10日晚,和刘旸,董政,杨珈蒙去嘉里中心吃了云南菜一坐一忘。
  • 12月31日,和赵彤同事们一起去径山寺

书籍

看完的:

  • 刘少奇传
  • 一百年,许多人,许多事:杨苡口述自传
  • 朱德传
  • 南京大屠杀
  • 己亥杂诗
  • 爱你的一万种方式

在看的:

  • 植物的战斗
  • 迷路员
  • 我在北京送快递
  • 创造:用非传统方式做有价值的事
  • 史蒂夫乔布斯传
  • 生活蒙太奇
  • 荷花淀

电影和电视剧

  • 流浪地球2
  • 拾荒者统治
  • 中国奇谭(小妖怪给看哭了)
  • 椒麻堂会
  • 最后生还者第一季
  • 过往人生
  • 阿索卡
  • 曼达洛人第三季
  • 伯爵
  • 我是格鲁特第二季
    没看完的:
  • 三体电视剧
  • 五月十二月
  • 银河护卫队3
  • 奥本海默
  • 星条红与皇室蓝
  • 忠犬八公
  • 流人第二季
  • 蓝眼武士
  • 万神殿第二季
  • 公寓大楼里的谋杀案
  • 足球教练
  • 史前星球第二季

面向2024

2024年,不奢望太多,孩子健康成长就好。

1. 概述

talkGPT4All是基于GPT4All的一个语音聊天程序,运行在本地CPU上,支持Linux,Mac和Windows。它利用OpenAI的Whisper模型将用户输入的语音转换为文本,再调用GPT4All的语言模型得到回答文本,最后利用文本转语音(TTS)的程序将回答文本朗读出来。

今年4、5月份的时候,我发布了talkGPT4All 1.0版本和2.0版本,链接见下:

talkGPT4All: 基于GPT4All的智能语音聊天程序
talkGPT4All 2.0:现在支持8个语言模型了

大家反馈最大的问题是TTS太机械了,听着很难受(具体可以看前面两篇文章的评论区)。而最近TTS领域的进展很多,例如很受欢迎的 coqui-ai的TTS 库,提供了TTS、声音克隆和声音变换的功能。上周末尝试了一下,发现内置了一些开箱即用的TTS模型,刚好可以集成到 talkGPT4All 中,解决目前采用的 pyttsx3合成声音太机械的问题。

阅读全文 »

昨天在读龚自珍《己亥杂诗》的时候,看到一句“千秋名教吾谁愧?愧读羲之誓墓文”,怎么想都想不明白这句什么意思。

突发奇想,既然大语言模型进展突飞猛进,能否帮助我来解读这句诗是什么意思呢?

阅读全文 »