Xiaohu.AI日报「1月26日」

扫码手机浏览

1、Diffuse to Choose:在线购物“虚拟试穿”模型

2、 Web LLM:在浏览器中运行大语言模型

3、 SUPIR:图像修复模型

4、 Adept Fuyu-Heavy:多模态数字代理模型

5、 SpeechGPT-Gen:跨模态对话能力的大语言模型

6、OpenAI推出新一代嵌入模型

1、Diffuse to Choose:在线购物“虚拟试穿”模型

- 可以将商品放入任何环境中,与环境完美融合。

- 例如,把椅子放进客厅照片,看实际效果。

- 提高了在线购物体验,使产品在真实环境中的样子更清晰。

? https://diffuse2choose.github.io

? https://x.com/xiaohuggg/status/1750829664766198026...

2、 Web LLM:在浏览器中运行大语言模型

- 利用WebGPU加速,无需服务器,直接在浏览器运行。

- 支持多种模型,如Llama 2 7B/13B等。

- 可以降低成本,增强个性化和保护隐私。 ? https://webllm.mlc.ai

? https://x.com/xiaohuggg/status/1750796204668342624...

3、 SUPIR:图像修复模型

- 通过增加参数数量提升修复能力。

- 支持文本提示引导的图像修复。

- 核心技术包括模型放大、多模态技术等。

? https://supir.xpixel.group

? https://x.com/xiaohuggg/status/1750706833751408858...

4、 Adept Fuyu-Heavy:多模态数字代理模型

- 世界第三大多模态模型,擅长理解用户界面。

- 可以解释和操作各种软件和应用程序的界面。

- 帮助执行任务如自动化流程、响应查询等。

? https://x.com/xiaohuggg/status/1750704152605499508...

5、 SpeechGPT-Gen:跨模态对话能力的大语言模型

- 处理和生成语音数据,实现文本与语音的无缝对话。

- 包含8亿参数,有效处理语义和知觉信息。

? https://arxiv.org/abs/2401.13527

? GitHub - 0nutation/SpeechGPT: SpeechGPT Series: Sp...

? https://x.com/xiaohuggg/status/1750694801517969900...

6、OpenAI推出新一代嵌入模型

- 新嵌入模型:text-embedding-3-small和text-embedding-3-large。

- 新模型性能普遍优于上一代,特别是在多语言检索方面。

- GPT-4 Turbo预览版模型更新,提高代码生成等任务的完成度。

? https://x.com/xiaohuggg/status/1750688990104330481...