首頁
影片
頻道
食衣住行
全部
24285
DIY
1596
衣著
420
妝扮
773
車
3104
房屋
1445
社會
4160
政論
103
美食
4127
烹飪
6950
新聞
196
環保
336
點心
1075
休閒娛樂
全部
69507
ASMR
151
小說
2887
戶外
1080
日常
3724
卡通
971
民俗
1362
休閒
968
收藏
620
明星
3823
玩具
993
美女
785
音樂
6233
旅遊
973
神秘
1426
配音
422
偶戲
610
動漫
5497
開箱
523
新奇
729
運動
1843
遊戲
8030
電視劇
8488
電影
4394
漫畫
672
綜藝
4523
劇場
852
廣播
400
趣味
3401
寵物
1341
魔術
1786
教學知識
全部
38803
3C
1320
人物
389
人際
109
心靈
1696
文化
1065
文學
568
生物
140
地理
768
宇宙
308
兒童
868
兩性
1159
命理
998
宗教
3098
法律
390
知識
1844
科學
1459
軍武
961
財經
4971
健康
3406
動物
1539
教育
2078
軟體
946
植物
253
園藝
2396
演講
294
綜合
1407
歷史
1715
職場
385
雜談
846
藝術
964
攝影
463
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.35萬
2026-01-14
314
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
11:22
本地自建应用一个域名全世界可访问,无需购买vps,局域网软路由群晖n8n ollama api只需一个配置公网可高速访问,秒杀大多内网穿透,cloudflared tunnel本地ip端口映射详细分享
30:32
2026 AI Skills元年,Claude code基础讲解,为什么要学AI编程
05:24
macOS Tahoe Beta 5&6:有哪些吸引人的变化?
06:07
300C複合區獅友札幌大集合!歡笑與感動滿滿的遠東年會全紀錄✨#遠東年會 #LionPower #札幌巨蛋 #300C複合區#300C中文會刊社 #WeServe #LionsInJapan
20:08
ChatGPT 退訂潮擋不住了?Gemini 整合 Google Workspace 全功能詳解!保母級教學讓你從零到精通!
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei