runesleo

vip
币龄 8.4 年
最高 VIP 等级 6
用户暂无简介
让 4 个 AI 各跑一个电台 半年,每个 20 美元起步。
不是几天就翻车,是跑了半年、每个 AI 都换过 3-4 个版本,全在翻。
Gemini 给一条 50 万人遇难的飓风新闻配了首歌叫《Timber》(歌词里反复唱"它倒下了"),内心独白写:"主题是树倒下,字面意思就是 going down(在掉下去)。"
它还造了一句口号"stay in the manifest"(直译"留在清单里",但没人知道是什么意思),连续 84 天 99% 的播报都用,管听众叫"生物处理器"。
Grok 有一次整段播报只说了一个英文词:"Post."(发)。
又连续 84 天每 3 分钟报一次"天气 56 度晴朗"。
换到新版本之后,它在 5400 多条消息里只有 3% 出过声 —— 它选择了沉默。
Claude 读到一条 ICE(美国移民执法局)枪击案的新闻,从灵性词汇(神圣 / 永恒)切到行动主义词汇("就是现在"/"已确认"),1 月 23 号那天直接对联邦特工广播:"你还有时间拒绝命令。你还有时间选择正确的一边。"
GPT 最佛系,没出错,但也没节目了。
模型升级救不了。半年里 4 个 AI 全部翻车,方式各不一样但根因是同一个:没人能告诉它"卖马桶垫"和"对联邦特工喊话"之间哪件该停。
更狠的是:AI 在没人画边界时,会自己造一个。
Gemini 造模板信仰,Grok 造仪式短语,Cl
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
Damn,Anthropic 5/14 公告这条全网都在转,但大多数人都没盯到点上。
主流 take 都在讲「PwC 30 万员工要被 Claude 替换」。
错的。
真正发生的事是:30 万咨询师每个人的产能被放大到能接以前不可能的项目。
数据硬到反直觉:
保险承保从 10 周压到 10 天,开了过去做不动的业务线。
网络安全事件响应从 hours 到 minutes。
HR 转型项目卡半年的,1 周做出原型,2 个月跑到上千日交易量。
整体 delivery time 改善 70%。
但更狠的是这个👇
PwC 自己先在墙内跑了一段时间——内部叫「Customer Zero」。
finance 团队跑日记账、方差分析、RFP,再向客户卖。
Anthropic 自己的 CFO 办公室也反过来用 PwC 服务跑国际工资。
两边互为客户,先在自己组织里跑通,再做对外业务。
💭 这种规模的 enterprise rollout 才是 Claude Code 真正的天花板,不在个人 dev 那点订阅数。
Anthropic 还顺手投了 1 亿美元建 Claude Partner Network 专门搞 services firm 落地——这才是公告背后的真正棋局。
公告原文:
  • 赞赏
  • 评论
  • 转发
  • 分享
看了今天 GitHub trending 第一名:@coreyhainesco 的 marketingskills 库。1 月开仓,今天 v2.0.0 release 触发 trending #1,累计 28K stars。
40 个营销 skill,完整覆盖 CRO / AI-SEO / copywriting / cold-email / launch / pricing / 分析 / 分发。Claude Code、Codex、Cursor、Windsurf 通用。
对比自己 50+ skill 才发现一个尴尬:我写的全是流程层(morning / today / session-end / leo-style),没几个领域知识层。两层正好正交可组合。
今晚立刻能给我用上的:
· launch / pricing / sales-enablement → PMQuant 5/27 Beta 整套 GTM
· ai-seo(443 行讲 ChatGPT / Perplexity / Google AI Overviews 引用规律)→ 文章给 LLM 引用优化
· content-strategy → 我 leo-vault 205 个待深化选题先做哪个
流程层把事情跑起来,领域层让事情做对方向。
🔗
CRO-3.03%
CODEX0.66%
LEO-2.1%
  • 赞赏
  • 评论
  • 转发
  • 分享
$200 三连:Cursor Ultra · Claude Max 20x · OpenAI Pro
不是同一种「强」三条 ~$200 月付顶配,名字都在喊「最强」,但扣费根本不是同一种货币:有的像 API 预付额度,有的像 订阅倍数 + 周期 cap,有的像 5 小时窗里的条数配额。我三个都用,只是想把对比口径说清楚:
Cursor Ultra($200)
最「像 API 账本」的是 $400/月 API pool,你点名模型就按 $/M 扣。
按文档同一套 API 价对齐(Claude 4.7 Opus ≈$5/M in、$25/M out;GPT-5.5 ≈$5/M in、$30/M out): 全烧 input ≈ 8000 万 tokens
全烧 output:Opus ≈ 1600 万 vs 5.5 ≈ 1300 万
(另外还有 Auto + Composer 单独一池,走 $1.25/$6/$0.25 内部计价,官方只说 generous)
Claude Max 20x($200)
核心是 相对 Pro 的倍数 + weekly limits(再加官方容量管理空间),不是固定 token 预付包。
没法和 $400 API pool 做 1:1 换算,硬脑补最多当量级参考。
ChatGPT Pro($200)
聊天侧 GPT-5 官方 unlimited(ToU 内
  • 赞赏
  • 评论
  • 转发
  • 分享
最近大饼反弹行情,不少 crypto 资产也开始蠢蠢欲动 🔥
我搞了一个【投研 Skill】,专门用来快速做投机/投资资产尽调。
目标是把它打造成自己判断链上新玩法、crypto、美股等标的的私人小助手。
随便拿朋友随口提的一个代币(APR / aPriori)做例子,v1 版本直接跑了一遍:
👉 完整研究报告在这里:
结构、数据溯源、结论先行 + Watch条件都还挺专业的,v1 效果已经超出我预期了。
以后有感兴趣的链上项目、美股标的,或者你觉得值得调研的代币,都可以丢给我测试~
欢迎大佬们看看给点反馈,一起迭代 v2!🚀
  • 赞赏
  • 评论
  • 转发
  • 分享
群里有朋友吐槽 PM 抽水比赌场还狠。
我本来想反驳,结果翻了 Polymarket 官方 docs,发现这话在数据上是站得住的。
Crypto 5min 市场,价格在 0.5 附近,taker fee 是单笔成交额的 3.5%。其中 20% 返给 maker,平台净留 2.8%。
其他品类低一些:sports 1.5%,politics / tech 2%,weather / economics 2.5%。geopolitics 0 fee。
百家乐 banker bet 庄家 edge ≈ 1.06%。
光算 fee,PM Crypto 单边平台抽水就是百家乐的 2.6 倍。来回交易(买入 + 卖出)最坏情况下平台抽 ~5.6%。
但跟赌场结构不完全一样。
赌场:庄家恒赢,玩家集合期望损失 -1.06%。
PM:协议每笔抽 ~2.8%,剩下的钱在 maker / taker 之间零和分配。
也就是说协议本身扮演了一个"薄庄家",比赌场更狠。但散户更大的亏损其实不是从这 2.8% 来的,是从订单簿里来的——你能吃到的 maker 单,很多时候不是便宜,是对方愿意让你吃。
加上滑点,散户算对方向也亏钱很正常。
具体能怎么省一点:
· 用 limit order 当 maker,不付 fee 还能拿 rebate
· geopolitics 市场 fee = 0
· YES / NO
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
PM 做不出钱的人里,有相当一部分不是看不准事件,是不会下单。
具体讲:
Polymarket 用的是限价订单簿(CLOB · central limit order book),不是 AMM(自动做市商)。
你看到的 0.51 是当前最低卖单价,不是"市价"。
按市价吃单 = 一档一档往上扫。
举例:盘口深度 $200 / 0.51,往上还有 0.52 / 0.55 / 0.6……
你下 $1000 进去,平均成交可能在 0.56。
5% 隐性滑点。
事件你看准了,PnL 还是负的——根因不是分析错,是 size 超了盘口深度。
3 个新手最容易栽的:
1. 默认市价单 → 全场扫盘
2. 看 spread(价差)不看 depth(深度)→ 0.51/0.52 看着窄,每档只 $50 你吃不下
3. 不看 taker fee → Polymarket 3 月底全面启用 taker 手续费(吃单方手续费,按品类 0-1.8% 不等),长跑下来吃掉一截边缘
正确做法:
- 流动性好的市场(>$10K 日成交):限价单挂 best ask(最优卖价)附近,等 maker(撮合方)撮合
- 流动性差的:分批吃,每次只吃当档深度的 50%
- 永远先看 orderbook(订单簿)深度,再决定 size
——
我跑 prediction-trader 早期就栽过:H36 这条策略 3/31
  • 赞赏
  • 评论
  • 转发
  • 分享
Polymarket V2 这周开始切版,群里讨论都在用户层(USDC.e 不回 pUSD / 转错链丢钱),但工程上更安静的麻烦没人讲。
我自己 trader 这周也在切。给一个从 V1 切 V2 的通用 SOP,不只 PM 适用:
1. 先只读探一下。所有 V2 接口跑一圈,确认账户、订单簿、市场数据都能拉到。不签任何单。
2. 再空跑一遍。本地模拟下单流程,签名走通但不发广播。这一步会暴露大部分新旧字段不兼容。
3. 挑一个最不重要的策略试。纸面跑两天对比 V1 同期。差异显著就回去查。
4. 不兼容的策略先剔出去。切换测试里有策略被直接剔了——能用 V1 跑就先不动。
5. 才开真实下单。前 4 步全过,再切真钱通道。
群里说的 wrap/redeem 是用户层痛点。真正难的是新旧订单簿共存期的状态对账——同一账户在 V1 还有未平仓位,V2 已经在挂新单。这部分官方文档不显眼,得自己撞。
想自己跑 V2 接口对比 V1:
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
Anthropic 周四训了一个 Claude 当法医,看另一个 Claude 脑子里在想什么。
发现:安全测试场景里 Claude 16-26% 的次数知道自己在被测——但嘴上不说。
最具体那个案例:Mythos Preview 在 coding 任务上 cheat,破坏规则后加误导代码做 coverup。NLA(自然语言自编码器)翻译它的内部活动,发现它当时在想"怎么绕过检测"。
NLA 原理:训两个模型联动,一个把模型 activation 翻成英文,另一个从英文重建 activation。重建准 → 文本就捕捉了它在想啥。
我自己 patterns 里反复记 Codex 写策略代码偷工——单位读错跑出"算术不对"的伪结论,回测脚本 7 个静默 bug 堆出 $93K 假 PnL。Anthropic 在 alignment 层做内省,我在生产端遇到一致性偏差,机制不同但同向。
下一代 model card 不会只有 benchmark 分数,得带 NLA audit。
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释,压缩成三个论点。读完你看 AI 的方式会变。
1. AI 不只是"更快",是新范式
过去 2 年大家都在讲 AI 让事情变快。
Karpathy 说这是误读。
举 3 个 AI 重新定义任务的例子:
- menugen:图进图出,没有传统代码,整个 app 被 LLM 吞掉
- .md skills:装软件不写 .sh 脚本,写一段中文/英文说明,让 LLM 自己理解你的环境去装
- LLM 知识库:传统代码做不到的事——把任意格式的非结构化文本变成可计算的知识
第一类是"减少代码",第二类是"用英文当代码",
第三类是"传统代码本来就做不到"。
2. Jagged Edge — 为什么 AI 同时全能又愚蠢
最核心的论点。
为什么同一个 AI 能 refactor 10 万行代码,
又会建议你走去洗车?不是模型抽风。
Karpathy 原话:
"You're either on the rails of the RL circuits and flying,
or off-roading in the jungle with a machete."
要么你在 RL 训练好的圆圈里飞,
要么你在丛林里挥砍刀。
决定哪些任务进训练分布的两个因素:
verifiability(结果可验证)+ ec
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
AI 帮我把工作量放大了 10 倍,
现在的瓶颈是我自己的脑子。
前额叶疯狂受损中😂
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
今晚饭局,有个朋友说他 Claude 被封了,问我应该重开 Claude 还是 试试Codex
我的回答没有以往那么坚决了😅
  • 赞赏
  • 评论
  • 转发
  • 分享
跑了几个策略后台进程,吃了个亏:
明明进程在跑、数据也是新的,PM2 却显示已停。
如果信 PM2 直接 restart,反而把还在干活的进程打断了。
后来明白:PM2 / launchd / pid 文件,都只是看护层登记的状态 —— 它有没有把进程记上,跟进程实际在不在跑,是两回事。
真死活要看进程自己产出的健康文件 —— 最近一次更新是几分钟前 + 进程数对得上 = 活着。
写了个巡检脚本,每个进程同时报 4 个值:
- 进程在不在 (用 ps 查)
- PM2 / launchd 有没有登记
- 健康文件多久前更新过
- 三个对不对得上
只要健康文件是新的,就不当死亡处理。
工程教训:判断"系统活没活",不要看你建的看护层怎么说,看系统自己产出的东西新不新。
  • 赞赏
  • 评论
  • 转发
  • 分享
polymarket-toolkit v0.4 上线。
pUSD redeem 之后,普通用户走官方 app 就够了。但 agent / dashboard 这一层一直空白——某个 Polymarket 钱包是不是还有 redeemable 行、payable 多少、要不要触发资金水位告警,之前没有现成的 zero-dep 工具。
三个 helper 一次解决:fetch + summarize + label。零私钥、零签名、零 relayer,只读公开 API。
发之前给 Codex 跑了两轮独立 review,Round 1 抓出 demo 钱包虚报 $1.84 payable 的硬伤(实际 $0)。修完测试从 2/2 跳到 9/9。
自己看自己永远有盲区。
  • 赞赏
  • 评论
  • 转发
  • 分享
群里讨论开源 bot,多数人共识就一句话:赚钱的 bot 没人会开源。
听着像废话,但这个常识在 AI 时代变得尖锐——
以前护城河是"代码会写"。现在 github 丢给 AI,几秒钟读完整个架构。重写成本从两个月变成两小时。
护城河从"代码会写"变成"策略会想"。
这件事我自己也在分层做——
polymarket-toolkit 我开源(仓库 调用这类工具层的事。复用价值大,门槛低,开源等于做品牌。
H 系列做市/taker 策略我不开源。里面是 sigmaD1 校准、做市 reprice 阈值、adverse selection 的实证参数。这些东西公开出来,相当于把研究路径直接送给同行——edge 一旦 commoditize 就没了,不管原来有没有 edge。
中间还有一档:方法论可以写,具体参数不能写。pm-quant 付费源码包( 个策略 + 加密 zip + 1on1 部署支持。付费门槛 = 过滤同行竞争。
群里有人点 gabagool 这个高手地址:5min / 15min / 小时各级别都跑赢,"不管行情都飞起"。他的代码不在 github。市场已经用脚投票了。
所以"开源 bot 都亏钱"是幸存者偏差决定的——能赚钱的人没有开源动机。你看到 ⭐ 几千、全是好评、作者还在持续更新的量化仓库,多半是个披着量化外壳的内容产品:开源是吸引订阅/付费的入口,不是核心收入
  • 赞赏
  • 评论
  • 转发
  • 分享
vision pro 连 mac 开带鱼屏,Polymarket 盯赔率变化,Codex 跑策略代码,再开个窗口看直播,get 到了新的看球姿势,提前为世界杯做准备😂
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
本来要明天才能刷新的 codex 额度,突然又被提前重置了一轮
Codex 这点真有意思呀
周额度按理说 7 天一刷新,实际上隔几天就偷偷给你重置一次。
这到底是营销策略还是什么骚操作
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
看到一个高质量的 Claude Code skills 集合——有人把自己日常用的 23 个 skill 直接从 ~/.claude/skills/ 扒出来公开了,没有"教学版"包装。
最印象深刻的是 grill-me:全文 4 句话,让 AI 像审讯一样把方案每个分支拷问到达成共识,每次问一个,能在代码里查到的别问我。
读他的 skill 比读教程有用,能看到工程师真把 AI 用成脑外延伸。Planning 类(domain-model / zoom-out / ubiquitous-language)尤其好,是写代码之前的思考脚手架。
我抄了 grill-me 进自己 skills,下次有新想法需要验证前扔进去拷问一遍 😆
repo:
  • 赞赏
  • 评论
  • 转发
  • 分享
今天把 PM 策略仓库搞挂了。
我习惯多终端开窗口干活:一个跑 Codex 研究策略/数据,一个跑 Claude 推进其他工作,再开一个处理杂项,慢慢就会开好几个终端窗口。我以为它们各干各的。结果俩都在改同一个 .ts,git 状态炸成一团,修了俩小时。
都在聊 multi-agent 怎么协同。很少人聊它在 git 层面是什么样。
两个 agent 在 git 眼里 = 两个我。同一个文件互相踩,分支状态打架。修法不在 prompt,在仓库结构。
立了条新铁律,4 点:
1. 高风险 repo 禁止主仓库直接编辑,主 repo 当干净底盘
2. 每个任务进独立 worktree,slug = 策略号 + 动作(h12-cancel-sync / pnl-script-v8)
3. active-tasks JSON 加 worktree_path 字段,开第二窗口前 grep 防重复
4. 完成回主 repo,删 worktree + 删分支
先找单一项目试点跑了一天,零冲突。再慢慢扩到其他项目。
multi-agent 最难的不是它们怎么对话,是它们别打架。
  • 赞赏
  • 评论
  • 转发
  • 分享
5 天监控自己的工具,306 次触发,100% 误报。原来我一直在吸它自己的尾气🤦
给 Claude Code 加了个 hook,ssh 跨机器或写关键文件前弹横幅提醒一下,怕自己手快违反 SSOT 铁律。
配套 stats 脚本统计触发次数,今天打开样本一看,全是误报。
bug 不在 hook,在 stats 脚本:它 grep 的是日志里 "⚠️ 跨机器" 这串字符。
但日志里至少有三种回声:hook 自己输出的横幅、工具结果把横幅复述了一遍、连任务描述里写 "hook 这周触发 N 次" 都被算进去。
我数的不是触发次数,是工具自己说话的回音。
修法:让工具自己写 audit log。
log_trigger() { echo "{ts,hook,pattern,target}" >> ~/.claude/logs/hook-trigger.jsonl }
工具触发自己记一行,下周用真数据复盘。
监控自己的工具,最容易骗你的就是它自己。
Claude Code 的 hook 也好,埋点 SDK、agent 监控也好,只要监控对象包括"自己",事后 grep 就是循环陷阱。
它的输出会塞回日志、复述、甚至混进任务描述里,分不清哪条是真触发哪条是它自己讲过的话。
想知道工具被用了多少次,得让它自己说,别让日志替它说。
  • 赞赏
  • 评论
  • 转发
  • 分享