Emil Ryd(@emilaryd )

Emil Ryd

@emilaryd

ai safety research and physics olympiads

294 Following 566 Followers

Emil Ryd@emilaryd

2026.05.05 16:16

New paper from MATS, Redwood, and Anthropic! If a capable model is strategically sandbagging, can we train it to stop when the only supervision we have comes from weaker models? We find that we can! Work done as part of the Anthropic-Redwood MATS stream. https://t.co/6Md3XMD6A6

Show more

0

0

21

465

46

Forward to community

Most Popular Users

240M Followers

119.4M Followers

Cristiano Ronaldo

107.4M Followers

106.8M Followers

91.9M Followers

79.7M Followers

71.3M Followers

68.7M Followers

61.9M Followers

41.7M Followers

37.9M Followers

31.9M Followers

29M Followers

National Geographic

27.8M Followers

25.7M Followers