之前讨论的负载均衡损失可能会导致稳定性问题。我们可以使用许多方法来稳定稀疏模型的训练,但这可能会牺牲模型质量。例如,引入 Dropout 可以提高稳定性,但会导致模型质量下降。 那么一个典型的门控网络是什么呢?一个典型的门控网络通常是一个带有 softmax 函数的简单的网络。这个网络将学习将输入发送给哪个 expert。如下所示: 在论文中,作者提到这个损失函数可能会导致专家网络之间的强烈耦合,因为一个专家网... https://www.blogger.com/u/2/profile/01972721458409429591
Detaylar, Kurgu Ve more index
Internet 2 hours 53 minutes ago matthew740f5ae6Web Directory Categories
Web Directory Search
New Site Listings