在介紹tcp發送函數之前得先介紹很關鍵的一個結構sk_buff,在linux中,sk_buff結構代表了一個報文: 然後見發送函數源碼,這裡不關註硬體支持的分散-聚集: 詳細的說明見註釋。 註意幾點主要的流程: 1.TCP以1mss為單元來發送數據,最大段大小基於MTU計算獲得,MTU是一個鏈路層的 ...
在介紹tcp發送函數之前得先介紹很關鍵的一個結構sk_buff,在linux中,sk_buff結構代表了一個報文:
然後見發送函數源碼,這裡不關註硬體支持的分散-聚集:
/* sendmsg系統調用在TCP層的實現 */ int tcp_sendmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg, size_t size) { struct iovec *iov; struct tcp_sock *tp = tcp_sk(sk); struct sk_buff *skb;/*一個報文*/ int iovlen, flags; int mss_now; int err, copied; long timeo; /* 獲取套介面的鎖 */ lock_sock(sk); TCP_CHECK_TIMER(sk); /* 根據標誌計算阻塞超時時間 */ flags = msg->msg_flags; timeo = sock_sndtimeo(sk, flags & MSG_DONTWAIT); /* Wait for a connection to finish. */ if ((1 << sk->sk_state) & ~(TCPF_ESTABLISHED | TCPF_CLOSE_WAIT))/* 只有這兩種狀態才能發送消息 */ if ((err = sk_stream_wait_connect(sk, &timeo)) != 0)/* 其它狀態下等待連接正確建立,超時則進行錯誤處理 */ goto out_err; /* This should be in poll */ clear_bit(SOCK_ASYNC_NOSPACE, &sk->sk_socket->flags); /* 獲得有效的MSS,如果支持OOB,則不能支持TSO,MSS則應當是比較小的值 */ mss_now = tcp_current_mss(sk, !(flags&MSG_OOB)); /* Ok commence sending. */ /* 獲取待發送緩衝區數組指針及其長度 */ iovlen = msg->msg_iovlen; iov = msg->msg_iov; /* copied表示從用戶數據塊複製到skb中的位元組數。 */ copied = 0; err = -EPIPE; /* 如果套介面存在錯誤,則不允許發送數據,返回EPIPE錯誤 */ if (sk->sk_err || (sk->sk_shutdown & SEND_SHUTDOWN)) goto do_error; while (--iovlen >= 0) {/* 處理所有待發送數據塊 */ /*要分段緩衝區的指針和長度*/ int seglen = iov->iov_len; unsigned char __user *from = iov->iov_base; iov++; while (seglen > 0) {/* 處理單個數據塊中的所有數據 */ int copy; /*取傳輸隊列的上一個sk_buff指針,這下麵一小段的目的是檢查 傳輸隊列是否有未滿段,未滿段是當前分段長度小於1mss。只有 當現有分段滿負荷時,才能生成新的數據分段*/ skb = sk->sk_write_queue.prev; /*隊列是一個雙向鏈表,通過隊列頭的prev來訪問套接字最後一個分段。 首先檢查傳輸隊列頭是否有數據分段,如果該值是NULL,就沒必要 檢查未滿分段。*/ if (!sk->sk_send_head ||/* 發送隊列為空,前面取得的skb無效 */ /* 如果skb有效,但是它已經沒有多餘的空間複製新數據了 */ (copy = mss_now - skb->len) <= 0) { /*為用戶數據創建一個新的分段*/ new_segment: /* 發送隊列中數據長度達到發送緩衝區的上限,等待緩衝區 */ if (!sk_stream_memory_free(sk)) goto wait_for_sndbuf; /*如果有足夠的記憶體,就為TCP數據分段分配新緩衝區。如果硬體 支持分散-聚集技術,就分配一個數據頁大小的緩衝區。否則就 分配大小為1mss的緩衝區。*/ skb = sk_stream_alloc_pskb(sk, select_size(sk, tp), 0, sk->sk_allocation);/* 分配新的skb */ /* 分配失敗,說明系統記憶體不足,等待記憶體釋放 */ if (!skb) goto wait_for_memory; /* 根據路由網路設備的特性,確定是否由硬體執行校驗和 */ if (sk->sk_route_caps & (NETIF_F_IP_CSUM | NETIF_F_NO_CSUM | NETIF_F_HW_CSUM)) skb->ip_summed = CHECKSUM_HW; skb_entail(sk, tp, skb);/* 將SKB新分段添加到發送隊列尾部 */ copy = mss_now;/* 本次需要複製的數據量是MSS */ } /* 要複製的數據長度copy不能大於當前段剩餘的長度, seglen的減法在下麵。*/ if (copy > seglen) copy = seglen; /* skb線性存儲區底部還有空間 */ if (skb_tailroom(skb) > 0) { /* 本次只複製skb存儲區底部剩餘空間大小的數據量 */ if (copy > skb_tailroom(skb)) copy = skb_tailroom(skb); /* 從用戶空間複製指定長度的數據到skb中,如果失敗,則退出 */ if ((err = skb_add_data(skb, from, copy)) != 0) goto do_fault; } /* 線性存儲區底部已經沒有空間了,複製到分散/聚集存儲區中 */ else { ...//忽略 } if (!copied)/* 如果沒有複製數據,則取消PSH標誌 */ TCP_SKB_CB(skb)->flags &= ~TCPCB_FLAG_PSH; /* 更新發送隊列最後一個包的序號 */ tp->write_seq += copy; /* 更新當前數據分段skb的結尾序號,以使其能夠包括當前段所 覆蓋的全部序列。*/ TCP_SKB_CB(skb)->end_seq += copy; skb_shinfo(skb)->tso_segs = 0; /* 更新數據複製的指針,使其指向下一個要複製的數據起始位置, 然後更新要複製的位元組數。*/ from += copy; copied += copy; /* 如果所有數據已經複製完畢則退出,會調用tcp_push()將傳輸 隊列中的數據分段發送出去。*/ if ((seglen -= copy) == 0 && iovlen == 0) goto out; /* 走到這裡說明還沒有將全部用戶緩衝區複製到套接字緩衝區,就檢查 如果當前skb中的數據小於mss,說明可以往裡面繼續複製數據。 或者發送的是OOB數據,則也跳過發送過程,繼續複製數據 */ if (skb->len != mss_now || (flags & MSG_OOB)) continue; /* 走到這裡說明當前數據段已滿。就調用foced_push()來檢查是否為 傳輸隊列中的最後一個分段設置了強制push標誌。如果設置了強制push 標誌,需要告訴接收端應用程式首先處理該數據。 必須立即發送數據,即上次發送後產生的數據已經超過通告視窗值的一半 */ if (forced_push(tp)) { /* 設置PSH標誌後發送數據 */ tcp_mark_push(tp, skb); /*然後根據Nagle演算法、擁塞視窗、發送視窗調用此函數來啟動 待發送分段的傳輸。*/ __tcp_push_pending_frames(sk, tp, mss_now, TCP_NAGLE_PUSH); } /* 雖然不是必鬚髮送數據,但是發送隊列上只存在當前段,也將其發送出去 */ /*如果不能強制push該數據,並且傳輸隊列中僅有一個數據段,就調用 tcp_push_one()來將該數據段push到傳輸隊列中。*/ else if (skb == sk->sk_send_head) tcp_push_one(sk, mss_now); /*然後在內部迴圈迭代中對剩餘的數據進行分段處理。*/ continue; wait_for_sndbuf: /* 由於發送隊列滿的原因導致等待 */ set_bit(SOCK_NOSPACE, &sk->sk_socket->flags); wait_for_memory: if (copied)/* 雖然沒有記憶體了,但是本次調用複製了數據到緩衝區,調用tcp_push將其發送出去 */ tcp_push(sk, tp, flags & ~MSG_MORE, mss_now, TCP_NAGLE_PUSH); /* 等待記憶體可用 */ if ((err = sk_stream_wait_memory(sk, &timeo)) != 0) goto do_error;/* 確實沒有記憶體了,超時後返回失敗 */ /* 睡眠後,MSS可能發生了變化,重新計算 */ mss_now = tcp_current_mss(sk, !(flags&MSG_OOB)); } } out: if (copied)/* 從用戶態複製了數據,發送它 */ tcp_push(sk, tp, flags, mss_now, tp->nonagle); TCP_CHECK_TIMER(sk); release_sock(sk);/* 釋放鎖以後返回 */ return copied; do_fault: if (!skb->len) {/* 複製數據失敗了,如果skb長度為0,說明是新分配的,釋放它 */ if (sk->sk_send_head == skb)/* 如果skb是發送隊列頭,則清空隊列頭 */ sk->sk_send_head = NULL; __skb_unlink(skb, skb->list); sk_stream_free_skb(sk, skb);/* 釋放skb */ } do_error: if (copied) goto out; out_err: err = sk_stream_error(sk, flags, err); TCP_CHECK_TIMER(sk); release_sock(sk); return err; }
詳細的說明見註釋。
註意幾點主要的流程:
1.TCP以1mss為單元來發送數據,最大段大小基於MTU計算獲得,MTU是一個鏈路層的特征參數,並且可以從tcp_current_mss()獲取。
2.sk_stream_alloc_pskb()為TCP數據分配一個新的緩衝區,它的最小長度是1mss。
3.skb_entail()將報文發往傳輸緩存區排隊,並計算已分配的緩衝區記憶體。
4.tcp_push_one()負責傳輸寫隊列中的一個數據段。__tcp_push_pending_frames()負責傳輸在寫隊列中排隊的多個數據段。